第3篇 实施篇
只有经过缜密的规划,才能实现大数据的宏观目标。只有通过合理的技术选型,使相应的资源合理组合配置,才能使大数据规划得以落地。本篇希望对读者在大数据实施过程中的技术选型给予一定的帮助和指导。
当用户经过规划,明确了项目的“时间(Schedule)-范围(Scope)-成本(Cost)”这个铁三角后,就进入大数据实施方案的技术选型环节。此时,用户同样面临“功能(Function)-性能(Performance)-成本(Cost)”这个铁三角的博弈,难免鱼和熊掌不可兼得。本篇围绕大数据实施方案的关键技术点,首先讨论大数据系统的并行计算框架。然后,介绍说明大数据分布式处理系统,同时分析大数据存储系统的技术构成。最后,探讨大数据对于机器学习与人工智能的应用价值。
需要指出的是,良好的实施,不但能满足基本的业务需求,而且能够为未来的业务发展建立良好的可扩展的架构。因此,我们首先需要明确大数据实施方案的主体和基本要素,并且说明大数据实施方案的技术特点及关键要素。
大数据实施方案的完整性。大数据实施方案,包含对各种硬件和软件的架构设计,对运行管理的流程设计,甚至对商业运营的业务模式设计等。大数据实施方案不仅仅是一个技术构建方案,而是要更加全面地考虑如何把大数据作为一项业务来运行,所以方案完整性是首先需要考虑的内容。
大数据架构的可扩展性。通常在大数据实施的开始阶段,会从一个小的规模做起,或者仅仅将部分业务系统纳入大数据系统的支持范围。随着业务的不断发展,用户对大数据使用业务能力的提升,工程人员对大数据系统的管理模式不断深入了解,将会需要在功能上和规模上对方案进行扩充。在这个时候,不应把方案推翻重做,而最好是对其逐步扩展。所以,大数据架构的可扩展性是非常重要的。
大数据平台的开放性。这种开放性指的是大数据方案是否支持不同厂商的软硬件,是否兼容现有的应用架构,是否支持与其他已有业务系统的集成,以及是否允许第三方基于该平台进行进一步扩展。作为大数据业务的用户,谁都不希望被绑定在一个固定的服务提供商上。因此,开放性将是吸引他们使用大数据服务的一个有力武器。而提供开放性的大数据服务,自然成为大数据服务提供商的一个重要任务。方案的开放性还指其对新技术的支持。在大数据发展的过程中,会不断地涌现出新的技术、硬件和软件,如果大数据业务绑死在某一种硬件、软件或者技术上,将会制约未来的发展。
大数据服务商的成熟性。大数据作为一种新技术服务,具备方案设计能力和实施能力的厂商并不多。因此,为了确保大数据能够成功实施,一个重要的参考指标就是看该方案已有多少成功案例。在选择大数据方案提供商时,我们需要考虑提供商是否能够提供全面的解决方案,而不能仅仅停留在技术提供商的层面。此外,在实施大数据的过程中会有很多客户化的工作。大数据方案提供商是否能够提供本地化服务,是否拥有本地化实施团队,将是确保能否在实施过程中快速解决问题的关键。
综合来看,在确定了大数据的业务战略并且完成实施规划后,企业面临的问题就是怎样将业务迁移到大数据平台上,并确保业务的成功上线,这是实施大数据方案要面临的执行问题。大数据系统不同的层次,带给用户使用的灵活程度各不相同,实施大数据方案的方式也有所差异。
与传统的业务模式不同,在基于大数据的业务模式中,业务和资源并不一定存在绑定的关系。在具体资源调配过程中,每个业务系统未必能涵盖从网络、存储、服务器等硬件资源到操作系统、数据库和应用服务器等软件资源。大数据业务的实施有其独有的特点,因此不能完全照搬以往IT系统实施的经验。事实上,如果考虑SOA和微服务架构,大数据业务相比于传统的IT业务,实施并未变得特别复杂。