大数据技术入门(第2版)
上QQ阅读APP看书,第一时间看更新

1.5 企业如何走向大数据

对于企业而言,构建大数据平台,是个系统性的工程。企业可以选择以增量方式实现大数据解决方案。不是每个分析和报告需求都需要大数据解决方案。随着大数据技术的到来,我们会问自己:“大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了新的业务机会?”,“企业IT部门需要掌握哪些技能来理解和分析商用的大数据解决方案?”,“现有企业数据和来自外部的数据的复杂性”,“哪些维度可帮助评估大数据解决方案的可行性?”。

为了回答上述这些问题,业内专业人士提出了以下多种维度来评估大数据解决方案的可行性。企业应该依据自身业务的特点,为每个维度分配一个权重和优先级:

· 数据整合和分析所带来的业务价值。

· 数据整合(无论是新来源的数据还是原有数据)后的数据治理考虑。

· 企业是否自己拥有大数据技术人员,厂商是否有足够的技术支持人员。

· 整个数据量。

· 各种各样的数据源、数据类型和数据格式。

· 生成数据的速度,需要对它处理的速度。

· 数据的真实性,或者数据的不确定性和可信赖性。

1.5.1 业务价值维度

许多企业想知道,大数据产品能否帮助他们找到业务机会。所以,业务价值维度是指通过大数据技术可以为企业获取哪些新业务或者解决哪些现有的问题?这需要确定和识别大数据的业务场景,并给出关键绩效指标。这包括研究竞争对手的行动,知晓客户在寻找什么。

1.5.2 数据维度

数据维度包括数据优先级维度、数据复杂性维度、数据量维度、数据种类维度、数据处理速度和数据可信度。

首先要为企业(或政府部门)的现有数据整理出一个编目(清单),用于识别内部的应用系统中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么就不需要使用来自外部的数据。有些客户有一些归档数据,分析归档数据来获得新的业务价值。在有些时候,包括日志文件、错误文件和来自应用程序的操作数据都是宝贵信息的潜在来源。

其次要确定数据复杂性是否在增长?数据复杂性的增长可能表现在数据量、种类、速度和真实性方面。然后要判断数据量是否已增长?如果满足以下条件,企业可考虑大数据解决方案:

· 数据大小达到PB和EB级,而且未来有可能增长到ZB级别。

· 数据量给传统系统(例如关系型数据库)的存储、查询、共享、分析和可视化数据带来挑战。

还有一点是,数据种类是否已增多?如果满足以下条件,那可能需要大数据解决方案:

· 数据内容和结构无法预期或预测。

· 数据格式各不相同,包括结构化、半结构化和非结构化数据。用户和机器能够以任何格式生成数据,例如:Microsoft Word文件、Microsoft Excel电子表格、Microsoft PowerPoint演示文稿、PDF文件、社交媒体、Web和软件日志、电子邮件、来自相机的照片和视频、传感设备数据、基因组和医疗记录。

· 不断出现新的数据类型。

最后还要考虑的是,数据的增长和处理的速度。是否需要即时响应,是否需要实时处理传入的数据。对于数据是否值得信赖,如果满足以下条件,那么需要考虑使用大数据解决方案:

· 数据的真实性或准确性未知。

· 数据包含模糊不清的信息。

· 不清楚数据是否完整。

如果数据的量、种类、速度或真实性具有合理的复杂性,那么就采用大数据解决方案。对于更复杂的数据,需要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。

1.5.3 现有IT环境和成本维度

对于想要通过大数据分析获取业务价值,我们还要考虑当前的IT环境是否可扩展。与企业IT部门沟通,询问以下问题,确定能否扩展现有的IT平台?

· 当前的数据集是否非常大,是否达到了TB或PB数量级?

· 现有的数据仓库系统是否包含所有数据?

· 是否有大量冷数据(人们很少接触的数据)未分析,可以通过分析这些数据获得业务价值吗?

· 是否需要丢弃数据,因为无法存储或处理它?

· 是否希望在复杂且大量的数据上执行数据探索?

· 是否希望对非结构化数据进行分析?

对于这些问题的回答,可以帮助企业判断是扩充现有数据仓库系统还是部署一套新的大数据平台软件。还有一点,我们要比较这两个方案的成本。扩展现有IT环境与部署大数据系统的成本和可行性取决于:

· 现有工具和技术。

· 现有系统的可伸缩性。

· 现有环境的处理能力。

· 现有平台的存储能力。

· 执行的治理和策略。

· 现有应用系统的异构性。

· 企业IT部门的技术能力(包括为此需要新招人员的成本)。

· 从新数据源收集的数据量和成本。

· 新业务的复杂性。

我们要考虑大数据工具和技术需要的基础架构、硬件、软件和维护的成本。大数据解决方案可以采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提升。企业可仔细列出问题的范围和解决方案带来的预期收益。如果该范围太小,业务收益将无法实现,如果范围太大,获得资金和在恰当的期限内完成项目就会很有挑战性。

对于成本维度,我们还需要考虑是否已有合适的技术人员?大数据解决方案需要特定的技能来理解和分析大数据需求,并维护大数据系统。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的知识。这包括大数据建模、统计、分析等方面的能力。在实施一个新的大数据项目之前,确保已安排了合适的人员,他们熟悉该领域、能分析大量数据、而且能从数据生成有意义且有用的业务机会。

基于笔者的大数据经验,我们推荐企业采用基于公有云的大数据平台。这些平台往往技术相对成熟、成本低廉(按需付费),企业自身不需要扩充大数据技术人员。企业可以把大量的原生数据(往往包含大量的无用信息)源源不断地导入这些大数据平台,然后通过平台上的查询和统计分析工具对数据进行初步处理,把有用的结果数据导出到现有的企业IT系统上做最后的分析处理。

1.5.4 数据治理维度

在决定是否实现一个大数据平台时,企业要特别关注那些新数据源和新的数据元素类型,这些数据所有权可能尚未明确定义。国家的一些规章制度可能会禁止企业获取和使用的数据。例如,在医疗行业,直接获取病人数据是否合法?企业的业务流程可能需要修改,以便能够获取、存储和访问外部数据。下面是一些数据治理的问题。

· 安全性和隐私:在不违反法规和隐私等前提下,可以访问哪些数据?可以存储哪些数据?哪些数据应加密?谁可以查看这些数据?

· 数据的标准化:数据是否有标准格式?是否有专用的格式?部分数据是否为非标准格式?

· 数据可用的时段:数据是否只在一个允许的时段才可用?

· 数据的所有权:谁拥有该数据?是否拥有适当的访问权和权限来使用数据?

· 允许的用法:允许如何使用该数据?

总之,不是所有大数据业务情形都需要大数据解决方案。竞争对手在做什么?哪些市场力量在发挥作用?客户想要什么?使用上面的几个维度,可以帮助企业确定大数据解决方案是否适合它的业务情形。