第3章
企业大数据解决方案
企业在开展大数据战略时,往往面临多种实施解决方案的路径可供选择。由于企业需求、背景和环境的不同,所适用的解决方案和实现方式也会有所差异。对大多数企业而言,适合企业的解决方案才是最好的,而非是那些价格最贵、功能最全的。
不同解决方案之间有哪些区别?它们各自对于企业的要求和限制条件是什么?企业应该如何根据自身情况选择最合适的大数据解决方案?本章将重点介绍这些问题。
3.1 企业大数据解决方案实现方式
工欲善其事必先利其器,企业大数据解决方案既包括大数据产品和工具层面,又包括服务层面。企业大数据解决方案根据实现方式的不同可分为完全独立研发、直接购买第三方解决方案和借助第三方的力量进行联合开发三种。
3.1.1 独立研发
独立研发指的是企业内部通过组建大数据中心或部门,独立进行大数据项目的研发。企业独立研发大数据平台,在数据安全、技术可控、后期扩展等方面具有重要意义。
❑数据安全:独立研发过程中的所有数据从输入端到输出端的整个流通都在企业内部进行,数据不会因为平台的开发以及外部人员的介入而产生数据安全性问题。
❑技术可控:大数据平台的所有技术、组件、功能、代码等均由企业完全控制,这对于后期架构重构、代码优化、接口扩展、系统解耦等非常重要。
❑后期扩展:独立研发的大数据方案在应对业务需求更变、数据源增加、数据环境异构、系统部署升级、硬件平行扩展等运维过程中,会表现出更好的适应性、灵活性和扩展性。
但是,这种方式并不适合所有企业,它对企业来讲具有以下几个方面的要求和限制:
❑技术要求:要进行完全的独立开发,对于大数据解决方案的所有环节,例如架构、运维、开发、部署等具有非常高的技术要求。
❑解决问题的能力:在大数据解决方案的开发和落地过程中,会面临各种挑战与问题。
有些问题来自于客观运行环境,也有些来自于技术能力和业务对接过程中。这就要求大数据项目的策划者和推动者具有较高的分析问题、解决问题的能力。
❑时间投入:大数据技术的开发往往需要一定的人力和时间投入作为保障。与此同时,外部市场环境的瞬息万变导致大数据项目的价值需求也会与这种时间限定之间产生矛盾,因此企业也需要有效协调二者的关系。
❑资源精力:由于大数据解决方案是服务于企业所有体系和部门的,因此在实践过程中需要投入很大的资源和精力进行资源协调和利益平衡等;再加上企业初次实施大数据项目时的经验有限,因此在处理这些问题时需要投入的资源更多。
❑行业专家:大数据解决方案不是纯技术性的工作,而是结合了技术、数据和业务的全视角方案,这就在客观上要求企业内部需要有一批了解技术、数据和业务的复合型专家以及各个细分领域的资深带头人,这样才能保证方案落地的可靠性、有效性和价值性。
综上,独立自主研发的方式更适合具有下列特点的企业:企业内部有一批专家、具有非常强的解决问题的能力、较强的技术实力、充足的资源保障、对大数据没有较强的时间紧迫性要求。除此以外,企业对于数据安全、技术可控、后期运维方面的需求较为明显。
3.1.2 第三方解决方案
由于国外市场的开发性、企业运营的成熟性以及法律法规保障的完善性,很多国外的大型企业尤其是上市公司通常更愿意直接购买成熟的大数据解决方案。直接购买第三方成熟的解决方案具有如下优势:
❑标准解决方案:利于在内部各个办事处、子公司、子体系内的推广应用,整个部署、管理和应用都是相对标准化、流程化、规范化的,符合现代企业运营的要求。
❑弹性付费方式:第三方解决方案尤其是云服务都允许客户根据自身需求进行资源的弹性配置,然后再做弹性付费,这是一种非常灵活的付费方式。
❑动态资源配置:对于企业大多数需求的变更,都可以通过灵活的资源设置来匹配,这是一种简易且高效的资源配置与供需匹配方式。
❑行业经验积累:很多第三方解决方案都会根据行业做聚焦和细分,并推出行业性的垂直解决方案,提供比较成熟的环境配套、组件搭配、框架优化和应用模型等,这对于企业快速将大数据进行成果转化具有极其重要的指导意义。从一定程度上看,不同的大数据技术方案在技术本身差异不大的前提下,成熟的行业应用和价值落地模型则是企业大数据价值差异化的关键。
❑自动化运维服务:基于云平台的解决方案,服务供应商将提供自动化运维管理能力,这将大幅度降低企业日后的运维成本。
❑可靠的防护体系:安全一直都是IT关心的焦点之一,云平台的解决方案服务提供商都会提供全面的安全解决方案,并通过全方位纵深防御体系来保障云服务的安全,企业无需为安全担忧。
第三方解决方案在提供了一定的安全性、便利性、可靠性的同时,也会带来一定的不足:
❑无法提供定制化服务:即使能进行弹性配置,前提也是标准化的组件或服务,其中都是将行业内的通用应用规则进行固化,因此无法根据不同企业的需求进行定制开发,这在客观上会限制企业内部个性化需求的实现。
❑关键技术的不可见:第三方解决方案都会对关键技术、组件等进行封装或加密处理,使得其中的关键技术不可见,这将不利于企业的技术积累和创新。
❑云服务的可靠性:大多数的云服务在正常情况下都会提供相对稳定的可靠性,但在某些极端条件下,云服务的可靠性会面临巨大考验。比如,在双11这样的大型活动中,某云服务商会调用所有可用资源来保障其自身的可靠性,进而会对其他客户对云平台服务的可靠性造成威胁。
❑很难进行二次开发:第三方解决方案由于对关键技术的封装将严重限制企业根据自身需求进行二次开发,即使提供了一定的API或REST服务,也只能在既有功能下进行二次调用。
❑云数据的安全性:基于云端的大数据解决方案应用的前提是将数据放到云端(通常是第三方服务平台),这对于企业意味着数据存在安全隐患和泄露风险。对很多大型企业来讲数据即企业机密,尤其是有关企业核心竞争力的数据将不被允许在企业外部流通。
综上,直接采用第三方解决方案更适合希望借助第三方的平台快速进入大数据工作状态,借助其成熟经验将大数据的价值迅速落地,并在后期运维过程中不想投入太多的企业;但对于技术完全可控、二次开发需求大、数据安全要求高的企业将不适用。
第三方大数据方案服务商非常多,甚至可以说有一个大数据生态圈。在这个生态圈中既有能够实现端到端的完整链条的整合解决方案,也有侧重于数据采集、数据预处理、数据存储、数据挖掘分析、数据可视化等环节的垂直型方案。国内的服务提供商包括阿里巴巴、百度、腾讯、华为等,国际大数据巨头包括Amazon、Oracle、SAP、Dell、TERADATA、EMC、Opower、Splunk、Intel、Google、Microsoft、IBM、HP等。
以阿里巴巴为例,阿里巴巴提供的阿里云是中国最成熟也是应用最为广泛的大数据解决方案之一。阿里云不仅提供大数据方案的服务,更提供了包括云计算、安全、域名与网站等不同服务。在大数据领域,阿里巴巴提供的服务叫做“大数据(数加)”,其中包括数据应用、数据分析展现、人工智能、大数据基础服务四类。如图3-1所示为阿里云大数据解决方案内容。
图3-1 阿里云大数据解决方案
1.数据应用
推荐引擎
推荐引擎(Recommendation Engine,Rec Eng,)是在阿里云计算环境下建立的一套推荐服务框架,目标是让广大中小互联网企业能够在这套框架上快速地搭建满足自身业务需求的推荐服务。
它基于阿里云的一体化部署(Saa S),为推荐业务定义了一整套规范,同时提供了默认算法模板以及自定义功能;支持接入实时日志,以及实时修正API;通过多种测试手段和监控方式为业务决策提供参考。如图3-2所示是阿里云的推荐引擎配置界面。
图3-2 阿里云的推荐引擎
公众趋势分析
公众趋势分析是基于全网公开发布数据,结合媒体传播路径和受众群体画像,利用语义分析、情感算法和机器学习等大数据技术,识别公众对品牌形象、热点事件和公共政策的认知趋势。
它全面覆盖全网公开的数据(千万源站,每日更新20亿网页),能最快2分钟级别获得数据;通过机器学习、自然语言、文本处理的协同处理等提供精准有效的结果,结合分级告警、智能分析、协同处理和深度集成等为客户提供丰富的服务。如图3-3所示为阿里云公众趋势分析报表。
图3-3 阿里云公众趋势分析
数据集成
数据集成(Data Integration)是阿里巴巴对外提供的稳定高效、弹性伸缩的数据集成平台,为阿里云大数据计算引擎(包括Max Compute、Analytic DB、OSS)提供离线的批量数据进出的通道。有别于传统的客户端点对点同步运行工具,数据集成本身以公有云服务为基本设计目标,集群化、服务化、多租户、水平扩展等功能都是其基本实现要求。阿里巴巴自己的采云间、御膳房、聚石塔、孔明灯的后台数据同步均是基于数据集成完成各自的数据传输需求。
目前,数据集成支持的数据通道包括:关系型数据库、No SQL数据存储、数据仓库、结构化存储以及文本,通过离线数据同步的模式以读取Snapshot的方式从源端传输到目的端。但目前只支持结构化(或可以转换为结构化)的数据,不支持多个地域之间数据同步,本身不提供数据流的消费方式,即用户不能直接通过数据集成的API消费数据流。如图3-4所示为阿里云数据集成的配置界面。
图3-4 阿里云数据集成配置
移动数据分析
移动数据分析(Mobile Analytics)是阿里云推出的一款移动App数据统计分析产品,提供通用的多维度用户行为分析,支持日志自主分析,助力移动开发者实现基于大数据技术的精细化运营、提升产品质量和体验、增强用户黏性。
移动分析能采集用户行为和应用性能数据,通过秒级的实时计算,为客户提供丰富的维度统计报表。同时,它还能通过与移动加速、移动推送、移动域名解析等合力为移动开发者提供更完善的移动服务。如图3-5所示为阿里云移动数据分析报告界面。
图3-5 阿里云移动数据分析
提示
阿里巴巴还有另外一套移动数据分析产品——友盟,目前友盟已经跟缔元信网络数据、CNZZ三家公司合并并统一更名【友盟+】,提供包括针对网站和App的统计分析服务,针对游戏、广告和线下分析的行业数据解决方案、自助智能分析,针对微社区、分享和推送的运营工具全域运营指数和运营报告。
数据市场相关API及应用
阿里云允许自身以及第三方企业通过API的形式提供大数据应用服务,它的定位是软件交易及交付平台,作为2016年阿里云的战略发展点,承接着中国云生态各个链条产品的落地。目前,入驻云市场的优秀ISV遍布国内外,提供围绕云计算产品的软件应用及服务,包括但不限于基础软件、服务市场、行业软件、企业应用、建站市场等。如图3-6所示为阿里云数据市场相关API及应用界面。
图3-6 阿里云数据市场相关API及应用
2.数据分析展现
Data V数据可视化
Data V是一个可视化产品组件。相比于传统图表与数据仪表盘,其可视化致力于用更生动、友好的形式,即时呈现隐藏在瞬息万变且庞杂数据背后的业务洞察。Data V提供指挥中心、地理分析、实时监控、汇报展示等多种场景模版来帮助客户解决设计难题,并通过多种图表、数据源接入、图形化操作方式满足开发和设计需要,最终在终端适配多分辨率与发布方式,满足不同场合下的使用。如图3-7所示为阿里云Data V数据可视化界面。
图3-7 阿里云Data V数据可视化
Quick BI
Quick BI是一个大数据商业智能套件,提供海量数据实时在线分析、拖拽式操作、丰富的可视化效果,帮助客户更快地完成数据分析、业务数据探查。该产品更多地侧重于通过快速的数据整合、分析和可视化的方式提供简易可操作的数据分析服务。
Quick BI内置柱状图、线图、饼图、雷达图、散点图等20多种可视化图表,可通过类似于Excel的操作方式进行多维数据分析;整个分析过程都是实时的,支持RDS、Max Compute(原ODPS)、Analytic DB等多种云数据源;通过智能加速引擎针对海量数据提供秒级响应。如图3-8所示为阿里云Quick BI开始界面。
图3-8 阿里云Quick BI界面
画像分析
画像分析所适用的场景主要是结合阿里云分析型数据库(Analytics Data Base),将分布在多个存储资源的数据整合起来,在标签模型上构建大数据画像类的交互式分析应用,让业务人员可以自由灵活地分析这些对象各种属性与行为之间的关联性。它可以广泛应用于工业设备画像分析、企业经营画像分析、用户行为画像分析等多个场景。
大数据画像类分析基于行为等明细数据产生,通过从半结构化数据中抽取特征并结合预测、评分、文本特征提取等算法技术来进一步挖掘有效用户特征。在交互式分析过程中根据不断调整的筛选条件、维度组合、下钻、上卷能够快速返回结果,直到获取到足够多的信息。如图3-9所示为阿里云画像分析。
图3-9 阿里云画像分析
郡县图治
“郡县治,天下安”,区域发展亟需响应“互联网”行动计划,敏捷应对经济新常态。“郡县图治”能够提供直观的数据可视化技术,整合政府统计数据和互联网数据源,动态反映当前区域经济的发展态势,集中呈现当地基础产业、特色产业、内需消费特征等各类关键指标,民生经济一览无余,为宏观决策提供分析依据和辅助支撑。“郡县图治”基于云计算环境部署,具备多种可配置参数,由阿里云实时推送互联网数据分析的结果,并提供全链路维护和自动化升级服务。如图3-10所示为阿里“云郡县图治”报告。
图3-10 阿里云“郡县图治”
3.人工智能
机器学习
阿里云机器学习平台是构建在阿里云Max Compute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。该平台为算法开发者提供了丰富的MPI、PS、BSP等编程框架和数据存取接口,同时为算法使用者提供了基于Web的IDE可视化实验搭建控制台。
它是一站式的算法与智能应用的开发、发布与分享的平台,所有工作都在一个平台上完成,减少了多平台转换、迁移、集成等繁琐问题;支持处理亿万级大规模数据,适用于绝大多数企业数据规模;基于工作流的思路,通过简单的拖拽即可完成数据挖掘、数据分析等功能。如图3-11所示为阿里云机器学习平台工作流操作界面。
图3-11 阿里云机器学习平台
智能语音交互
智能语音交互(Intelligent Speech Interaction),是基于语音和自然语言技术构建的在线服务,通过提供语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。
智能语音交互提供的三类服务:
❑语音识别(ASR):它可以将语音转换成文字,支持多轨WAV格式的长语音文件识别、8k A-Law WAV、16k A-Law WAV、8k 16bit PCM、16k 16bit PCM的格式,但目前语音只能识别普通话。
❑语音合成(TTS):它提供的是将文字转换为声音的能力。
❑自然语言理解(NLU):集语义解析、智能问答、意图识别等功能于一体,让应用具备理解能力。
印刷文字识别
印刷文字识别是OCR(Optical Character Recognition,光学字符识别)的具体应用,它提供了包含多种场景下的文字识别,其中包括身份证证件识别、驾驶证识别、行驶证识别、营业执照识别、门店招牌识别、英文识别。
人脸识别
人脸服务是一款用于提供图像和视频帧中人脸分析的在线服务,通过提供人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等,可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等各种场景。
通用图像识别
通用图像分析服务是一款用于提供图像内容分析和理解的在线服务产品。“通用”一词是指,在该服务中提供的算法API模块可以应用于各种图像领域,没有具体业务场景、垂直领域等场景限制。该服务旨在提供一些通用的图像分析和理解算法API模块,开发者和企业可以通过这些模块组合,结合自身领域特点,独立开发图像分离和理解系统,满足自身特定需求。
电商图像分析
电商图像分析服务是一款用于提供电商平台环境下的图像分析的在线服务产品。该产品提供若干图像分析和理解技术的在线API服务给开发者和企业使用,其中包括牛皮癣图像识别、图像背景分析、炒信图像识别等独立服务模块。这些独立技术模块可应用于电商平台下的商品主图、副图等质量判断、选品投放过滤、搜索和推荐等业务场景。
机器翻译
机器翻译(Machine Translation)通过阿里巴巴的海量电商数据,结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠的在线翻译服务。
4.大数据基础服务
大数据开发套件
大数据开发套件(Data IDE)是阿里巴巴集团推出的大数据领域平台级产品,它提供了一站式大数据开发、管理、分析、挖掘、共享、交换等端到端的解决方案,其利用Max Compute(原名ODPS)在几分钟内可将原始数据转变为业务洞察的海量数据处理能力,整个过程都是通过对可视化组件的拖拽来实现。如图3-12所示为阿里云大数据开发套件配置界面。
图3-12 阿里云大数据开发套件
大数据计算服务
大数据计算服务(Max Compute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。Max Compute主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。Max Compute已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。如图3-13所示为大数据计算服务界面。
图3-13 阿里云大数据计算服务
分析型数据库
阿里云分析型数据库(原名:分析数据库服务ADS),则是一套RT-OLAP(Realtime OLAP,实时OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无需预先建模,而利用云计算技术,分析型数据库可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,实现百亿数据毫秒级计算。如图3-14所示为阿里云分析型数据库使用界面。
图3-14 阿里云分析型数据库
批量计算
批量计算(Batch Compute)是一种适用于大规模并行批处理作业的分布式云服务。Batch Compute可支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。如图3-15所示为阿里云批量计算作业配置。
图3-15 阿里云批量计算
3.1.3 联合开发
联合开发是一种介于上述两种解决方案的折中方式,它是企业与第三方服务商一起进行大数据解决方案开发的方式。这种方式能融合二者的优点,并对缺点进行有效补足:
❑技术可控性强。联合开发过程中所有的源代码都是对企业开放的,有利于企业自身技术积累和技术创新;另外,基于对产品的完全可控性,企业也可以借此申请技术和产品专利,这对于增强企业核心竞争力、增加行业进入壁垒、提高市场覆盖规模、提高企业技术高度具有非常高的战略价值。
❑数据安全性高。联合开发都是完全在企业内部封闭进行的,这将有效保障企业数据安全。
❑开发周期较短。借助于第三方服务商的成熟经验,可以在架构设计、代码开发、测试上线、后期运维中提供非常多的宝贵经验,甚至很多大型第三方服务商还提供了可供二次开发的“半成品”类的大数据产品、组件和服务,这些都能够极大地缩短开发周期。
❑二次开发灵活。正是由于所有的代码完全由企业掌控,企业在后期二次开发、升级和个性化定制过程中具有了完全自主性。
❑价值落地较快。第三方服务商可提供成熟的价值落地场景和数据应用模型,并且可以根据企业数据规划和需求提供更新、更个性化的价值落地应用,极大地促进了大数据价值落地。
综上,联合开发方式更适合那些想要对数据、技术完全可控,并且将大数据战略作为重要发展战略和核心竞争力的企业,这些企业通常内部已经具有一定的技术实力、较多的行业专家、相对明确的数据规划和预期。