1.2.3 数据处理有困境
前两小节提到的问题都属于数据来源的问题,而大数据除了数据来源存在困境,其数据处理过程在现在也存在困境,主要可以从企业和技术两个大方面进行讨论。
在企业方面,数据处理的概念更加倾向于是对数据进行控制。企业需要控制对数据的访问权,也需要知道数据的来源和去向、数据的动态情况、数据是否已被修改、数据的处理方式及相关决策等,因此企业对大数据的掌控能力就显得十分重要。在企业应用方面,大数据的处理困境主要有以下三个具体表现,如图1-6所示。
图1-6 大数据处理困境在企业方面的表现
1.缺乏大数据分析技能
一家零售公司的首席执行官曾让CIO构建一个客户推荐引擎,希望实现对用户的个性化推荐。但是由于数据分析技能的缺乏,该项目并不能按照预期的计划那样在半年内完成,因此,团队成员提出了做一个“假的推荐引擎”:默认所有人都会买床单,给不论买了什么的用户都推荐床单用品。
尽管不能否认这款引擎确实带动了企业的销售额,但是实际上它并未实现真正意义上的大数据处理下的个性化推荐,而这正是由于其对大数据分析技能的缺失导致的。
2.问题梳理不够全面
对问题的考虑不够全面也是企业在进行大数据处理应用上常犯的错误,许多公司考虑了大数据应用场景的各个方面,却忘记考虑意外发生时的处理办法。例如曾有一家跨国公司的大数据团队经过研究发现了很多值得应用的成果,并且计划通过云平台把这些成果让全公司共享。结果由于团队没有考虑网络堵塞的问题,全球各个分部无法顺畅提交数据进行数据分析,实际应用受限。
因为网络基础设施的故障导致大数据项目失败的案例不胜枚举,这给企业在进行大数据分析应用时带来了不小的挑战。
3.低估大数据复杂程度
还有的企业希望能够通过大数据分析建立一个完美的模型能够统一解决所有问题,实际上这是大大低估了大数据复杂程度的做法。
在美国曾有几个互联网金融公司专门做中小企业贷款的金融业务,由于中小企业贷款涉及的数据更复杂,且行业数据在金融业都是比较特殊的类别,根据不同的情况,合同的类型和报表标准都不同,这给互联网公司的工作人员带来了很多专业上的问题。
大数据团队希望利用大数据分析建立一个全能的数据模型解决所有问题,但由于数据的复杂程度过高,大数据团队不仅没能成功建立预想的数据模型,反而花了大量的时间去清理所收集到的数据。其他类似的例子还有许多,都反映了企业因低估大数据的复杂程度带来的数据处理难题。
除了在企业方面的数据处理困境,大数据在技术上也遇到了瓶颈。目前大数据的处理平台以Hadoop为主,但由于其体系缺乏多租户支持、多用户数据安全性能不够高、数据兼容困难等原因,很难成为公共云服务。因此实现大数据处理平台的更新也成为了大数据处理的重要问题。
无论是从企业在大数据的分析应用方面,还是从大数据行业的技术突破方面来看,大数据在数据处理上都确实遇到了不小的困境,需要新的思维方式和技术手段帮助创新。