1.6 数据的价值与变现
1.6.1 数据的变现
大数据已成为新兴产业的热点之一,但也遇到很大的问题,就是大数据如何变现的问题。我们需要分析一下已知的数据变现的案例,才能找到变现的通用路径。
从沃尔玛的啤酒和尿布的故事,以及现在购物网站上的推荐,可以把数据的变现分成两个环节:一个环节为显示数据;另一个环节为决策。
在沃尔玛的尿布和啤酒的故事中,首先是通过数据挖掘发现啤酒的销售跟尿布销售的关联性,由此得到数据挖掘的一个数据结果;其次是管理人员根据数据结果做出决策,在超市货架上将啤酒摆放在尿布的旁边,因此增加销售,产生额外的效益。
同样,从购物网站的推荐的工作中也可以看出相似的过程。如果在网上点了一个尿布,网站推荐一个啤酒,购物者由此获得数据挖掘的结果数据,但如果购物者不做相应的决策,即不选择啤酒,而直接将尿布放到购物车,并最终完成付款,那么这个数据挖掘工作是没有价值的。
由此可见,大数据开发结果本身并不能产生直接效益,它通过影响管理层的决策而产生间接效益。管理人员根据数据做出决策,正确的决策及相应的执行才产生价值。如同战争中正确的情报带来的胜利。
一个决策的影响,大到数十亿美元盈亏的投资,小到只浪费点汽油和时间的出行。无论政府还是企业、个人,无时无刻不在做出各种决策。每个决策都必须依赖足够的信息,而信息都来自数据。用数据产生的结果引导决策,可以产生直接的效益。
1.6.2 决策产生价值
数据通过为决策提供支持而间接产生价值,即人们是通过决策来实现数据的价值。决策离不开可靠的信息,数据是信息的主要来源,数据通过转换变为决策者可利用的信息而获得价值,并且得到回报。
决策可分为自动决策和人工决策。自动决策虽然更为直接和方便,但可应用场合较少,更多的为人工决策。所以数据技术的本质是将物理上产生的大数据转换成人眼可识别的小数据,再将小数据变为大脑可以快速直观吸取的信息,从而产生它的价值。
在互联网上采用数据挖掘就是典型的大数据应用。图书电子商务网站会通过搜集消费者以前的购物消费习惯,对消费者过去浏览过的、购买的书籍以及在购买其他商品的同时购买的书籍进行数据挖掘,一般采用的是购物篮分析算法。当一个新的用户登录网站后选择了一本书,网站后台工作程序就可通过有方向的数据挖掘得出相关书籍推荐,并且在快速计算后将相关书籍的清单展示给该用户,实现一对一的推荐。
但是,这种后台数据挖掘的计算以及书籍的推荐显然没有产生任何效益,只有用户对于网站的自动推荐产生兴趣,点击推荐的书并且加入购物车购买以后,整个流程才会增加效益、产生价值。
所以,真正变现的环节是人的选择,其他的只是参考。假设有一个人知道网站推荐是有目的的推荐,从而有意不点击推荐项目,那么数据挖掘的任何工作都不会产生效益。由此可以得出,大数据应用最后产生价值的主要环节在于人们的决策。
在CCTV2的一期财经节目中,主持人邀请京东CEO刘强东和财经作家吴晓波一起座谈,其中提到京东客户购买手机时从下单到快递员送货上门只需7分钟,其速度相当快。
在这个惊人的大数据应用案例中,京东通过大数据预测预先把手机派送到小区附近,当客户下单时实现了迅速送货上门。京东是通过对流程进行分析,用大数据对购买趋势进行预测,再根据预测结果,派送员将货物派送到小区。由此可见,这其中的核心还是派送员的决策。
作为一个大数据在电商行业的典型案例,其他行业难以直接模仿。这些行业中,遇到的问题和电商不同,数据的作用不在于如何快速送货,但应该可以找出这些行业在日常工作中的决策点,即需要决策的是什么,什么能够提高决策执行的速度,做这些决策时需要什么数据,能够提前做什么,从这些角度思考就能发现大数据的价值。所以尽管其他单位的工作场景在自己公司不能实现,但每个单位无时无刻不在做大大小小的决策。
所以,应该从决策的角度分析问题,找到很多大数据的应用领域。
1.6.3 数据的价值特点
作为决策支持工具的数据,如果把它当作一个产品,它和其他产品有什么区别呢?
第一大特征,数据的价值可有可无,可以被利用也可以被忽视。“可有可无”是指数据只是作为决策的辅助工具,当人在做决策的时候可以用到数据也可以不用。如同战争时期,不论有无情报都可以打仗,区别在于是打了胜仗还是打了败仗。没有情报有时也可以打胜仗。在图书电商网站买书,无论有没有推荐都可以买书,区别在买多还是买少。没有推荐有人也会买很多书。数据对决策的结果有影响,但对行为并非必须,这是第一大特征。
第二大特征,数量可多可少。数据越多,决策的正确性越高,胜算越大,但这些都不是必须的,很少的关键数据也能影响很大的决策。
第三个特征,价值可大可小。即利用数据后最小收益可能开车在路上节约了10分钟,而最大收益可能是在一个投资项目中获得数十亿元人民币的收益,所以它的价值具有不确定性。
而其他产品,比如手机,拥有手机就可以在移动状态下打电话,没有就不可以,有和没有是两种完全不同的状态。
1.6.4 数据服务的商业模式
在数据时代,会出现与数据有关的新服务。这些服务主要集中在数据获取环节和数据的增值服务环节。
第一个环节为数据的采集和储存。这个工作主要负责采集数据,或者是负责从不同的数据源收集数据把它集中起来,或者将不可机读的数据转化为可机读。
第二个环节为数据增值服务。这个工作在拿到数据之后,提供依赖于数据的服务。比如,开发一个可以利用这些数据的软件系统,或者把数据和软件打包后面向最终用户提供云服务。也有可能只提供一个解决方案,而数据由客户自己购买或用客户自己的数据,最终客户直接将这些数据用于决策而不需要二次开发。
数据提供一般有三种模式:第一种是提供最终数据的查询,提供一个满足检索条件的数据集合,需要唯一的条件匹配,比如身份证号码、企业代码证号码;第二种是提供统计数据,根据查询条件给出统计数据,但不提供个体数据;第三种是提供原始粒度的数据,按照本书的介绍,如若要采用“鹰眼”技术,则必须采用原始粒度的数据进行分析。
每一个数据采集和服务商都不希望自己仅成为一个数据的提供者,而是希望提供更多的增值服务。但是,客户的需求多种多样,难以确定客户需要按什么维度去统计。对数据的汇总实际就是对数据维度的裁剪,就是对数据有效信息的过滤,仅提供统计数据会明显限制客户可以利用数据实现的功能,也减小了数据服务商的市场。
按照专业分工的要求,修路就是修路,开车就是开车,不可能哪家公司修了高速公路还必须租这家公司的车才能在上面走。同理,如果数据提供商要求客户只能采购自己的软件访问数据,而自己的软件功能又不能满足客户需求,就会违反专业分工的要求,路会越走越窄。
实际上,卖数据是一个很好的商业模式。卖方提供数据,买方向卖方订购数据,因为数据是不断更新的,所以买方买的是旧数据,第二天又会购买新的数据,这种盈利模式没有问题。
数据服务商为保护自己的数据资源,最好的方式不是不允许别人把自己的数据装载到他的服务器上,而是在技术上提供更方便的模式,可以方便地直接访问放在云服务器上的数据,而不需要抽取数据。
根据数据仓库技术,需要在本地建立一个数据仓库(或数据集市)服务器,把原始数据从异构的数据源中抽取过来。如果原始数据不是关系数据库,可能会需要先建立一个关系数据库,将原始数据导入到这个数据库中,再通过编制的ETL程序把数据放入数据仓库里。
这种模式多了一个比较麻烦的环节。如果作为一个数据提供商,可以提供一个接口,只要编制一个SQL语句加上IP地址和一定格式参数,直接访问服务器,就可以定时提取数据。这样不仅提高了效率,也减少了客户本地服务器的存储,而数据提供商可以在客户订购期间提供数据访问服务,一旦合同期限到就终止数据访问,形成自己的商业模式。