技术对于商业影响加深
问答环节:希拉里·梅森
AI如何融入数据科学团队
HOW AI FITS INTO YOUR DATA SCIENCE TEAM
了解商业、产品数据科学和研发能力——这三件数据科学家做的事,会让你受益匪浅。
埃里克·布林约尔松和安德鲁·麦卡菲在大思路中指出,AI和机器学习(ML)将很快成为重要性不亚于电力和内燃机的通用技术。两者代表我们技术能力的里程碑式转折,将带动下一波经济增长。
但我们如何应用AI和机器学习呢?组织中哪些部门适合发展这些新能力?公司该如何利用AI和机器学习?
为了解到切实可靠的说法,《哈佛商业评论》英文版高级编辑沃尔特·弗里克(Walter Frick)采访了机器智能研究公司Fast Forward 实验室的创始人希拉里·梅森(Hilary Mason)。以下为两人对话节选。
HBR:AI是现在的大热话题。你作为数据科学家和研究人员,如何看待你所在领域近期出现的进步?
梅森:如果我们8年或10年以前谈到这个问题,我可能会说是大数据,然后讨论我们是否可以建立一个基础架构,把所有数据放在一起并进行数据查询。建好基础架构,你就可以应用分析法,也就是通过计算,回答有商业价值或产品价值的问题。人们一直都可以使用数据计算,但大概8年前出现的转变是,新型软件降低了计算成本,让广大没有经验的人也可进行数据计算。
于是数据科学开始兴起;该学科主要涉及敏捷计算、预测,以及根据数据建模。现在数据科学建模成本已经大幅度降低,所以该技术不仅应用于一些重要问题上(如精算),还用来做推荐、搜索结果等看似微不足道的小事。
后来我们有了机器学习——数据科学中帮你敏捷计算、引入反馈环的工具。我们开始用模型从外界获取更多数据,将数据反馈给这些模型,促进模型进一步升级。
如今我们都在谈AI。这个词本身意义就有些含糊,既有技术上的含义,也有市场营销方面的解释,但本质上是讲如何利用机器学习(确切地说是深度学习)驱动基于机器学习的应用软件。也就是说,要使用AI,就必须有机器学习;要使用机器学习,就必须有分析法;要使用分析法,就必须有数据基础架构。这就是我对上述技术之间联系的看法。
机器学习和AI如何融入公司既有数据能力中呢?
数据科学在组织中有很多方面的应用。我看到人们在管理数据科学时,经常将这类技术与其搭载的技术组合混为一谈。但我会将数据科学分解为基于同一技术的三种能力。第一种能力是了解商业,即分析法或者说商业智能通过问问题和分析信息做出更明智决定。通常使用这种能力的是首席财务官(CFO)或首席运营官(COO),应用范围不限于技术领域。
第二种能力是产品数据科学,即创建使用机器学习和AI的算法和系统,实现真正意义上的产品升级。具体实例包括垃圾邮件过滤器、推荐系统、搜索算法和数据可视化工具。产品研发或工程部门通常会使用这类能力,应用领域比较单一。
最后一种数据能力是研发能力,也就是使用数据发掘新产品、新业务和新收入机会,但这种能力往往被忽视,或者被当成产品数据科学。
机器学习和AI将这三种能力都改变了吗?
我们现在花点时间,深入探讨一下深度学习,因为深度学习对所谓的AI来说,重要性不言而喻,而且也是近年来机器学习所取得进步的关键因素。首先,深度学习让过去任何分析都获取不到的数据变得触手可得——你现在可以发掘视频和音频数据的价值。当前拥有海量数据的公司数量依然有限,但我认为将来这类公司会越来越多。分析法现在也受图像数据使用能力的影响,单纯的文本或结构性数据重要性降低。其次,深度学习帮助人们找到解决文本摘要等数据科学难题的新方法,创建质量和精密度远高于过去的预测模型,还增强了产品的数据科学功能,因为深度学习能够带来新的产品机会。比如现在有几家公司通过使用深度学习,在电子商务推荐系统中取得很大成功。当然深度学习正在尽最大技术可能拓展新领域,从而影响到研发职能。
所以数据科学与分析法、产品开发和研发职能相关。公司是要“一步一个脚印”地发展,还是从这三方面同时发力?
两者都有吧。如果你只从一方面发力,就会错失其他机会。但你最好不要急急忙忙着手研发,在此之前还是要夯实基础架构和分析法的基础。实际上我们发现,人们更愿意在投资新收入机会前,先投资节约成本的项目。这样做在文化上比较容易让人接受。
你认为公司在发展数据科学能力上,还犯了哪些错误?
其中一个大错出在流程方面。我们发现,人们强行把数据科学融入到软件工程流程中,最后毫无成效。数据科学系统的开发在很多方面与其他流程截然不同。做数据科学项目时,你从一开始就不知道最后能不能成功。但做软件工程项目的话,你从一开始就知道最后能成功。
这说明软件工程流程在遇到不确定因素的情况下会失败,而数据科学的实验流程需要有不确定因素才能成功。
此外,每家公司都有自己要克服的文化障碍。很多公司都不会让你在不可能成功的项目上耗费时间,所以选择高风险研究项目的数据科学家即便取得成绩,也非常有可能因连续两个月看不到工作回报,而在年度评估中受到处罚。数据科学的发展要求有包容失败的文化环境。公司须认识到,所投项目组合中有些最终会有回报,而且带来的价值远比渐进式产品升级高。
现在大家对这个话题众说纷纭,你如何去芜存菁?高管又该怎样做到这一点呢?
我依然对现在所谓“AI”的潜力持乐观态度,但在某种意义上我也是个实用主义者——我需要创建对客户有用的系统,而这就是很大的限制因素。目前有些人到处大放厥词。几年前,我们称之为回归分析的东西现在称作AI,而用这个说法仅仅是为了从市场营销角度抬高其价值。所以我建议,记住AI不是魔法。在概念层面上,高管完全可以理解AI。如果有人向你推销某个观点,称“我不想解释工作原理,这就是AI”,你一定要不停追问其工作原理、输入数据类型、系统会学习数据中哪些模式、输出结果是什么。深度学习系统的结果一般就是之前未被标记的数据点,而现在这些数据有了标签和可靠度评估,仅此而已。机器的智能不是你我所拥有的智能。恐怕我们还要走上很长一段路,才能见证到机器拥有人类的智能。