数据科学实战指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

推荐序3

The Unknown Known 是一部记录美国国防部前部长Donald Rumsfeld 的政治生涯的纪录片,在影片中,Donald Rumsfeld 说过这样一句话——There are known knowns, there are things we know that we know.There are known unknowns, that is to say there are things that we know we don't know.But there are also unknown unknowns, there are things we do not know, we don't know.

这句话的大概意思是,有些事,我们知道自己知道;有些事,我们知道自己不知道;还有一些事,我们甚至不知道自己不知道。

这句话恰巧揭示了大数据探索及数据科学的特性。当我们知道自己不知道的时候,我们可以从明确的问题开始,使用各种数据科学分析方法进行数据连接、数据准备、模型建立、统计查询,直到得出结论。然而更具挑战性的事情是,很多时候我们连具体的问题都搞不清楚就已经开始进行数据探索了,需要通过反复迭代数据分析的过程来明确问题,不断优化模型和分析方法,进而获得真正的数据价值。

当今数据的体量、维度、类别都在飞速增长,传统数据分析面临着巨大的挑战,行之有效的数据科学方法和工具越来越被从业者迫切需求。

这本《数据科学实战指南》沉淀了 TalkingData 近7年来的数据科学实践经验和探索心得。本书阐述了数据科学的来龙去脉、数据分析的安全和隐私保护,以及数据治理模式,并坚持以实战落地为最终目的,分享了 TalkingData 数据科学平台的能力及行业应用的最佳实践。书中还详细介绍了数据科学平台工具DSS,呈现了从数据资产管理到数据连接,再到部署上线的操作闭环。

数据科学本质上是一场应用实战,TalkingData在零售、金融及智慧城市等多领域都具有领先的数据科学能力。当然,数据科学仍然处于早期探索阶段,离完全成熟还早。但我相信这本书能够更好地推动数据科学进一步发展,帮助数据科学从业者探索到更多的“unknowns”。

王亭

TalkingData CTO