世界是随机的:大数据时代的概率统计学
上QQ阅读APP看书,第一时间看更新

前言

凯文·凯利在《失控》中曾提道,当高度互联的低级群体的数量大到一定程度时,群体特征便会涌现出来,这特征是群体中的任何个体都不具备的。比如,大量水滴汇集成河水、海水,便会产生让水滴“感到陌生”的新特征——漩涡和波浪。

2013年8月,谷歌公司提出了一个票房预测模型,该模型仅以单词搜索量为依据,便可以提前一个月预测电影的首周票房,准确度高达94%。更令人惊讶的是,这是一个简单的线性回归模型。谷歌是如何做到的呢?

人类对数据的处理已经进入大数据时代。可是,绝大多数的人,对数据统计等基本常识还在算术常识时代。这是一个科技的时代,相对于十年前和二十年前,全球市值最大最受人尊敬的公司Top 10,全部变成了苹果、微软、Google……这些高科技公司,任何普通人都用智能手机,任何人都在享受高科技技术带来的便利。为了更好地工作和生活,我们要了解一下这些高科技技术的常识。笔者在这方面有一些经验,所以特地编写了本书,希望以比较科普和有趣的笔调,让你了解一门新的科学,甚至进入一个新的领域。

大学本科时,我曾上过“概率论”和“数理统计”两门课,虽然完整地学习了概率统计,却只是一知半解。攻读硕士时,我在科研工作中需要用到概率统计,方才无奈地发现,当年所学已完完全全地还给了老师。我只能匆忙地自学了概率统计,勉强能应付科研工作,但心中对概率统计的很多概念仍旧一头雾水。后来,我有幸与我的妻子走到了一起,她大学本科和硕士期间都主修“应用数学”专业,在她的帮助下,我这个概率统计的门外汉终于入门了。

硕士毕业前,我和妻子共同翻译了一部英文科普读物《让你爱上数学的50个游戏》,这本书帮助我进一步巩固了概率统计知识,也让我萌生了写书的念头。毕业后我仍从事科研工作,参与了几个与数据分析有关的项目,发现自己对概率统计的理解仍然不够深刻。于是我一口气阅读了几本概率统计的科普书,比如《深入浅出数据分析》《深入浅出统计学》和《生活中的概率趣事》,终于搞懂了“贝叶斯定理”“假设检验”等概念。看书之余,我在“简书”上写了几篇读书心得。出版社的编辑看到我写的文章,问我是否愿意写一本概率统计的科普书,说实话,能写作一本属于自己的书是我的小小理想,既然机会来了,我怎么会拒绝呢?!

开始写作前,我为自己设定了三个原则。

一是理解而非定义。概率统计的教科书里充满了数学公式,虽然数学公式能对抽象的概念做出精确的定义,但这样的定义太晦涩,难以理解。这是一本写给初学者的书,我想帮助读者理解概念的含义,而非怎么求解某个具体问题。所以,我会用解释性的语言来描述概念,而不是给出标准的定义。这么做风险很大,但我愿意尝试,希望本书可以帮助读者更快速、更深刻地理解概念。

二是引导而非灌输。从小到大,我们都承受了太多的灌输式教育,我很庆幸,自己在灌输式教育下活了下来,但我不希望“灌输”给读者任何东西。所以,我总是以案例作先导,先引起读者的兴趣和思考,然后在解答问题的过程中讲述知识。希望这么做可以为读者减负,让读者更流畅的阅读,在轻松愉快中学到知识。

三是有趣而非无趣。很多人说,“有趣”是对一个人最高的评价。我觉得,对一本书同样如此。图书销售排行榜上,小说永远是主角,因为它们“有趣”。读者喜欢故事,不喜欢说教,这是事实,更是真理。我要努力避开说教式的言辞,把知识融入故事中,在讲解知识的同时,带给读者阅读的乐趣。

写作时,我尽量坚持这三个原则,虽然期间有过挣扎和迷茫,但最终还是完成了这本书。

本书共有9章,第1章和第2章介绍概率和随机变量的基础知识;第3章和第4章介绍统计和分布的基础知识;第5章是专门介绍赌博中的概率统计的一章,前4章的知识在这里得到了应用;第6、7、8章分别介绍了概率统计的三个重要方法——假设检验、贝叶斯定理和线性回归;第9章是漫谈概率统计。

我的阅读建议是:第1、2章合并阅读,第3、4章合并阅读,在前4章阅读完成后,再阅读第5、6、7、8、9章,后5章各自独立,不需要按顺序阅读。

本书由李帅主笔编写,同时参与编写的还有黄维、金宝花、李阳、程斌、胡亚丽、焦帅伟、马新原、能永霞、王雅琼、于健、周洋、谢国瑞、朱珊珊、李亚杰、王小龙、张彦梅、李楠、黄丹华、夏军芳、武浩然、武晓兰、张宇微、毛春艳、张敏敏、吕梦琪等作者。在此一并感谢。

这是我的第一本书,其中难免出现错误,希望读者理解包涵,也欢迎读者批评指正。

如果你读过本书,想与我沟通,欢迎通过E-mail联系我:lishuaibeijing@163.com。

最后,我要感谢我的家人和朋友。感谢我的父母,陪伴我成长,帮助我养成了读书和写作的习惯。感谢我的妻子,一直理解我、陪伴我,并给我讲解了一些晦涩的数学概念。感谢刘子冲、王充山、秦培根、刘翼、孙淼、赵玮琪等老朋友,你们的支持和鼓励是我坚持写作的动力!

编者