推荐序3
闲得没事也别胡扯
王大鹏 中国科普研究所副研究员,中国科普作家协会理事
非常荣幸,作为第一批读者,提前通读了《拆穿数据胡扯》一书。读完之后,掩卷深思,顿感这是一本迟来的好书,一来因为我们已经对很多“噪声”习以为常,而且深受其害,如果我们能早些明白这些“噪声”的来龙去脉,那么也许就可能“看开”很多世事;二来呢,对于一个专门研究科普的人来说,这本书也让我受益良多,如果我们能把书中提到的一些方法用到科普实践之中,那么我们可以少走一些弯路,也能早些传授给目标受众一些科学方法。
如果你仔细阅读全书,就会发现它谈论的实际上是我们每天都在遇到甚至是从事的一种行为,那就是“胡扯”。我相信即便你没有阅读全书,哪怕只是浏览一下章节目录,你也会得出这样的结论。
确实如此,这本书就是关于“胡扯”的,虽然我没有去统计,但是我敢说“胡扯”这个词是书中出现频率最高的一个名词,有时候也是动词。当然,这本书虽然是有关“胡扯”的,但是它没有胡扯,而是去辨别胡扯,那么为什么不用这个直截了当的名字(辨别胡扯)作为书名呢?两位作者指出,“是因为要解决当前胡扯泛滥的问题,需要的不仅仅是看清它的本质,还要照亮所有角落,让胡扯无所遁形,增加胡扯传播的难度。”那么他们是如何一步步地做到这一点的呢?我个人的体会如下。
首先,作者们追根溯源,主张“胡扯”无处不在,它起源于更广泛意义上的欺骗。有一句很多人耳熟能详的话——“科技让生活更美好”。不过,两位作者认为技术的进步并没有消除“胡扯”的问题,而是使现状恶化了。比如在社交媒体大行其道的时代,“标题党”也是某种意义上的“胡扯”,它是一种“空热量”,因为有研究发现,最成功的标题都没有阐述事实,而是承诺给你一种情感体验。而如果缺乏这种情感体验,估计很多人都不会去阅读“吸睛”标题背后的内容。算法是很多平台赖以获取用户黏性的利器,但是在“算法丛林”中,它们并不是为了帮我们了解更多信息,而是让我们在平台上保持活跃度,否则我们就有可能会跑到它的竞品平台上去。这实际上就会导致“过滤器泡泡”和“回音壁效应”,本身也是一种“胡扯”的表现。错误信息和虚假信息也会借助技术的发展而不断地迭代,你有时候并不知道网络那一端和你互动的到底是人还是机器。就此而言,“胡扯在点击驱动的大规模网络化社交媒体世界中比在以前的任何社会环境中更容易传播”。
通过上述分析,两位作者总结说,“胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的”。因为“胡扯的目的根本不是表述事实,而是利用某种修辞手段来掩盖事实”。
当然,读者们可能会说,我们可以用数据说话,但是两位作者以机器学习的例子说明“数字成了胡扯者的撒手锏”。因为机器学习算法的好坏取决于它的训练数据,而这些训练数据从根本上来说可能是有问题的。
其次,科学也会牵涉到“胡扯”的问题。在这个问题上,我个人的感觉是,两位作者的着墨最多。无论是因果关系、选择偏倚、数据可视化,还是大数据问题,以及科学的易感性,本书中间部分的第4—9章几乎都可以归于这方面的讨论。
把相关性呈现为因果性往往是“胡扯”的一种表现,也是一种“胡扯”的做法。比如,在大众媒体的报道中,往往会基于相关性就认为存在因果关系,而我们在上面读到的很多权威性推荐意见依据的都是关联性,没有证据证明存在因果关系(在此之后,因此之故)。
作者们之所以主张“数字成了胡扯者的撒手锏”,是因为仅仅数字正确是不够的,还需要将它们放在合适的上下文中,以便读者或听众能够正确地理解它们。否则,这些数字就有可能会成为某种意义上的“胡扯”。在这方面,两位作者给出了大量的案例来支撑自己的主张,他们还认为并非所有的东西都可以用数学公式来表示,将其界定为“数学滥用”。与此类似的是,在数据可视化方面,两位作者也通过各种各样出现在我们身边的可视化图形阐释了这可能导致的“胡扯”现象。
在科学的易感性问题上,两位作者着重探讨了p值及其操纵的问题。科学研究领域很少或者说不发表负面(用科学术语来说是,阴性的)研究结果,实际上也是某种p值操纵,这会导致发表的偏倚。而媒体报道又进一步放大了这些偏倚,因为新闻来源往往不明确说明他们所报道的只是初步的研究结果,更糟糕的是,他们几乎不会报道之前报道过的研究后来没有成功的消息,“难怪公众会被那些不能确定红酒到底是好是坏的科学家搅得晕头转向,也难怪他们很快就对所有媒体产生了怀疑”。更甚的是,还存在着“胡扯科学”的市场,也就是那些掠夺性期刊。当然,两位作者在这一章的最后重申,科学依然是重要的,我们需要相信科学。
最后,经过本书前面大部分的铺垫之后,两位作者给出了如何辨别胡扯的一些小“妙招”,包括但不限于,我们要学会“质疑信息来源”,“小心不公平的比较”,牢记“如果好得或者糟糕得不像是真的……”那它很可能就不是真的,我们要知道“从数量级考虑”,我们要去“避免证真偏差”(也就是人们会注意、相信和分享与我们已有信念相一致的信息),以及我们需要“考虑多个假设”,等等。当然,掌握了辨别“胡扯”的方法,我们可以使自己免受其害,如果我们还能够驳斥“胡扯”,那就更好了,因为这样就可以让我们周围的人免受其害。两位作者也提供了一些方法。
如果你还不知道什么是“胡扯”,或者想学会辨别“胡扯”的方法,又或者想约束自己减少“胡扯”,避免分享“胡扯”,这本书都是你的不二之选。
从个人的专业角度而言,我更是强烈建议科普从业者认真阅读一下这本书,因为它会让你掌握一些必要的科普方法。
总之,强烈推荐!