解书 | 数据,新式胡扯,拆穿它!
早间新闻说,上个月的消费指数上升了n个点;
手机上跳出实时的股票涨跌,顺便可以看一下上市公司的年报以判断股票前景;
工作例会上,你使用的数据ppt模板让展示更加美观有趣,获得老板好评;
你心情不错想听听音乐,音乐app跳出你的上周听歌时长统计,再听n首便可升级;
一把游戏结束,系统自动送上战力统计,你的队友明显拖了后腿,下次不要和ta组队了;
此时手机又提醒你视屏时间过长,建议休息一下,因为科学研究表明,连续视屏超过x小时便会使视力下降y%……
我们信任数据,认为数据总是客观情况的客观反映。可真的如此吗?今天,赛先生为大家拆解一本中信出版社出版的新书——《拆穿数据胡扯》。
【美】卡尔·伯格斯特龙,杰文·韦斯特 著 ,胡小锐 译
中信出版·鹦鹉螺,2022年3月
01 本书的缘起?
本书来源于美国华盛顿大学的“拆穿胡扯”(calling bullshit)公开课。这门课由生物学教授卡尔·伯格斯特龙和信息学副教授杰文·韦斯特联合主讲。
他们从逻辑和传播渠道的角度揭开数据伪科学如何产生与传播。目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。课程一经上线,广受好评,显然,识别数据陷阱,已然成为当代生活的刚需。
本书作为课程讲义的衍生品,作者保留了课程辛辣的原名,中文版译名为《拆穿数据胡扯》。本书共有12章,400余页,洋洋洒洒,内容全面,通读本书,我们会更从容地应对数据冲击,将事实与虚妄区分开来,毕竟——真相只有一个。
02 何为数据胡扯?
伯格斯特龙和韦斯特认为:
胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的。
数据胡扯的最终目的,是通过有意为之的操作,使本应该客观的数据,为己所用。
我们暴露在胡扯面前的时间和几率可能远远超过我们所认为的,形式也是五花八门。
03 数据胡扯的视觉把戏——形式大于内容
我们先来看这样一个例:下面这个图形的设计者用两个餐叉的尖齿代表条形图中的条形。
这样做有什么坏处呢?坏处很多:
1
条形是图形中承载信息的部分,但它们在这张图中只占了很小一部分空间;
2
倾斜的角度也会引发争议,因为读者不习惯解读这种角度的条形图;
3
两把餐叉并排,但底部水平线并没有对齐,容易造成错觉;
4
幸好数值被写出来了。但如果必须依靠数值来解读图形,为什么不直接用表格呢?
胡扯就是公然无视事实和逻辑连贯性,企图通过分散注意力、震慑或恐吓来说服或打动受众。这样的图表设计方式试图让图表变得『可爱』以取悦读者,结果让读者更难理解它表示的数据,逐渐变成胡扯,得不偿失。
另一种流行的图表形式是带标签的示意图。这种图的“重灾区”之一,就是ppt。
谁没用过几个看起来丰富、有趣又清晰的ppt模板呢?或者自创一些可爱的模型,就像这只独角兽。
然而图表上的标签毫无道理可言。前肢与“机器学习”和“可视化”有什么关系?为什么“r编程”与后腿有关呢?右后腿为什么没有加标签?为什么头部的“分析型思想者”指的是一种人,而身体的其他部分指的是技能?……
这种胡扯的ppt图形,是不是很常见呢?还有一种更接近纯粹胡扯的现象——数学滥用,而且它并不罕见。
数学滥用(mathiness)指的是那些看起来都像是数学表达式的东西,但它们和数学可以说是毫无关系。
比如信任方程:
按照这个方程,当自利感降到最低时,信任度就会非常高。但它到底是什么意思呢?这些量如何测量,单位又是什么?如果只是要表达正相关还是负相关,那么大可不必采取这种形式,它不但无用,还会让人费解。
04 科学领域有胡扯?当然!
不幸的是,科学领域也会屡屡中招。例如,有的期刊会在1月份发表更多文章,这样一来,这些文章本年度被引用的机会就会增加。所有这些反常的行为都违背了期刊的使命,削弱了引用数作为质量指标的有效性。类似地,对科研人士的论文数量指标催生了只要给钱便可发表文章的“掠夺性期刊”,也让科研领域成为了胡扯的高发地带。
虽然掠夺性期刊的主要客户是给简历增色的边缘学术人,但也包括气候怀疑论者、反对疫苗者、神创论者和艾滋病否认论者。他们以版面费为代价换取在科研领域的“一面之地”,然后说他们的边缘信仰通过了“同行评议”的科学。这是典型的胡扯污染。
作为读者,我们没有任何万无一失的方法,可以确定无疑地知道一篇科学论文是否完全正确。但作者提醒我们,至少要保持合理的怀疑,这是辨别胡扯的第一步。比如注意论文中的论断与它是在哪儿发表的是否相匹配,尤其要警惕低层次期刊上出现的异乎寻常的论断。
如果一篇名为《尼安德特人灭绝于英法百年战争的证据》的论文出现在并不引人关注的《威斯特法阶历史地理学杂志》上,这就绝对值得怀疑了。如果这一成果是真实的,就会彻底改变我们对古人类历史的理解,那它理应会出现在一本备受瞩目的期刊上。
05 辨别胡扯6步法
▫ 质疑信息来源
▫ 当心不公平的比较
▫ 如果好得或糟糕得不像是真的……
▫ 从数量级考虑
▫ 避免证真偏差
▫ 考虑虑多个假设
辨别可能的胡扯的最终目的,是指斥胡扯。然而清除胡扯的代价要远远高于制造胡扯,哪怕真正符合科研方法论的论文也是如此。这就是所谓的『造谣一张嘴,辟谣跑断腿』。
指斥胡扯不只是为了增强自信,它还是一种道义上的责任。正如我们在开头所说,世界充斥着各式各样的胡扯,有些是无伤大雅的,有些是小麻烦,还有一些甚至很有趣,但很多胡扯会给科学的诚实和生死攸关的决策带来严重的后果。
“数据成了新式胡扯的杀手锏”。但我们绝不否认科学是理解物理世界的一个成功的标准手段。不管我们抱怨什么,不管我们发现了什么偏见,不管我们遇到什么问题,不管我们说了什么废话,科学最终还是会成功的。
希望本书能帮助你面对冲击,将事实与虚构区分开来。
制版编辑|-小圭月-