7版 书评  查看版面PDF

上帝会掷骰子吗? ——读《女士品茶:统计学如何变革科学和生活》

2025-08-11 来源:上海证券报 作者:◎张译井
  《女士品茶:统计学如何变革科学和生活》
  (美)戴维·萨尔斯伯格 著
  刘清山 译
  九州出版社/后浪
  2024年9月出版

上帝会掷骰子吗?

——读《女士品茶:统计学如何变革科学和生活》

◎张译井

与亲切得令人毫不设防的书名相比,《女士品茶:统计学如何变革科学和生活》一书的内容和主旨,在优雅从容中的笔触下,不仅展现了科学的严谨理性,更增添了哲学的深邃思考。事实上,这本书并非描述日常生活的小品,而是一本由美国统计学家戴维·萨尔斯伯格所著的统计学科普著作,其以20世纪英国剑桥大学“女士品茶”的实验为切入点,带领读者追溯统计学从方法论雏形到系统学科的发展历程。

诺贝尔经济学奖得主托马斯·萨金特指出,人工智能本质上就是统计学的延伸,而那些能够在日常生活中培养统计思维的人,将能更好地享受这个世界。本书通过性格迥异的皮尔逊父子、低调的戈塞特、天才的费希尔等统计学家的生平事迹和理论交锋,串联起一百多年来统计学从无到有,直至蔚为壮观的变革史诗。作者借助农业实验数据分析等著名案例,并结合历史学、社会学等多学科知识,深入浅出地解读了统计学的专业理论、科学实践,以及背后的思想变革,为读者奉献了一场思想的饕餮盛宴。

从决定论到机会论

“女士品茶”的故事来自统计学家费希尔1935年出版的《实验设计》。某天下午,英国剑桥的一群大学老师和他们的妻子正在一起喝下午茶。一位女士声称,把茶加到牛奶里,和把牛奶加到茶里,两种方法调出来的下午茶喝起来味道不同。在座的科学家们纷纷不以为然,但有位瘦小的绅士提议设计一个实验,用科学的方法来检验这位女士的假设……本书以这场有趣的风波为引,带领读者穿过岁月帷幕走入统计学的历史之中。

科学进入19世纪,形成了一种根深蒂固的哲学观念——“机械宇宙”。科学家相信现实世界可以通过少量数学公式来精准描述,只要用一组完整的公式和一组精度足够高的相关测量数据,就可以预测未来事件。据说,当拉普拉斯写就根据观测数据计算行星和彗星未来位置的论述时,拿破仑对他说“我发现您在著作中没有提到上帝”。而拉普拉斯回答道:“我不需要这个假设。”实际上,当时天文学家、物理学家从数学公式得到的结果,与观测值之间并不完全吻合,但人们认为其中的偏差是观测仪器本身的不精确造成的,直到另一种全新的、革命性的思想出现。

将这种新思想以公式形式完整表达出来的人,是19世纪末的卡尔·皮尔逊。他认为:人们无须将实验结果看作仔细测量的精确数字;相反,他们只是一堆数字,更确切地说,是一组数字分布,可以用数学公式来表达。换句话说,科学研究的对象并非直接观察到的事物本身,而是描述观测值概率的数学分布函数。

皮尔逊提出了实验测量的统计模型思想,使用偏斜分布的四个参数即平均数、标准差、对称性、峰度来确定各种实验结果。后来人们逐渐发现,很多问题不能只用偏斜分布来描述。此外,四参数理论的前提是样本数量要足够多,如果没有足够的样本,该怎么办?化名“学生”的吉尼斯酿酒公司职员威廉·西利·戈塞特专门研究了小样本。他发现只用四参数中的标准差与均值的比值就可以得到一个已知的分布,这就是日后广为应用的“t检验”。作为先行者,皮尔逊的理论不断地受到后来人的检验或挑战,这其中就有一位著名的天才——罗纳德·费希尔。

从参数到超参数、非参数

1919年春,29岁的费希尔应邀搬到了伦敦北部洛桑农业实验站边上的一座农舍。附近的巨大库房内,堆满了几十年间各类作物的收成和降水量、温度、施肥量、土壤检测数据的记录。他从这里,开始了被他称之为“耙粪堆”的工作。

在洛桑,费希尔著就了《收成变动研究》系列文章,提出了数据分析的原创性工具及其数学推导过程,其中包括了用科学实验将不同处理方式的影响因素分离开的“方差分析”;让取样更加接近现实的“随机化控制”。例如,为避免土壤肥力梯度对实验的影响,费希尔提出把农场分成小块,使用随机方法来安排对照组实验,这样各种肥力梯度的可能结构都在这种随机分布的小田块中被抵消了。

皮尔逊与费希尔关于统计分布的分歧在于:皮尔逊认为统计分布是对他所分析的实际数据集合的描述,而费希尔认为从观测值的分布来确定的参数,不过是真实参数的一个随机分布。既然任何估计都会引入误差,费希尔进一步提出了使误差最小化的工具——“最大似然函数方法”。

在他们之前许多年,托马斯·贝叶斯就提出了关于参数的讨论,但他更关注“逆概率”的问题,即在有前提条件的事件概率中,可以用后面事情的概率来推算前面事情的概率。这一理论的一个著名的应用是,通过词频分析确定《联邦党人文集》的作者。在这个案例中,通过分析文本中某个无特定意义单词的使用频率,可以得到该单词的分布参数。这些参数反映了作者使用该单词的风格,而这种风格本身也有参数,即“超参数”。由此一层一层地分析处理下去,就能溯源而上找到执笔之人。

20世纪40年代,统计方法已经在美国得到广泛使用,基本工具是“t检验”和方差检验。这些方法先假定数据符合一个分布,再依据这些分布的参数来分析数据。然而,当数据中出现异常值时,这些基于参数的方法就失效了。

此时,一个半路出家的化学家弗兰克·威尔科克森提出了一个新思路。他将观测到的分散数据与纯粹随机分散得到的数据进行比较,发明了在不使用参数的情况下,处理测量值分布的方法。而在他之前,格里文科-坎泰利引理已提出,即使对生成数据的概率分布一无所知,也可以用数据本身构建一个非参数分布。随着数据量的增加,这个非参数分布会越来越接近理论分布。这一引理衍生了许多计算密集型的统计方法,比如自举法、重采样、核密度估计、核密度回归等。

参数方法与非参数方法相比孰优孰劣?埃德温·詹姆斯、乔治·皮特曼等人的计算表明:如果我们有一个已知分布的数据集,非参数方法不逊于参数方法;如果数据中有异常值,非参数方法可以移除少量错误的异常值,但对于被异常值“系统”地污染了的数据,非参数方法的结果就不如参数方法了。

从逻辑检验到哲学意义

除了关于参数的讨论,现代统计分析的另一个重要领域是假设检验,也被称为显著性检验。在假设检验中,“显著”的含义是指概率足够低,从而可以拒绝最初的假设。费希尔在引入假设检验时,将P值作为衡量显著性的关键指标,但并未清晰地解释P值的具体含义以及在实际应用中的判断标准。在他看来:只有当P值较小时,结果才具有显著性,从而可以推翻原有假设;如果结果不显著,则无法得出明确结论,但也不能排除其他可能性。

乔治·内曼进一步指出,除非存在两个或多个假设,否则显著性检验本身是没有意义的。基于这一观点,零假设和备择假设的概念得以确立。例如,在研究一种新方法时,零假设通常是“这种新方法与之前的方法相比没有提升”。P值被用来检验零假设,其大小反映了检验的强度。假设检验因其强大的逻辑性和实用性,被广泛应用于各个领域,包括美国食品药品监督管理局、环境保护署等机构,并且在医学、法律诉讼等领域也发挥了重要作用。

P值到底意味着什么呢?它只能用以说明它所依赖的假设是错误的,只能说它是可信度的间接度量。当我们试图在概率理论中追寻其哲学意义,会发现诸多难解的困惑。

在书中,作者提出了关于统计学的3个哲学问题:统计模型可以用于制定决策吗?在现实生活中概率意味着什么?人们真的理解概率吗?

事实上,在20世纪,无论在战争还是罗斯福新政中,统计学均已大显身手,也逐渐进入各行各业,成为大众文化。比如:当谈及明天95%可能会下雨,我们似乎都明白其含义;当谈及吸烟可能引发肺癌,我们并不犹豫于理解其哲学意义。作者在书中列举了大部分流行病学研究的案例,无论是溯源的回顾性研究,还是跟踪记录的前瞻性研究,都难免有各种各样的缺陷,现实情形为本来就难以证明的因果关系增加了诸多阻力。人们期待,随着证据积累,或许每个研究都在增强结论的可信度。

在百余年来统计学史诗般的长河中,还有许多名字熠熠生辉,如提出了概率论公理的“统计界的莫扎特”安德雷·柯尔莫哥洛夫,提出了快速傅里叶变换方法的“统计界的毕加索”约翰·图基。作者还特别记录多位杰出女性,如创立北卡罗来纳州立大学实验统计系的格特鲁德·考克斯、美国劳工统计局局长珍妮特·诺伍德、提出了样条拟合的格蕾丝·沃赫拜、提出了对数线性模型的伊冯·毕晓普等。这些科学家的智慧和努力汇聚成了一股强大的力量,让我们得以站在巨人的肩膀上,用更加科学和理性的方式看待世界。

爱因斯坦曾说过:“上帝不会掷骰子。”统计学却告诉我们,尽管世界充满了不确定性,但是可以通过科学的方法尽可能地理解和把握这些不确定性。诚然,统计学脚下的根基并不稳固,比如P值的意义、假设检验的局限性等,这些都在提醒我们,统计学并非万能。但是,也不必因此气馁,正如作者所说,科学发展总是如此,我们应该满怀期待,也许另一场科学革命即将到来。