科学大家|赌博的乐趣与挑战:不确定性与统计推断
出品 | 新浪科技《科学大家》
撰文 | 蒋东辰 北京林业大学信息学院讲师、硕士生导师
You cannot be certain about uncertainty.
——Frank Knight
人本能上是追求确定性的。确定性有助于人们理解和把握事物变化的规律、提高预测和判断未来发展的可靠性。而在现实世界中,许多事物的发展都具有不确定性:有些不确定性是来自事物本身,另一些则是由于外在影响因素过多。对这些不确定事物作完全精确的预测并不现实可行。
不确定性会给人们带来困扰和不安,也会给人们带来挑战和乐趣。人类早期对不确定性的分析和讨论大多与赌博、掷骰子等随机游戏紧密相关。据文字记载,两河流域的西亚人几千年前就已使用距骨、植物等原始材料来制作骰子进行娱乐。古埃及人则利用投骰子来玩一种“猎犬和豺狼”(类似于现代的“蛇与梯子”)的游戏。
吉罗拉莫·卡尔达诺(Girolamo Cardano)是文艺复兴时期意大利百科全书式的学者,在西方最早给出了二项式系数和二项式定理。据传,卡尔达诺年轻时对赌博情有独钟,他经常欠债,却又总能通过赌博或下棋来偿还债务。卡尔达诺借助掷骰子来理解不确定性和概率,并使用发生比(odds)来刻画赌博中有利或不利情形出现的可能性,以对赌博结果进行预测。卡尔达诺1564年前后完成的《论赌博游戏》(Liber de ludo aleae)一书是首部概率论著作,他对概率论有开创之功,被视为概率论的创始人。
17世纪,赌博游戏在欧洲宫廷盛行。法国赌徒谢瓦利埃·梅内(Chevalier de Méré)在赌资分配上同他人产生了分歧,于是他向数学家布莱士·帕斯卡(Blaise Pascal)请教。1654年,帕斯卡与皮埃尔·费马(Pierre de Fermat)讨论了赌博中的点数分配问题,将期望的想法引入到推理和计算。在帕斯卡的鼓励下,荷兰数学家克里斯蒂安·惠更斯(Christiaan Huygens)深入分析了点数分配等博弈游戏,明确了期望的概念。1657年,惠更斯将研究结果总结成文《论赌博中的计算》(De ratiociniis in ludo aleae),作为弗兰斯·斯霍滕(Frans van Schooten)《数学练习》附录的形式出版。该文得到了学术界的广泛认可,在欧洲多次再版,并作为概率论的标准教材达50年之久。
《猜度术》(Ars conjectandi)是概率论发展史中的另一部经典著作,由瑞士数学家雅各布·伯努利(Jakob I. Bernoulli)完成。该书既包含伯努利对前人工作的总结和整理,也包含他自己对概率的哲学思考。伯努利认为,概率作为事件确定性的量度并非是先验已知的,而必须由后验确定。基于这种看法,伯努利给出了大数定律的最早描述,认为事件的概率可以由大量独立的同类型随机试验的频率统计来刻画。因此,人们朴素的认知经验可以用数学语言来表达。1837年,法国数学家西莫恩·泊松(Siméon D. Poisson)在《关于犯罪和民事判决的概率之研究》(Recherches sur la probabilité des jugements en matières criminelles et matière civile)一文中介绍了单位时间内随机事件发生次数的概率分布——泊松分布,并借此将“大数定律”推广到随机事件发生的概率可以不同的情形。大数定律奠定了“由频率估概率”的理论基础,为不确定事件的参数估计提供了支持。
为了快速计算二项式展开系数,法国数学家亚伯拉罕·棣莫弗(Abraham de Moivre)借鉴级数和微积分的方法定义了斯特林公式,用于计算概率论中常用的n!。在此基础上,棣莫弗发现了中心极限定理的一个特例:他在《机遇论》(De Mensura Sortis seu)第二版中介绍了使用“正态分布”来逼近抛硬币正面向上的频率,实现了二项式展开中间项系数的近似表示。
1801年,德国数学家约翰·高斯(Johann K. F. Gauß)结合观测数据,使用最小二乘法等计算方法发现了谷神星的运行轨迹。随后,高斯专注于曲面、曲线计算:在假定观测值的算术平均值具有最大可能性这一前提下,他采用最小二乘法成功得到用于刻画误差的高斯钟形曲线(即正态分布曲线)。高斯认为,如果观测误差符合正态分布,那么采用最小二乘估计算出的回归系数具有最大的可能性。
在棣莫佛和高斯工作的基础上,法国天文学家、数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon marquis de Laplace)扩展了棣莫弗的理论,他证明了可使用正态分布近似计算二项分布(这一结论后来被称为棣莫佛-拉普拉斯中心极限定理)。1901年,俄国数学家亚历山大·里雅普诺夫(Aleksandr M. Lyapunov)使用随机变量严格地证明了中心极限定理。中心极限定理被认为是概率论最重要的定理之一,为人们认识误差、开展统计分析提供了理论支持,而正态分布也因其具备良好的数学特性而广泛应用于误差估计。
随着数学公理化进程的加速,俄国数学家安德雷·柯尔莫哥洛夫(Andrey N. Kolmogorov)将样本空间和测度理论结合起来,于1933年在《概率论基础》(Foundations of the Theory of Probability)一书中首次较完整地建立了概率理论的公理体系。该体系为不确定问题的严格分析提供了统一的框架。人们能基于具体概率假设,通过严格的逻辑推理或数学计算获得特定随机变量的数学特性,进而实现对不确定问题的分析和预测。
概率论能够帮助人们在概率假设的基础上实现对不确定事件的分析和预测,但要获得对事件的基本认识还需要使用多种统计方法。
统计学是数学的另一个分支,它通过收集、整理、解释和分析数据,帮助人们实现对事件特性、规律的正确判断。古希腊思想家修昔底德(Thucydides)在《伯罗奔尼撒战争史》(History of the Peloponnesian War)一书中记述了公元前5世纪雅典人通过派士兵统计斯巴达城墙砖块的数量来评估斯巴达城墙高度这一事件。中世纪,阿拉伯哲学和自然科学家艾•肯迪(Al Kindi)使用频率统计的方法破译了加密消息。1662年,约翰·葛兰特(John Graunt)和威廉·配第(William Petty)将统计方法应用于人口普查。1710年,约翰·阿布斯诺特(John Arbuthnot)将统计推断用于伦敦地区新生儿的性别调查,这也是假设检验方法首次被用于统计分析。
随着概率理论的不断完善,统计学也向着更科学的方向发展。英国统计学家弗朗西斯·高尔顿(Francis Galton)和卡尔·皮尔逊(Karl Pearson)被认为是现代数理统计的主要创始人:高尔顿提出标准差、相关性、回归分析等概念,并将相关统计方法应用于人类心理特征的研究;皮尔逊则发展了回归分析和相关性理论,他提出了用于曲线总体参数估计的矩估计法。1900年,皮尔逊又提出了著名的卡方假设检验,用于检测随机变量的分布类别和独立性。此后,英国统计学家威廉·戈塞(William S.Gosset)提出了学生t-分布假设检验,解决了未知方差的小样本分布的参数估计问题;英国统计学家罗纳德·费希尔(Ronald A. Fisher)在方差分析的基础上完善了极大似然估计,提出了基于F分布的假设检验方法。
假设检验是一种重要的统计推断方法。它从假设出发,根据随机变量的统计特征推断假设的可靠性。假设检验是一种基于不确定性的显著性差异判断,其推断基础并非逻辑推理中的排他律,而是假定小概率事件在一次实验观测中不可能发生。这一推断假定使得人们能够以较小的成本和较低的风险开展数据推断。1930年前后,埃贡·皮尔逊(Egon Pearson)与耶日·内曼(Jerzy Neyman)系统地分析了假设检验方法,他们认为假设检验会存在两类错误:第一类是“以真为假”,即检验假设H0真实成立,但统计推断却认为H0不成立;第二类是“以假为真”,即检验假设H0并不成立,但统计推断却判定H0成立。为此,人们往往会采用一致最大功效(UMP)检验、无偏性检验、似然比检验等方法降低两类错误出现的可能性。
现代统计学已被广泛用于各种决策领域,它与概率论一起已成为众多学科实验数据分析的基础。随着大数据和深度学习技术与方法的快速发展,概率论和数理统计受到越来越广泛的关注,并已被用来解决聚类、关联分析、异常检测、特征学习等诸多问题。人工智能的研究正在并将进一步深化,概率论和数理统计对以数据采集为基础的新兴学科的发展势必产生深远影响。(本文经北京航空航天大学王东明教授审阅)
注:阿狗数学是由北京航空航天大学数学与系统科学学院王东明教授团队运营的微信公众号,致力于介绍、推广算法数学。欢迎有兴趣的伙伴踊跃投稿!稿件请发至邮箱XiaRilun@buaa.edu.cn。
《科学大家》专栏投稿邮箱:sciencetougao@sina.com 来稿请注明姓名、单位、职务