从不断刷新的体育纪录,到地域差异的人类寿命;从毫无规律的地质灾害,到波动莫测的金融风险,现实世界里的数据纷繁杂乱。自现代极值理论诞生近百年来,经典理论始终被严苛的同分布前提束缚,海量差异化数据难以精准测算极值上限。破解异质数据统计难题成为全球统计学界持续攻坚的核心课题。

宁波东方理工大学理学部教授何易联合荷兰蒂尔堡大学教授John H.J. Einmahl,搭建适配全场景的通用异质数据极值统计新框架,实现了百年极值理论的范式革新。近日,相关研究成果发表于统计学顶刊《美国统计学会会刊》(Journal of the American Statistical Association)。
百年来的“同分布桎梏”
极值理论的体系,由两大核心定理构筑而成。
1928年,现代统计学之父 Fisher与其学生Tippett首次揭示了样本最大值的极限分布规律;1943年,苏联学者Gnedenko完成了严格数学证明,这套核心理论被命名为Fisher–Tippett–Gnedenko定理。
时隔半个世纪,荷兰极值理论学派代表学者Balkema、de Haan与沃顿商学院统计学家Pickands,证明了超阈值数据的尾部分布将收敛于广义帕累托分布,即Pickands–Balkema–de Haan定理。
但百年经典极值理论,始终受制于数据同分布的强前提假设。真实世界的数据普遍存在异质性,若强行套用同分布模型,无法精准刻画极端事件的真实边界。
三年前,何易与Einmahl依托峰值超阈研究框架,首次突破传统限制,厘清了广义异质性对极值推断的影响。不过受限于技术瓶颈,该成果仅覆盖单一极值情形,理论体系尚不完整。
本次研究中,何易与Einmahl再度合作,成功统一极值理论全部三类核心情形,实现极值理论的阶段性跨越,精准推导并量化了异质性影响极值统计推断的复杂规律。
研究亮点
亮点一:异质数据的统一分析框架
论文最核心的贡献,是构建了一个基于“峰值超阈”设计、可处理一般异质数据的统一分析框架,证明了极值统计分析必然围绕“平均尾部”为核心概念,让经典极值估计在异质数据下都能保持渐近合理性,覆盖所有极值层面。
亮点二:突破性的数学证明及超前的数学公式
由于前人证明所依赖的齐次分位变换技巧在异质数据下完全失效,何易从新框架的核心工具出发,彻底重新构建了整套证明体系。重建过程中,通过严格的数学推导,他首次挖掘出此前完全未知的渐近方差显式表达式,从而使刻画异质性对统计推断的影响成为可能。
亮点三:异质性,是可被利用的信息
异质性原本被视为令推断更困难的因素,但本文证明在各种层面上异质性都可直接减小渐近方差。这一发现改变了人们看待“异质性”的方式:以往被忽略的数据差异,可转化为更精确的极端推断。
亮点四:落地三大实景应用,实证理论优势
该新理论依托真实数据推演,95%置信水平下推断精度显著提升:
● 人类寿命上限:分析1772对丹麦同卵双胞胎数据,得出上限为124.5岁,区间较传统模型收窄0.6岁;
● 200米极限成绩:男子极限17.96秒、女子20.16秒,误差大幅降低;
● 极端地震震级:百年一遇地震震级区间为9.1–9.4级,置信区间明显收窄。
一门学科的“边界外移”
Fisher–Tippett理论问世至今,极值理论已发展近百年。此次研究突破传统同分布假设,在全吸引域框架下完善渐近理论,使其更适配真实数据。未来这套统计方法可广泛用于极端气候、巨灾保险、金融风险、基建防灾、生命与体能极限等领域的极值推断,进一步拓展了极值统计学的应用范围。
宁波东方理工大学为论文第一完成单位,何易为论文第一作者,荷兰蒂尔堡大学教授John H.J. Einmahl为合作作者。
相关论文信息:





