三位统计学家在《自然》杂志上发表了一封公开信,呼吁科学家放弃统计学意义,停止使用p值作为标准。在这封信发表后,250个签署国在最初的24小时内就这样做了。一周后,这封信吸引了800多名签署者。其中包括来自50多个国家和除南极洲以外所有大陆的统计学家、临床和医学研究人员、生物学家和心理学家。
p值在统计假设检验中得到了广泛的应用,特别是在零假设显著性检验中。在这种方法中,作为实验设计的一部分,在进行实验之前,首先选择模型(零假设)和p的阈值,称为检验的显著性水平,传统上为5%或1%,并表示为α。如果p值小于所选的显著性水平(α),则表明观察到的数据与无效假设完全不一致,并且可能会拒绝无效假设。
P值是否高于或低于划分“统计显著性”的任意阈值(如0.05),决定假设是否被接受,论文是否发表,产品是否上市。但是,将p值作为接受什么为真理的唯一仲裁者,也意味着一些分析是有偏见的,一些错误的积极性被夸大了,一些真正的影响被忽视了。
2016年,美国统计协会在美国统计学家发表声明,警告不要滥用统计显著性和P值。这个问题还包括许多关于这个主题的评论。2019年3月,同一期刊上的一期特刊试图进一步推动这些改革。它发表了40多篇关于“21世纪统计推断:一个超越P<0.05的世界”的论文。编辑们谨慎地介绍了这个系列“不要说‘统计意义重大’”。
三位统计学家一致同意,并要求放弃统计学意义的全部概念。瓦伦丁·阿姆海因、桑德·格陵兰、布莱克·麦克沙恩发现了科学家们反对统计重要性的草案,并发表在了《自然》杂志上。它一周内有800多个签署国。三位统计学家并不要求将p值本身作为一种统计工具抛弃——相反,他们希望结束将其作为一个任意意义阈值的使用。
统计意义深深地融入到科学实践和评价中,将其解救出来是一件痛苦的事情。批评家们会反驳说,专横的把关人比不清楚的把关人要好,更有用的论点是,哪些结果应该算作(或反对)效果的证据。各方面都有合理的观点;Nature目前并不想改变它在评估论文时对统计分析的看法,但我们鼓励读者分享他们的观点(见go.nature.com/corresponds)。
如果研究人员真的放弃了统计意义,他们应该做什么呢?他们可以从教育自己统计上的错误观念开始。最重要的是要有勇气在每次研究中从多个角度考虑不确定性。逻辑、背景知识和实验设计应与P值和类似指标一起考虑,以得出结论并确定其确定性。研究人员应该设法用多种方法分析数据,以确定不同的分析是否会集中在同一个答案上。对不同团队的数据集进行众包分析的项目表明,这种方法可以有效地验证发现并提供新的见解。
简而言之,要持怀疑态度,选择一个好问题,并尝试以多种方式回答它。要接近真相需要很多数字。