跳到主要内容

验证了ob欧宝娱乐平台网站

重新思考p值:“统计显著性”无用吗?

这位美国统计学家发表了43篇关于“p < 0.05之外的世界”的论文。

GraphicMama-team / Pixabay
来源:GraphicMama-team / Pixabay

本周,美国统计学家出版了一期特刊21世纪的统计推断:一个超越的世界p< 0.05,其中包括43篇顶尖统计学家的新论文。这个问题的目的是“终止使用概率值(p-value)小于0.05作为反对零假设的有力证据,或大于0.05作为支持零假设的有力证据。”

在深入了解最新一期的内容之前欧宝体育在线登录入口美国统计学家我很清楚,写“概率值”是一个极客的话题,对一般读者来说可能显得枯燥而深奥。也就是说,p-价值观真的很重要,应该得到更多注意.因此,我将尽我最大的努力,通过第一人称的对话风格,使其尽可能吸引人,易于消化。

作为一名科学记者,报道科学报道的最新“该做什么和不该做什么”欧宝体育在线登录入口p-values是A的证据后设认知在行动。例如,为这篇文章选择一个“朗朗上口”的标题几乎是不可能的。我从来没有争论过要不要用一个不靠谱的方程,比如"p< 0.05”。

在输入这些介绍性段落时,我“思考了很多我的想法”,以及如何设置这篇文章的结构。我在这里的目标是在1500字以内准确地传达43篇由世界各地顶尖统计学家最近发表的论文的要点。

我还想要这43篇新论文的报道美国统计学家杂志的最新特刊将成为编辑们基于四个字母缩写的(ATOM)号召的B项展品。这四个字母的首字母缩写代表一个接受不确定性的存在Thoughtful,O笔,当报道科学的时候.希望这篇文章能反映ATOM模型。

这期特刊的三位TAS编辑ronald Wasserstein, Allen Schirm和Nicole lazar的任务是鼓励全球的科学家和科学作家采用他们的ATOM缩写。在一篇描述2019年3月特刊版面的社论中,美国统计学家编辑们总结了他们汇编的43篇论文的主要要点和共同线索:

“根据我们对本期特刊文章和更广泛文献的回顾,我们得出的结论是,是时候完全停止使用‘统计显著性’这个词了。没有p-value可以揭示一个关联或效果的合理性、存在性、真实性或重要性。因此,具有统计显著性的标签并不意味着或暗示某种关联或影响是极有可能的、真实的、真实的或重要的。统计学上的非显著性标签也不会导致关联或影响不可能、不存在、错误或不重要。”

Wasserstein, Schirm和Lazar继续说道:“所以,让我们去做吧。让我们超越“统计上显著”的范畴,即使目前动荡和破坏不可避免。这很值得。在另一个世界p< 0.05,”打破了统计学意义的束缚,科学和政策中的统计学将变得比以往任何时候都更重要。不管它是否曾经有用,今天宣布‘统计显著性’已经变得毫无意义。”

总的来说,我发现这篇社论的语言和语气关于潜在的令人眼花缭乱的话题p-值是令人惊讶的俏皮和有趣的阅读。例如,在他们的介绍中,TAS编辑直接对读者说:

你们中有些人在探索这个特别的问题美国统计学家你可能会想,这是不是迂腐的统计学家在骂你与…有关p-values,而不提供任何真正的概念要做关于数据中信号与噪声的分离以及在不确定条件下决策的难题。恐惧不是。在这一期中,感谢前瞻性统计学家发表的43篇创新和发人深省的论文,帮助正在路上。”

在列出科学报道的五项禁忌之前,编辑们幽默地写道:

“不要。不喜欢。只是……不。是的,我们谈了很多不该做的事。ASA关于p-数值及统计意义(Wasserstein & Lazar, 2016)的发展,主要是因为几十年后,关于“不要做”的警告基本被忽视了。这份声明是关于不该做什么,因为关于不该做什么已经有了广泛的共识。我们在这里不能说太多关于p-价值和显著性测试已经几十年没有说过了…但如果你刚到辩论现场,这里有一些不要做的事情。”

在这些解释之后,编辑们列出了他们的5个禁忌:

  1. 不要把你的结论仅仅建立在某种关联或影响是否被发现具有“统计学意义”上。
  2. 不要仅仅因为统计上的显著性就相信某种关联或影响的存在。
  3. 不要仅仅因为统计上不显著就认为没有关联或影响。
  4. 不要相信你的p-value给出了仅由偶然性产生所观察到的关联或效应的概率,或检验假设为真的概率。
  5. 不要根据统计意义(或缺乏统计意义)来总结任何关于科学或实际重要性的结论。

在列举了这些“不可做的事情”之后,TAS的编辑们重申了避免使用“统计显著性”的一些长期好处。Wasserstein, Schirm和Lazar写道,

“当我们在这条路上冒险时,我们将开始看到更少的虚假警报,更少的被忽视的发现,以及更定制的统计策略的发展。研究人员将在所有光荣的不确定性中自由地传播他们的所有发现,知道他们的工作将由他们的科学的质量和有效传播来评判,而不是由他们的研究成果来评判p值。随着“统计显著性”的使用减少,统计思维将被更多地使用。对于科学出版和研究传播的完整性,因此,是否一个p在决定显示或突出显示哪些结果时,不应该考虑任何任意阈值。”

因为在这43篇论文中有太多的材料,无法在一篇博客文章中讨论,我决定策划一个简短的、按字母顺序排列的列表,从TAS的新闻稿中挑选出一些作者的语录:

“像‘意义’这样的词与p-values和'信心区间估计误导用户过度自信的主张。我们建议研究人员考虑p-值作为测量假设和数据之间的兼容性,并将区间估计解释为“兼容性区间”而不是“置信区间”。'" -来自"推理统计作为描述统计:如果我们不期望复制,就不存在复制危机,作者是瓦伦丁·阿姆莱茵、大卫·特拉菲莫和桑德·格林兰

“学术机构、期刊、基金和监管机构都需要进行重大的社会变革。我们建议与学科、期刊、资助机构和监管机构内的科学改革运动和改革者合作,以促进和奖励‘可重复的’科学,并减少统计意义对出版、资助和推广的影响。”从“为什么是摆脱P-价值观这么难?关于科学和统计的思考——史蒂文·古德曼

“通过给予复制研究的研究人员署名地位,应该鼓励研究的复制。我们希望看到论文的数字版本动态更新,显示“转载自…”’在原研究作者的名字下面或‘尚未复制’,直到被复制为止。”从“科学研究的质量控制:处理可重复性、响应性和相关性Douglas W. Hubbard和Alicia L. Carriquiry著

“对出版手稿的评估应该‘不考虑结果’。也就是说,应该根据研究的实质性重要性来评估手稿是否适合发表,而不考虑其报告的结果。”从“结果盲科学出版对统计咨询与合作的影响约瑟夫·j·洛卡斯乔(Joseph J. Locascio)

“一些因素不应再从属于‘p< 0.05”。这些因素包括相关的先前证据、机制的合理性、研究设计和数据质量,以及决定哪些影响在科学上是重要的现实成本和收益。研究的科学背景很重要,这应该指导它的解释。”从“放弃统计意义,作者是布莱克利·b·麦克肖恩、大卫·加尔、安德鲁·格尔曼、克里斯蒂安·罗伯特和詹妮弗·l·塔克特

最后,TAS编辑总结了2019年3月特刊的主要内容,“21世纪的统计推断:一个超越的世界p< 0.05,我一字不漏。他们总结道:“我们用两句话概括了我们的建议,总共七个词:‘接受不确定性。要有思想,开放,谦虚。记住“原子”。“

参考文献

罗纳德·l·瓦瑟斯坦,艾伦·l·施尔姆和妮可·a·拉扎尔。“超越‘p < 0.05’的世界”美国统计学家(首次在线发布:2019年3月20日0.1080 / 00031305.2019.1583913

瓦伦丁·阿姆莱茵,大卫·特拉菲莫,桑德·格林兰。《作为描述统计的推理统计:如果我们不期望复制,就不存在复制危机》美国统计学家(首次在线发布:2019年3月20日)10.1080 / 00031305.2018.1543137

史蒂文·古德曼。“为什么是摆脱。P-价值观这么难?关于科学和统计的思考。”美国统计学家(首次在线发布:2019年3月20日0.1080 / 00031305.2018.1558111

道格拉斯·w·哈伯德和艾丽西亚·l·卡里奎瑞。科学研究的质量控制:处理可重复性、响应性和相关性美国统计学家(首次在线发布:2019年3月20日)10.1080 / 00031305.2018.1543138

约瑟夫·j·洛卡西奥。“结果盲目科学发表对统计咨询与合作的影响”美国统计学家(首次在线发布:2019年3月20日)10.1080 / 00031305.2018.1505658

布莱克利·b·麦克肖恩,大卫·加尔,安德鲁·格尔曼,克里斯蒂安·罗伯特和詹妮弗·l·塔克特。“放弃统计意义。”美国统计学家(首次在线发布:2019年3月20日)10.1080 / 00031305.2018.15272

广告