跳到主要内容

验证了ob欧宝娱乐平台网站

教育

机器学习能解决心理学的复制问题吗?

新的研究试图预测心理学中的复制率。

要点

  • 新的研究开发了一种机器学习算法来预测心理学研究是否会被复制。
  • 这种机器学习算法使用心理学论文中的词汇选择,而不是其他关键信息来进行预测。
  • 该算法的整体精度很低(68%),并且基于现有的复制,不涵盖他们研究的所有心理学领域。
  • 总的来说,这篇论文支持了几个关于复制的现有发现,比如它根据区域而不同(例如,社会vs个性)。
由Alex Danvers在Canva创建。
来源:Alex Danvers在Canva上创建。

重复研究是获得成功的关键信心在他们。我们想要的不仅仅是在实验室里发生过一次的心理效应,我们想要的是广泛真实的效应,可以用来帮助我们改善现实世界中的生活。但是,进行重复研究是困难的,耗时的,而且经常充满学术斗争。如果我们可以用机器学习帮助自动化这个过程,自动获得数千项研究的重复分数?

一项新的研究由吴友友,杨洋和布莱恩·乌兹在美国国家科学院院刊试着这样做。他们使用机器学习试图了解心理学研究在几个子领域(如临床心理学、发展心理学、社会心理学)的复制效果如何。这是一篇雄心勃勃的论文,它对心理学中的复制提供了一些见解。然而,机器学习方法的问题应该让我们在解释结果时保持谨慎。

他们做了什么?

研究人员收集了388项之前被重复的心理学研究样本,并用它们来训练他们的机器学习模型。这些都是由于其他原因进行的现有研究,例如2016年的研究心理学复制计划人格复制(LOOPR)项目的生活结果.这些论文的文本是用一种著名的算法分析的。该算法的工作大致是计算论文中每个单词的使用频率,然后根据社会科学研究中常见的单词关联将其转换为一系列200个数字。然后,手稿文本的这200个数字摘要被用于训练机器学习模型,以预测一项研究是否被准确复制。

然后,研究人员使用在现有复制上训练的机器学习模型来预测其他论文是否会复制(如果将来有人试图复制它们)。他们在一组更大的论文上做出了这些预测——超过14000篇论文,几乎涵盖了在整整十年里发表在六个顶级期刊上的每一篇论文。然后他们分析了这些预测,试图更好地理解这些子领域。

研究的潜在问题

这篇论文的细心读者可能会马上注意到一些潜在的问题。

由Alex Danvers在Canva创建。
来源:Alex Danvers在Canva上创建。

1.这些预测有多准确?

准确率还不错,但不是很高:68%。因此,当他们分析1.4万篇新论文的预测时,我们知道它们是相当不准确的。

此外,我们可以快速检查字段的预测复制到字段的实际复制。有时它是一致的:对于社会心理学,已完成研究的复制率是38%,而预测的复制率是37%。但有时它是遥远的:为obsports下载 心理学方面,已完成研究的复制率为77%,但预测率为55%。这应该让我们在从这个模型中得出结论时停下来。

2.期望以前的复制研究来预测新的研究真的合理吗?

回答这个问题意味着要确定之前的复制研究是否能很好地代表任何和所有可能的未来复制(至少从这六种期刊)。这有几个原因。

首先,之前的复制研究没有包括任何临床心理学或发展心理学的研究。这是一个问题,因为这篇论文想要对这两个领域的顶尖论文做出预测。由于该模型没有在任何一篇论文上进行训练,当它遇到这种新的、不同类型的论文时,准确率可能会更低。(作者试图解决这个问题,他们说这些论文中使用的词语类型与我们确实有重复的领域中使用的词语类型相似,但这并不完全令人信服。)对于这些领域,我们68%的准确率可能更低。

其次,即使在已有多个复制的领域,它们也不能同样地代表所有领域。例如,与那些涉及记录互动和编码或评级行为的实验相比,更多的社会心理学实验已经在计算机上快速完成。所以,我们对这类研究的准确性可能也不太准确。

3.基于词汇关联的模型是评估具有p值等标记的研究的最佳方法吗?

词向量的使用(与作者的单词选择相关的200个数字)意味着这种特殊的机器学习方法仅依赖于单词关联。除了使用了哪些词语,其他因素显然也很重要。例如,我们知道研究假定值那些刚刚达到可发表的门槛的研究往往不那么可靠假定值那是一个很大的差距。如果这些数据可以被使用,并且准确率可以提高5-10%,那么我对从预测中得出的任何结论都会更有信心。

我们能学到什么?

由Alex Danvers在Canva创建
来源:Alex Danvers在Canva上创建

悠悠和同事们得出结论,他们的“该模型使我们能够对近20年来发表在心理学六大子领域期刊上的几乎所有论文进行首次复制普查。”虽然他们确实从大量的手稿中生成和分析预测,但对准确性的担忧以及将算法应用于新类型的数据(例如,新的子领域,新的研究类型)的担忧让我怀疑能否从算法的输出中得出可靠的结论。

也就是说,作者提出了几个令人信服的论点,他们的算法与现有的文献相匹配。这些论点(对我来说)是最有说服力的,因为这场比赛。

  • 心理学的复制率不止一种;复制率真的应该按区域来考虑(例如,人格心理学比社会心理学做得更好)
  • 在更好的期刊上发表更多文章的主要作者往往有更多的复制,但在一所著名大学工作并不意味着更高的复制率。
  • 有更多媒体报道的研究注意倾向于不太可能的复制,因为媒体被浮华的、违反直觉的故事所吸引,这些故事也不太可能经受住时间的考验。

最后,作者发现,实验研究(心理学家积极操纵条件)往往比非实验研究(心理学家观察行为并报告什么与什么相关)的重复性要低。这有点令人惊讶,但在我看来,这可能是由用于训练模型的样本来解释的:人格心理学倾向于在方法上更严格和观察性更强,复制得更多。社会心理学倾向于在方法上更加松散和实验性,复制较少。机器学习模型从它们所训练的数据中获取模式。就像训练犯罪基于种族偏见数据的预测模型重现这些偏见例如,在偏向观察性研究的数据上训练一个复制预测模型,就能重现这种结果偏见.在心理学中,观察性研究可能比实验有独特的优势,但我还不相信。

总的来说,这篇手稿对使用机器学习评估研究文献的不断增长的文献做出了有趣的贡献。大量的计算工作用于开发基于文本的编码和对超过14,000项新研究的预测。虽然这个算法还不足以让我们得出强有力的结论,但有可能在几年内,基于这个模型对该领域的自动概述将足够精确,让我们对整个心理学做出自信的陈述。

参考文献

杨勇,杨友友,杨志强。(2023)。过去二十年心理学论文可复制性的学科范围调查。美国国家科学院院刊120(6) e2208863120。

广告