教育

科学研究评估入门

一套简单但有用的评估一项研究的标准。

发布2022年9月30日|瓦妮莎·兰卡斯特评论

要点

虽然不容易，但学生和公众人士必须评估相关的研究。
一些基本的考虑因素是难以捉摸的，因为它们有主观成分或技术上很复杂。
有用的标准包括统计结论效度、内部效度、结构效度和外部效度。

来源:Andrea Piacquadio/Pexels

非专业人士很难评价一项研究。通常，这样的评估是基于误导启发式，比如朗朗上口的标题、知名人物的代言，或者对个人价值和实际利益的一厢情愿。

获得必要的专业知识是不可替代的，尤其是为你需要做出的重要决定提供信息。学习应用某些标准可以成为自我的一部分教育．

需要澄清的一点是:我的建议是关于评估单个研究的。在多项研究中，关于科学主张的总体支持的问题是很多的，复杂的，超出了本讨论的范围。

来源:Andrea Piacquadio/Pexels

有趣的是，研究的重要性不同于其他一切。
我的一位前同事经常使用简单的三个考虑因素:研究结果是否有趣、重要、不同?这当然是个好建议。但也有局限性。

“有趣”是主观的。一个专家感兴趣的东西，其他人可能也会感兴趣。此外，即使专家们同意，他们认为有趣的东西可能不会让受过教育的外行感兴趣，反之亦然。并不是说专家对趣味性的看法总是正确的。专家和其他人一样，也有偏见，这可能会扭曲他们对有趣事物的感知。

“重要”可以不那么主观。声称已经解决或为解决重大社会问题铺平道路的研究，可能比那些没有解决问题的研究更具有现实意义。不过，很难评估一项研究发现具有实际意义的可能性。

“不同”，从新奇的意义上来说，在某种程度上是三者中最不主观的。但这并不容易应用。随着科学期刊和其他研究成果的爆炸性增长，并不是所有的研究成果都能轻易获得，很难确定一项研究的原创性。

来源:Vinícius Vieira ft/Pexels

“就像魔法一样!”
Robert Abelson使用了一个有趣的首字母缩写词“MAGIC”指定了一组更详细的考虑因素。“M”代表“量级”，即在统计学意义上观察到的因果关系或相关关联的大小。“A”代表“清晰度”，或研究的特异性或准确性。“G”代表“普遍性”，即研究结果的应用范围或相关性。“I”代表“趣味性”，或者这项研究改变人们对这个话题看法的潜力。“C”代表“可信度”或可信度。

哪个更重要:消除威胁还是发现机会?
虽然“MAGIC”当然是推荐的，但对于非专家来说，更容易理解的起点可以在唐纳德·t·坎贝尔(Donald T. Campbell)及其同事的经典论文中找到。它包括评估一项研究是否充分处理了一系列影响其有效性的威胁。这似乎是一种消极或对抗的立场，但通过这种方法设置的问题是直观的，相关的，难以忽视的。

资料来源:D Wells/Wikimedia Commons

“统计结论有效性”部分涉及观察到的关系是否具有统计显著性的问题，也就是说，数据是否提供了拒绝原假设的基础，即没有关系的假设。

它还提出了“量级”问题，即“MAGIC”开头的问题:“零假设被拒绝的程度是多少?”

零假设检验最近受到了严格的审查，已经发现了它的错误，并提出了替代方案。但在继续之前，最好先了解它是如何工作的，以及它的优点和缺点的基础。

统计学并不是每个人都喜欢的话题。但很可能(抱歉!)我们对统计学了解得越多，我们就越富裕。除了Campbell等人的作品，他们提供了与有效性威胁相关的统计和其他技术细节的出色处理，本科教科书是非常值得投资的非常好的资源。

一项研究报告了两组或多组暴露于不同治疗或条件下的参与者之间的差异(例如，活性药物vs。安慰剂)，查看t-检验和方差分析。对于一项为两个变量(例如体重和预期寿命)之间的关联提供证据的研究，请查看相关系数r．

为了区分统计学意义(两组可能存在差异;变量之间的关系可能是真实的)，从效应的大小(有多大的差异/关系?)开始，从雅各布·科恩关于效应大小和统计能力的工作开始。

“内在有效性”涉及的问题是，所声称的关系是否可以说是因果关系或仅仅是相关关系。大多数人都同意，偶然的推断只有在进行良好的随机实验中才能得到支持。在这里，随机分配到两个或两个以上的实验条件会在组之间产生实质性的等效性，因此他们之间在感兴趣的结果上的任何差异都可能归因于不同条件的因果效应。

教育必读书目

孩子的快乐习惯

对立违抗性障碍与学校

“构念效度”与研究中所检验的概念的意义有关。度量是否捕捉到了它们想要反映的品质或属性?是否有任何实验性治疗、操作或干预创造或改变了他们想要创造或改变的状态或条件?构念效度是一个复杂的问题，其细节在不同的研究领域有所不同。塞缪尔·梅西克(Samuel Messick)的一些优秀论文是一个很好的开始。

“外部有效性”映射到“MAGIC”中的“G”:这些发现是否应该在不同的人群、环境、主要概念的测量和操作中推广，而不仅仅是研究中具体涉及的那些?介绍性统计文本在处理随机/系统抽样时，很好地处理了不同总体的泛化细节。

这种考虑也是相对直观的:如果一个研究样本是通过从一个特定的人群中随机选择参与者(或系统地，如选择每三名成员)形成的，它将非常类似于该人群。评估对其他环境和措施的普遍性需要特定研究领域的专业知识。

坎贝尔及其同事定义的经典四效度威胁为评估心理学和其他领域的研究提供了一个非常有用的框架。当然，它的应用提出了一些问题，比如如何准确地评估每个标准，以及四个标准应该如何优先排序。

后一个问题是在研究方法论课上引发讨论的好方法;我认为构念效度高于其他;如果我们不能确切地确定什么是被测量或操纵的，我们能从那里得到什么?但这在很大程度上取决于研究主题的性质和重要性以及该领域的现状。

有效性威胁框架还留下了其他问题，如“趣味性”和实际重要性。但在许多情况下，如果工作不能解决这四个有效性威胁，这些问题就毫无意义了。尽管如此，这些都是重要的考虑因素，有效地解决这些问题所需的自我教育肯定是值得努力的。

参考文献

罗伯特·阿贝尔森(1995)。统计学作为原则性论点。新泽西州希尔斯代尔:L. Erlbaum Associates。

库克，托马斯·D，坎贝尔，唐纳德·T和佩拉奇奥，劳拉。(1990)。准实验。邓丽娟，马文。[编辑]。工业与组织心理学手册。，第一卷，第二版。帕洛阿尔托，加州，美国:咨询心理学家出版社，美国;491 - 576页。从检索http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=reference&D=psyc3&NEWS=N&A..。．

沙迪什，威廉R，库克，托马斯D和坎贝尔，唐纳德T.(2002)。广义因果推理的实验和准实验设计。广义因果推理的实验和准实验设计。波士顿，马萨诸塞州，美国:霍顿，米夫林公司，美国;从检索http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=reference&D=psyc4&NEWS=N&A..。．

梅西克,撒母耳。(1995)。心理评估的有效性:验证从人的反应和表现中得出的推论，作为对分数意义的科学探究。美国心理学家，50,741 -749。https://doi.org/10.1037/0003-066X.50.9.741．

科恩，J.(2016)。电源底火。在A. E. Kazdin (Ed.)，临床研究的方法学问题和策略(pp. 279-284)。美国心理学会。https://doi.org/10.1037/14805-018．

新闻

看到所有

教育

科学研究评估入门

一套简单但有用的评估一项研究的标准。

最基本的

要点

最基本的

教育必读书目

寻找治疗师

欧宝下载安卓版

杂志

今天

新闻

看到所有