跳到主要内容

验证了ob欧宝娱乐平台网站

教育

人类能通过AI聊天机器人GPT检测文本吗?

科学家评估人们识别GPT人工智能生成文本的能力。

要点

  • 研究人员警告说,由于使用人工智能生成的文本,潜在的欺诈风险和错误信息的传播。
  • ChatGPT在商业和学术环境中的流行使得了解人类如何与人工智能文本互动变得非常重要。
  • 根据最近的一项研究,在确定人工智能生成的文本时,人类明显比随机机会更好。
Geralt / Pixabay
Geralt / Pixabay

强大会话的兴起人工智能(AI)聊天机器人,如OpenAI的生成预训练变形金刚(GPT),放大了判断真假文本的需求。新的同行评议研究评估人类检测由OpenAI的GPT聊天机器人生成的文本的能力,其场景比现有研究更现实。

2023年2月,宾夕法尼亚大学工程与应用科学学院的研究人员在美国科学院院刊上发表了他们的研究37th人工科学进步协会情报会议。

神经语言模型(LMs)能够生成听起来越来越自然的文本,”计算机与信息科学系(CIS)副教授Chris Callison-Burch写道,他的团队由Liam Dugan、Daphne Ippolito、Arun Kirubarajan和Sherry Shi组成。“一个越来越令人担忧的问题是,不良分子可能会试图将自动生成的文本冒充真实文本。”

研究人员指出,人工智能生成的虚假新闻文章和对产品和服务的欺诈性评论存在潜在的欺诈和虚假信息传播的风险。

研究人员写道:“随着语言模型变得更好、部署成本更低,这些危害将不可避免地变得越来越普遍。”

大型语言模型(LLMs)使用人工智能生成的文本在教育工作者、学生和专业人士中越来越多。

周三,沃尔顿家族基金会发布的一项新研究显示,大多数教师和许多学生已经在使用ChatGPT。2023年3月对12至17岁的K-12教师和学生的调查显示,51%的教师报告使用ChatGPT, 33%的学生已经在学校使用它。

专业人士开始在工作中使用ChatGPT。2023年1月,美国鱼缸公司(Fishbowl)对4500名专业人士进行了调查社交网络Glassdoor在2021年收购的专业人士的调查显示,27%的人已经使用ChatGPT来协助完成与工作相关的任务,这一比例最高采用价格在营销中,广告以及科技行业。这些受访者包括在谷歌、Twitter、亚马逊、Meta、IBM、爱德曼、麦肯锡、摩根大通、耐克和数千家其他公司工作的专业人士。

研究人员写道:“随着大型语言模型生成的文本激增,了解人类如何处理这些文本,以及他们是否能够检测到他们正在阅读的文本何时不是出自人类作者之手,变得至关重要。”

一项新的研究测试了人类对人工智能文本的检测能力

为了回答这个问题,该团队采取了一种独特的方法。研究人员没有测试人类能否检测出整篇文章是否是由人工智能机器学习生成的,而是采用了一种更微妙的方法。超过240名研究参与者都是在哈佛大学学习人工智能课程的大四本科生或研究生宾夕法尼亚大学。

科学家们报告说:“在这篇论文中,我们研究了一个更现实的场景,文本从人类书写开始,过渡到由最先进的神经语言模型生成。”

为了实现对过渡点的检测,研究人员试图测量人类在边界检测任务上的能力,而不是分类。通过这种方式,研究人员可以评估各种生成系统的性能,同时量化AI模型的风险。

科学家收集了人类的注释RoFT(真假文本),Dugan、Ippolito、Kirubarajan和Burch创建的工具,用于测量人类对人工智能生成的检测文本这是在2020年自然语言处理经验方法会议论文集:系统演示.《RoFT》是一款每次向玩家展示一个句子的游戏,如果玩家猜出这段文字是机器生成而不是人类书写的时间,就可以获得分数,然后选择他们做出这一决定的原因。

RoFT使用的数据来自180万篇发表的文章《纽约时报》在1987-2007年期间,美国总统在1789-2015年期间的963次演讲,来自Reddit Writing Prompts的短篇故事,以及来自Recipe1M+数据集的食谱,以及人工智能机器学习模型GPT2, GPT2- xl和CTRL。

除了为分析可检测性提供有价值的数据外,我们的研究还首次大规模尝试使用游戏化平台来分析生成文本的可检测性,”研究人员写道。

在7.8万多个不同的游戏回合中,科学家收集了超过42K个注释,这些注释被进一步过滤,生成了超过21K个注释和7K个延续的最终数据集。

我们发现,在边界检测任务中,玩家的表现明显好于随机概率,他们正确选择边界句子的概率为23.4%(概率为10%)。”“在至少有一个生成句子的回合中,玩家选择生成句子作为边界句子的概率为72.3%。”

研究人员发现,玩家的技能水平存在很大差异随着时间的推移,这种准确性可以通过额外的指导和与游戏分数成比例的额外学分来提高。阅读包含技巧和示例的帮助指南是注释器最具预测性的功能。

科学家们总结道:“我们的研究表明,虽然批注员在完成这项任务时经常感到困难,但批注员的技能存在很大差异,如果给予适当的激励,批注员可以随着时间的推移在这项任务上有所提高。”

版权所有©2023 Cami Rosso

广告