学术丑闻:数十万篇科学论文被发现由人工智能生成?
一项新发表的研究震惊了学术界,该研究揭示可能有数十万篇科学论文全部或部分使用了人工智能撰写。
这项发表在著名期刊《科学进展》(Science Advances)上的研究,开发了一种极其复杂的语言分析方法。研究人员识别出了454个大型语言模型(LLM,例如ChatGPT)常用的特征词。
这些词语包括“获得”、“涵盖”、“蓬勃发展”以及许多其他在人工智能生成的文本中异常频繁出现的词语。
当这项分析应用于每年收录约150万篇科学论文的PubMed数据库时,结果令人震惊。《纽约时报》的一篇评论估计,每年至少有20万篇文章包含人工智能的痕迹。
随着许多科学论文中出现指向人工智能的严重错误,这一现实变得更加显而易见。亚利桑那州立大学计算机科学家苏巴拉奥·坎巴姆帕蒂分享了一个典型案例:一篇医学成像领域的论文中,竟然出现了一个来自聊天机器人的明确答案。
“抱歉,由于我只是一个人工智能语言模型,我无法获取实时信息或具体的病人数据。”
一些研究报告中出现了更为隐蔽的错误,例如使用了“regenerate response”(ChatGPT特有的术语,指重新生成回复)这样的表述。更令人担忧的是,一些论文甚至包含了完全捏造的参考文献或荒谬的AI生成图像。
面对这种情况,研究界明显分为两派。一些作者试图通过调整语言、删除容易被贴上“人工智能撰写”标签的词语来掩盖其人工智能的使用,而另一些作者则对此毫不在意,甚至漫不经心。
人工智能使用隐瞒的趋势越来越复杂,给维护科学研究的透明度和质量带来了重大挑战。

该团队就此现象的潜在影响发出了严峻警告。根据他们的评估,如果人工智能在科学写作中不受控制地使用的情况继续下去,可能会对生物医学研究领域的科学写作产生“前所未有的影响,甚至超过新冠疫情的影响”。
该研究的合著者德米特里·科巴克强调了保持研究真实性的重要性:“我认为,像撰写研究摘要这样重要的事情,你不应该让人工智能来帮你完成。”


