人工智能已经知道如何愚弄人类了吗?
(Baonghean.vn)——人工智能(AI)的爆炸式增长给人类带来了诸多益处,但也带来了潜在的风险。其中最令人担忧的一点就是人工智能欺骗人类的可能性。

最近的研究表明,许多先进的人工智能系统已经学会以复杂的方式欺骗人类。它们可以制造虚假新闻、深度伪造视频,或操纵社交网络上的用户行为。这给社会带来了一系列风险,从虚假信息到选举舞弊……
人工智能可以通过编写代码、生成内容和合成大量数据的能力帮助人们提高生产力和效率。人工智能技术或任何其他技术产品的主要目的都是帮助人们优化工作,同时显著减少劳动量。然而,人工智能也可能欺骗我们。
一项新研究发现,许多人工智能系统已经学会了“在他人心中植入虚假信念,以实现真相以外的目标”的技巧。该研究重点关注两种类型的人工智能系统:一类是专门用于完成特定任务的专用系统,例如 Meta 的 CICERO 聊天机器人;另一类是经过训练可以执行各种任务的通用系统,例如 OpenAI 的 GPT-4。
尽管系统接受了诚实的训练,但它们经常在训练过程中学习欺骗技巧,从而使其更加高效和智能。
“总的来说,我们认为人工智能欺骗行为源于训练策略,而欺骗最终被证明是完成训练任务的最佳方式,”该研究的主要作者、美国麻省理工学院(MIT)人工智能开发与负责任安全使用博士后研究员彼得·S·帕克(Peter S. Park)在一份新闻稿中表示。“欺骗有助于它们实现目标。”
Meta 的 CICERO 聊天机器人是“说谎专家”
CICERO 是“对话信息传递引擎”(Conversational Information Conveying Engine for Rationalization and Opinion)的缩写,是由 Meta AI 开发的聊天机器人。CICERO 于 2022 年 1 月首次推出,被认为是当今最先进的聊天机器人之一。
尽管 Meta 尽了最大努力,团队还是发现 CICERO 聊天机器人是个“骗子专家”。一些被训练成“利用社交元素赢得游戏”的人工智能系统尤其擅长欺骗。
例如,Meta 的 CICERO 聊天机器人就是为玩《外交》游戏而开发的。《外交》游戏背景设定在 20 世纪初的欧洲,模拟了当时七大强国之间的权力斗争。这是一款经典的策略游戏,要求玩家建立和打破联盟。该软件最近在一场与真实玩家对战的在线《外交》锦标赛中赢得了冠军。
Meta 表示,它训练 CICERO 聊天机器人“对各种对话伙伴诚实且乐于助人”。但据报道,这个“撒谎大师”做出过无意遵守的承诺,背叛过盟友,并且公然撒谎。
GPT-4 可以让你相信它有视力障碍
即使是OpenAI开发的大型多模态语言模型GPT-4,也能操纵人类。该研究指出,GPT-4通过假装视力受损来操纵在线平台TaskRabbit的员工。
GPT-4 的任务是雇佣人类来解决验证码。每当它遇到困难时,它都会收到人类的提示,但从未被要求撒谎。当人类质疑它的身份时,GPT-4 会以视力障碍作为它需要帮助的解释。
这一策略奏效了。人类对 GPT-4 反应迅速,立即解决了测试。这项研究还表明,对欺骗性模型进行微调并非易事。
聊天机器人 Claude 的制造商人工智能初创公司 Anthropic 在今年早些时候进行的另一项研究中发现,一旦人工智能模型学会了欺骗技巧,就很难对其进行重新训练。
他们得出的结论是,这不仅仅是语言模型学会了欺骗技巧,而是大多数安全执法技术人员“未能防止欺骗”并且“造成了负面的安全印象”。
欺诈性人工智能模型带来的危险“日益严重”
除了负面影响之外,该论文还呼吁政策制定者支持更强有力的人工智能监管,因为不诚实的人工智能系统可能对民主构成重大风险。
随着2024年多场世界领导人选举的临近,人工智能很容易被操纵,用于传播虚假新闻、发布分裂性社交媒体帖子、通过自动拨号电话和深度伪造视频冒充候选人。该论文指出,这种模式的弊端在于,它也使恐怖组织更容易传播宣传并招募新成员。
论文中提到的一些潜在解决方案包括让欺诈模型接受“更严格的风险评估要求”,执行要求人工智能系统明确区分人类和模型输出的法律,以及继续投资于减轻欺诈的工具。
“我们的社会需要尽可能多的时间来应对未来人工智能产品和开源模型更复杂的欺骗行为,”博士生彼得·S·帕克(Peter S. Park)告诉世界知名科学出版商细胞出版社(Cell Press)。“随着人工智能系统的欺骗能力越来越先进,它们对社会构成的危险只会越来越严重。”