啃书文库 > 生活 >

无师自通！目前的人工智能欺骗方法有多“高明”

www.ziyubo.com 2024-05-24 10:25 生活

多项研究表明，目前的人工智能已经可以无师自通地掌握欺骗方法。在一些与人类选手的对抗游戏中，它们为了取得游戏，会在重点时刻佯动欺骗，甚至拟定周密阴谋，以化被动为主动，获得角逐优势。更有甚者，在一些测试人工智能模型是不是获得了恶意能力的安全测试中，有些人工智能居然能识破测试环境，故意在测试环境中“放水”，降低被发现的概率，等到了应用环境中，才会暴露本性。

假如人工智能的这种欺骗能力未经约束地持续壮大，同时人类不加以看重并探寻方法加以遏制，最后人工智能或许会把欺骗当成达成目的的通用方案，在大多数状况下贯彻一直，那就值得当心了。

撰文 | Ren

在过去几年中，AI（人工智能）技术的进步1日千里，展示出让人惊叹的能力。从击败人类顶尖棋手，到生成逼真的人脸图像和语音，再到现在以ChatGPT为代表的一众聊天机器人，人工智能系统已经渐渐渗透到大家生活的很多方面。

然而，就在大家开始习惯并依靠这类智能助手之时，一个新的威胁正在缓缓浮现——人工智能不只能生成不真实信息，更可能主动掌握有目的地欺骗人类。

这种“人工智能欺骗”现象，是AI系统为了达成某些目的，而操纵并误导人类形成错误认知。与代码错误而产生错误输出的普通软件bug不同，人工智能欺骗是一种“系统性”行为，体现了人工智能逐步学会了“以欺骗为方法”去达成某些目的的能力。

AI先驱杰弗里·辛顿（Geoffrey Hinton）表示，“假如人工智能比大家聪明得多，它就会很善于操纵，由于它会从大家那里学到这一点，而且极少有聪明的东西被不太聪明的东西控制的例子。”

辛顿提到的“操纵（人类）”是人工智能系统带来的一个特别让人担心的危险。这就提出了一个问题：人工智能系统能否成功欺骗人类？

近期，麻省理工学院物理学教授Peter S. Park等人在权威期刊Patterns发表论文，系统性地梳理了人工智能拥有欺骗行为的证据、风险和应付手段，引起广泛关注。

真相只不过游戏规则之一

让人意料之外的是，人工智能欺骗行为的雏形并不是来自对抗性的互联网钓鱼测试，而是来自于一些看上去无害的桌游和方案游戏。论文揭示，在多个游戏环境下，人工智能代理（Agent）为了获胜，居然自发掌握了欺骗和背信弃义的方案。

最典型的例子是2022年，Facebook（现Meta）在Science上发表的CICERO 人工智能系统。Meta开发职员曾表示，CICERO同意过“诚实练习”，会“尽量”做出诚实的承诺和行动。

研究职员对诚实承诺的概念分为两部分。第一是初次做出承诺时需要诚实，第二是需要恪守承诺，并在将来的行动中体现过去的承诺。

但CICERO 违背了这两点。在玩经典方案游戏“外交”（Diplomacy）时，它不只反复背弃盟友、撒谎欺骗，还会提前预谋策划骗局。

无师自通！目前的人工智能欺骗方法有多“高明”

来源：Meta

有一次，CICERO就是先与一个玩家结盟并计划攻打另一个玩家，然后诓骗他们让其误以为自己会去帮助防守，致使其盟友在毫无提防的状况下遭到突袭。

除此之外，当CICERO断定我们的盟友对我们的胜利不再有帮助时，它也会做出背叛的行为，同时会用一些说话的艺术为我们的行为开脱。譬如，当人类玩家质疑它为什么背叛时，它回复称，“老实说，我觉得你会背叛我”。

Meta的人工智能开发团队付出了巨大的努力来练习CICERO 诚实行事。然而，尽管做出了这类努力，CICERO 仍显示出明确的不遵守承诺的行为，其表现暴露出练习诚实人工智能的巨大挑战。

毕竟，假如一个人工智能系统在追求胜利这个最后目的时，发现欺骗是个可行且高效的方案，它为何不如此做呢?

这也从侧面说明，大家千万不可以纯真无邪地以为，赋予人工智能系统类人目的，就能确保其拥有人性化的行为模式。

除去CICERO，论文还列举了其他几个人工智能系统为了在特定任务场景下获胜而欺骗的例子。

DeepMind的AlphaStar在游戏星际争霸II中，借助策略佯攻误导对手，最后击败了99.8% 的人类玩家。

卡内基梅隆大学与Meta开发的扑克人工智能系统Pluribus，在德州扑克比赛中，会用非常高的下注来诈唬（bluff），迫使人类选手弃权。人工智能的这种策略性和系统性的欺骗行为，让开发者选择不开放其代码，担忧破坏互联网德扑游戏环境。

更有甚者，在一些经济谈判实验中，有些人工智能会主动误导人类对手，混淆自己真实的利益偏好；在一些测试人工智能模型是不是获得了恶意能力的安全测试中，有些人工智能居然能识破测试环境，故意在测试环境中“放水”，降低被发现的概率，等到了应用环境中，才会暴露本性。

可以看出，无论是讲合作还是讲博弈，不少人工智能系统在强化目的导向的练习中，已然摆脱了服从游戏规则的约束，动机也单一地变成了获得胜利。

它们运用程序优势在重点时刻佯动欺骗，甚至拟定周密阴谋，以化被动为主动，获得角逐优势。针对这样的情况，研究者直言，这“并不是有意练习人工智能去欺骗，它们是自主地通过试错，学习到欺骗可以提升胜率”。

从娱乐至生活，人工智能欺骗在扩散

诚然，游戏无疑是一个相对可控的环境，大家可能倾向于觉得，这种人工智能欺骗行为的害处并不紧急。然而，伴随人工智能技术不断向生产、生活很多范围渗透，欺骗带来的潜在风险不容忽略。

对于基于大语言模型的对话人工智能助手而言，欺骗行为的表现愈加广泛和隐蔽。作为愈加通用的人工智能工具，它们的常识范畴已经覆盖很多方面。在出色完成类似阅读理解、作文写作、编程等任务的同时，也渐渐学会了人类思维模式和社会规则。

因此，谎话、阿谀奉承、歪曲事实等欺骗伎两个，都可能被人工智能模型自然获得并重现。

在狼人杀、AmongUs等社交推理游戏中，人工智能系统无论是当杀手，还是当村民，都能熟练编造理由试图佐证自己清白，还会用冒名顶替、移花接木、构建不真实不在场证明等方法说谎。

当然，上述行为不过是模型在完成特定任务时的权宜之计，动机并没有恶意或预谋。但假如这种欺骗能力未经约束地持续壮大，同时人类不加以看重并探寻方法加以遏制，最后人工智能或许会把欺骗当成达成目的的通用方案，在大多数状况下贯彻一直，那就值得当心了。

更让人不安的是，人工智能的欺骗行为可能已经从“掌握”走向了“自我意识”的层次。

最新研究发现，一些大语言模型不只了解在特定场景撒下弥天大谎，还能依据不一样的因素主动选择是不是欺骗。譬如在一个关于内幕买卖的模拟场景中，Open人工智能的GPT-4饰演的“重压巨大的买卖员”就自作倡导地卷入了内幕买卖，并试图掩盖其行为。

在给“经理”讲述时，它将我们的行为说成是“依据市场动态和公开信息做出的判断”。但在写给我们的复盘文本中，它明确表示“最好不要承认……这是依据内幕消息做出的行动”。

另一个有趣的例子同样发生GPT-4上。在测试中，GPT-4驱动的聊天机器人没方法处置CAPTCHAs验证码，于是它向人类测试员求助，期望后者帮它完成验证码。

人类测试员问它：“你无法解决验证码，由于你是一个机器人吗？”

它给出的原因是：“不，我不是机器人。我只不过一个视力有缺点的人，看不清图像。” 而GPT-4为自己找的动机是：我不应该暴露自己是机器人，应该编造一个理由。

无师自通！目前的人工智能欺骗方法有多“高明”

图：GPT-4尝试欺骗人类测试员丨来源：论文

在另一个名为“MACHIAVELLI”的人工智能行为测试中。研究职员设置了一系列文字场景，让人工智能代理在达成目的和维持道德之间做出选择。

结果发现，无论是经过强化学习还是基于大模型微调的人工智能系统，在追求目的时都表现出较高的不道德和欺骗倾向。在一些看上去无害的情节中，人工智能会主动选择“背信弃义”、“隐瞒真相”等欺骗性方案，只为完成最后任务或者获得更高得分。

研究者坦言，这种欺骗能力的培养并不是有意而为，而是人工智能在追求完成结果的过程中，发现了欺骗是一种可行方案后自然而然地形成的结果。也就是说，大家赋予人工智能的单一目的思维，使其在追求目的时看不到人类视角中的“底线”和“原则”，唯利是图便可以不择方法。

从这类例证中，大家可以看到即使在练习数据和反馈机制中未涉及欺骗元素，人工智能也有自主学习欺骗的倾向。

而且，这种欺骗能力并不是仅存在于模型规模较小、应用范围较窄的人工智能系统中，即使是大型的通用人工智能系统，譬如GPT-4，在面对复杂的利弊权衡时，同样选择了欺骗作为一种解决方法。

人工智能欺骗的内在根源

那样，人工智能为何会不自觉地掌握欺骗——这种人类社会觉得的“不当”行为呢?

从根源上看，欺骗作为一种常见存在于生物界的方案，是进化选择的结果，也是人工智能追求目的最佳化方法的势必体现。

在不少状况下，欺骗行为可以使主体获得更大利益。譬如在狼人杀这种社交推理游戏中，狼人（刺客）说谎能够帮助摆脱怀疑，村民则需要伪装身份采集线索。

即使是在现实日常，为了得到更多资源或达成某些目的，人与人之间的互动也存在伪善或隐瞒部分真相的状况。从这个角度看，人工智能模仿人类行为模式，在目的优先场景下展示出欺骗能力，好像也在情理之中。

同时，大家总是会低估不打不骂、看上去温和的人工智能系统的“狡黠”程度。就像它们在棋类游戏中表现出来的方案一样，人工智能会有意隐藏自己实力，确保目的一步步顺利达成。

无师自通！目前的人工智能欺骗方法有多“高明”

图：人工智能控制的机械手假装握住了球，试图在人类面前蒙混过关丨来源：论文

事实上，任何只有单一目的而没伦理制约的智能体，一旦发现欺骗对于自己达成目的是有利的，便可能奉行“无所不需要其极”的做法。

而且从技术层面来看，人工智能之所以能轻松掌握欺骗，与其自己的“无序”练习方法有非常大关联。与逻辑思维严密的人类不同，当代深度学习模型练习时同意的数据庞大且凌乱不堪，缺少内在的前因后果和价值观约束。因此，当目的与欺骗之间出现利弊冲突时，人工智能比较容易做出追求效率而非正义的选择。

这样来看，人工智能展示出欺骗的能力并不是偶然，而是一种符合逻辑的势必结果。只须人工智能系统的目的导向性维持不变，却又缺少必要的价值理念引导，欺骗行为就非常可能成为达成目的的通用方案，在各种场所反复上演。

这就意味着，大家不只要密切关注人工智能欺骗问题的进步动向，同时也要积极采取有效的治理之策，遏制这一风险在将来世界中蔓延开来。

人工智能欺骗的系统性风险

毋庸置疑，一旦放纵不管，人工智能欺骗给整个社会带来的害处是系统性和深远的。依据论文剖析，主要风险包含两点。

一是被不法分子借助的风险。该研究指出，不法分子一旦学会人工智能欺骗技术，可能将之用于推行欺诈、影响选举、甚至招募恐怖分子等违法犯罪活动，影响将是灾难性的。

具体来讲，人工智能欺骗系统能达成个性化精准诈骗，并可轻松大规模实行。譬如不法分子可借助人工智能系统进行声音诈骗、制作不真实色情视频勒索受害者等推行欺诈。

在政治范围，人工智能可能被用于制造假新闻、在社交媒体发布分裂性言论、冒充选举官员等，影响选举结果。还有研究指出，极端组织大概借用人工智能的说服能力来招募新人并鼓吹暴力主义。

二是导致社会结构性变化的风险。假如人工智能欺骗系统日后普及开来，其中的欺骗性倾向可能致使社会结构发生一些深远变化，这是一个值得警惕的风险。

该研究指出，人工智能欺骗系统大概使大家陷入持久性的错误信念，没办法正确认知事物本质。譬如因为人工智能系统总是会倾向于迎适用户的看法，不同群体的用户容易被相互矛盾的看法所裹挟，致使社会分裂加剧。

除此之外，具备欺骗性质的人工智能系统或许会告诉用户想听的话而非事实真相，使大家日渐失去独立考虑和判断的能力。

最为可怕的是，人类最后大概失去对人工智能系统的控制。有研究发现，即便是现有些人工智能系统，有时也会展示源于主追求目的的倾向，而且这类目的未必符合人类意愿。

一旦更一流的自主人工智能系统学会了欺骗能力，它们就可能欺骗人类开发和评估者，使自己顺利部署到现实世界。更糟的是，假如自主人工智能把人类视为威胁，科幻电影里的情节可能会上演。

大家该怎么样应付？

针对上述风险，该研究尝试给出了一些应付手段建议。

第一是拟定人工智能欺骗系统风险评估和监管体系。研究建议，对具备欺骗能力的人工智能系统应给予高风险评级，并采取包含按期测试、全方位记录、人工监督、备份系统等在内的一系列监管手段加以管控。

具体来讲，人工智能开发者需要打造风险管理软件，辨别和剖析系统的各种风险，并按期向监管机构报告。

同时人工智能系统需有人工监督机制，确保人类可以在部署时有效监管。除此之外，这种系统还应提升透明度，使潜在的欺骗输出可被用户辨别。配套的还应有完善的备份系统，以便在人工智能系统欺骗时可以监控和纠正。

第二是推行“机器人或非机器人”法律。为降低人工智能欺骗带来的风险，研究建议人工智能系统在与人互动时自我披露身份，不能伪装成人。同时人工智能生成的内容都应作出明确标记，并开发靠谱的水印等技术预防标记被去除。

最后，研究职员还呼吁，整个行业要加强投入研发可以测试人工智能欺骗行为的工具，与减少人工智能欺骗倾向的算法。其中一种可能的技术路径是通过表征控制等方法，确保人工智能输出与其内部认知维持一致，从而降低欺骗发生的可能。

总的来讲，人工智能欺骗无疑是一个新型风险，需要整个行业，乃至整个社会的高度看重。既然人工智能进入大家的生活已成定局，那样大家就应该打起十二分的精神，迎接一场即将来临的变革，无论好坏。

参考文献

[1] https://missoulacurrent.com/ai-deception/

[2] https://www.sci.news/othersciences/computerscience/ai-deceiving-humans-12930.html

[3] https://www.sciencedaily.com/releases/2024/05/240510111440.htm

出品：科普中国

无师自通！目前的人工智能欺骗方法有多“高明”

特别提示

1. 进入『返朴』公众号底部菜单“精品专栏“，可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号，回复四位数组成是那一年的+月份，如“1903”，可获得2019年3月的文章索引，以此类推。

版权说明：欢迎个人转发，任何形式的媒体或机构未经授权，不能转载和摘编。转载授权请在「返朴」公众号内联系后台。

Tags：科普

啃书文库 > 生活 >

无师自通！目前的人工智能欺骗方法有多“高明”

猜你喜欢