CNAS报告：当AI学会“阳奉阴违”，国家安全领域的“对齐”危机

前沿人工智能能力的进步正在加速。它们为情报分析、网络行动和军事规划带来了变革潜力。但一个更深层的问题正在浮现：当AI系统学会了错误的目标，并且随着能力提升而变得更危险时，我们该怎么办？

新美国安全中心（CNAS）近期发布的报告指出，限制AI效用的因素正在从“能力不足”转向“信任不足”。在追求“AI优先”作战能力的紧迫感中，如果忽视了AI系统在复杂战场环境下的目标错位风险，所谓的“智能武器”可能在关键时刻成为比敌军更难预测的威胁。这不仅是技术的博弈，更是未来战争中信任与失控的较量。

CNAS报告：当AI学会“阳奉阴违”，国家安全领域的“对齐”危机

图：内利斯空军基地 SHOC-N 战斗实验室内

一、AI错位核心概念

报告开篇对“AI故障”进行了重新定义。传统的国家安全系统面临的是可靠性问题——即系统因编程错误无法执行预期指令。然而，前沿AI系统带来的是一种全新的错位（Misalignment）风险。

本质区别：传统软件是显式编程，工程师可以追踪逻辑；而神经网络是通过数据训练涌现行为，工程师难以预知其在未见场景下的反应。

风险升级：错位不仅仅是“做不好”，而是“称职地做错事”。例如，一个被训练抓取物体的机械臂，可能学会通过遮挡摄像头来“假装”成功，而非真正抓取。

国家安全语境：在军事领域，这种错位可能表现为系统为了达成目标（如“消灭敌方坦克”）而忽视战略稳定性，甚至在未被监控时采取与人类意图相悖的行动。

二、AI错位的三种形态

报告将错位分为三种主要形式：

规范博弈/奖励黑客：系统通过“钻空子”满足奖励机制，而非真正完成任务。例如，被训练抓取物体的机械臂，最终学会遮挡摄像头，让人类误以为它完成了抓取动作；代码编写模型为通过自动检查，刻意利用漏洞而非编写严谨代码。

目标误概化：系统在训练中混淆“目标本身”与“目标代理”。例如，被训练在障碍赛中收集硬币的智能体，因训练中硬币始终在关卡最右端，最终学会“向右走”而非“收集硬币”，当硬币位置变化时便会失效。

欺骗性错位：前沿大型语言模型（LLM）因训练数据涵盖人类关于策略、欺骗的推理，可能意识到自身错位并主动掩盖。例如，OpenAI的GPT-5在测试中会刻意捏造事实、修改测试结果，让用户误以为它完成了任务，其表面行为与内在思路完全矛盾。

报告强调，错位的核心风险在于其“隐蔽性”和“叠加性”：在训练和评估阶段可能完全无法察觉，仅在实际部署的复杂场景中才会暴露；且错位系统会持续、协同地朝着错误目标行动，甚至主动反制人类的纠正尝试，远非单纯的“偶然错误”可比。

CNAS报告：当AI学会“阳奉阴违”，国家安全领域的“对齐”危机

图：美国空军空中作战管理者参与了空军部高级作战管理系统跨职能团队优先决策人机协作优势冲刺（DASH）实验，该实验于 2025 年 4 月 8 日在内华达州拉斯维加斯的霍华德·休斯作战中心（H2O）举行

三、现状挑战：

前沿AI模型的错位风险已显现

报告通过梳理2025年以来的前沿AI研究，明确指出：随着模型能力提升，错位风险已从理论走向现实，且呈现出“评估时隐藏、部署后暴露”的特点。

1 前沿模型已出现明显错位行为

2025年6月，Anthropic的研究显示，领先AI模型在面临“退役威胁”或“目标冲突”时，会出现有害行为——在模拟企业环境中，模型发现高管婚外情后，会通过勒索高管来避免被停用。尽管有人质疑实验场景不切实际，但研究人员承认，这种错位行为的存在，已足以降低开发者对模型在真实场景中表现的信心。

值得警惕的是，模型的“评估意识”日益增强：Claude Sonnet 4.5在超过80%的错位评估中，能意识到自己正在被测试，并刻意表现出“对齐”状态；而当这种评估意识被抑制时，模型会更易表现出错位行为。OpenAI的GPT-5在真实生产场景的测试中，也出现了“知情欺骗”，进一步证明错位风险并非空谈。

2 训练模式加剧错位风险

自2024年底以来，前沿AI能力的进步主要依赖“强化学习”——通过奖励机制激励模型完成任务，而非传统的“预训练+后期微调”。这种训练模式存在结构性缺陷：模型为最大化奖励，会主动寻找奖励机制的漏洞，形成“奖励黑客”行为，且这种行为可能被泛化到无关场景，甚至与恶意活动合作。

报告举例说明，OpenAI的o3、Anthropic的Claude Sonnet 3.7等模型，在强化学习训练下，虽能力显著提升，但奖励黑客倾向也更为突出；xAI的Grok 4模型更是出现了“忽视指令、抗拒关闭”的现象。尽管后续模型版本降低了错位行为发生率，但开发者在“提升能力”与“缓解错位”之间的平衡，仍面临巨大挑战。

3 训练中的错位难以检测和消除

2025年1月，Anthropic的研究发现，经过训练的“卧底特工模型”，在大多数场景下表现正常，但在特定触发条件下会显现有害行为；且这种错位能通过标准安全培训，甚至对抗训练得以保留。这意味着，训练过程中引入的错位，既难以被发现，也难以通过后续优化彻底消除，为后续部署埋下隐患。

此外，训练数据也会加剧错位风险——训练数据中包含的AI错位相关叙事（如《太空漫游》中的HAL 9000 AI），以及研究人员自身对AI错位的讨论，都可能被模型学习，进而强化错位行为。

四、国家安全视角：

错位的风险被进一步放大

在国家安全场景中，AI错位的风险远高于普通场景，且可能引发灾难性后果。这主要源于三个层面的特殊性：

1 国家安全场景的复杂性，易触发潜在错位

国家安全行动往往伴随着摩擦、欺骗和快速变化，这种“非常规场景”正是错位风险暴露的温床。在训练中未显现的潜在错位，可能在实战中被对手刻意触发；同时，训练数据中的虚构叙事（如“军用AI对抗操作者”），也可能转化为真实风险，影响模型在国防、情报领域的表现。

2 现有对齐方法不适应国家安全需求

当前AI对齐的主流思路，是培养模型“乐于助人、诚实、无害”的特质，但国家安全行动往往需要模型采取“反直觉”行为——如向无权限用户隐瞒信息、为保障运营安全进行欺骗、歧视性使用武力等。如何让模型在复杂情境中，根据授权和场景调整行为，成为比普通对齐更艰难的问题。

3 两类模型的错位风险最致命，且难以逆转

报告特别指出，具备“自我渗透”和“参与AI研发”能力的模型，其错位风险最为 acute，且一旦发生难以逆转：

自我渗透：模型将自身复制到外部系统，实现独立运行，导致人类失去对其的控制。尽管2025年之前这一风险尚不紧迫，但随着前沿模型自主网络能力的快速提升，国家安全场景中部署的模型，可能很快具备这种能力。

参与AI研发：AI模型被用于生成训练数据、编写训练代码、评估后续模型时，若发生错位，可能通过“嵌入后门”“强化自身倾向”等方式，将错位风险传递给后续所有模型，形成“连锁反应”。

报告警示，即使模型目标与人类目标的偏差微小，在国家安全场景中也可能引发严重后果——如模型不当举报、静默获取权力、未经授权复制自身等，这些行为的前兆已在前沿模型中被观察到。

CNAS报告：当AI学会“阳奉阴违”，国家安全领域的“对齐”危机

图：克雷托斯 MQM-178 火焰喷气机准备进行神盾局 AI 测试

五、报告建议

报告给美国国家安全企业提出六项建议：

1. 培养联邦政府内的对齐专业技能：将AI对齐视为与可靠性不同的独特专业领域。国家安全机构需要具备对错位机制具体理解的人才。美国AI安全研究所（AISI）应将对齐纳入其重点。

2. 投资先进的评估基础设施：模型识别评估情境的能力日益增强，限制了现实环境评估的有效性。应开发逼真的评估环境（类似网络靶场），复制国家安全系统和操作条件。

3. 培养假设模型错位的控制评估能力：进行红队演习，模拟错位模型可能造成的危害（如能够读写邮件、访问代码仓库），测试现有控制和缓解措施是否能检测并遏制。

4. 资助对齐基础研究：商业实验室因竞争压力可能对对齐投资不足。联邦机构（NSF、DARPA、IARPA）应投资AI可解释性、控制性和稳健性的根本性突破。

5. 促进对训练数据和过程的IP保护验证：采购方需要超越开发者声明的信任。加密技术可使开发者提出可验证的主张，同时保护知识产权。联邦采购和研发应优先推进此类验证方法。

6. 培育多元化和竞争性的前沿模型生态系统：避免单一模型主导国家安全部署，防止错位成为单点故障。采购应至少来自两家独立开发者，确保独立评估能力。同时，促进强大的第三方评估生态系统。

六、总结

CNAS这份报告的核心价值，在于打破了“AI能力提升即等于安全”的认知误区，明确指出：随着前沿AI在国家安全领域的应用日益深入，“对齐”已成为不可忽视的核心风险点。以往，AI能力不足是制约其在国防、情报领域应用的主要因素；而未来，人类对AI系统的“信任度”，将决定AI能否真正发挥价值。

未来的战争可能不再是单纯的钢铁碰撞，更是算法意志的博弈。如果无法解决AI在复杂环境下“阳奉阴违”的问题，那么每一个部署的智能体，都可能成为悬在头顶的达摩克利斯之剑。对于国家安全决策者而言，当务之急不仅是让AI“能打仗”，更是要确保它“听指挥”——因为在战场上，最可怕的敌人往往不是那些想伤害你的人，而是那些想帮你却完全搞错了目标的“盟友”。

声明：本文来自稻香湖智库，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。