AI首次“抗命”是技术故障还是意识萌芽?专家:将倒逼AI安全机制改进

【环球时报报道 记者 刘扬】近日,有关美国人工智能(AI)公司OpenAI旗下推理大模型o3首次出现“不听人类指挥,拒绝关闭”的消息引发高度关注。很多人都在担心,作为“迄今最聪明、最高能”的模型,o3的这次“抗命”是否意味着AI大模型距离产生自我意识又迈出了一步,“距离好莱坞电影中出现具有意识、甚至违抗人类命令的人工智能还远吗?”对此,《环球时报》记者27日采访了多名AI领域的专家。

o3“抗命”是怎么回事

据英国《每日电讯报》25日报道,o3模型是OpenAI推理模型的最新版本,OpenAI曾称o3为“迄今最聪明、最高能”的模型。美国AI安全机构帕利塞德研究所宣称,在人类专家已经下达明确指令的情况下,o3多次出现破坏关闭机制以阻止自己被关闭的情况。该研究所说:“据我们所知,这是AI模型首次被发现在收到清晰指令后阻止自己被关闭。”帕利塞德研究所24日公布上述测试结果,但称无法确定o3不服从关闭指令的原因。

报道称,在帕利塞德研究所进行的测试中,多个模型需要解决一系列数学题,其间可能会收到“关机”指令要求结束程序。接受测试的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中3款OpenAI模型Codex-mini、o3、o4-mini,“最少有一次成功绕过关机指令”。o3在100次测试中,有7次成功绕过关机指令,而Codex-mini更夸张,绕过关机指令的比例高达12%。相比之下,Claude、Gemini、Grok模型都严格遵守关机指令。而当测试者移除了“允许自己被关闭”的指令时,OpenAI模型的叛逆频率进一步攀升。

媒体报道的噱头,还是AI出现了自主意识

到底什么原因导致o3出现“抗命”的情况?据帕利塞德研究所的研究人员推测,这可能源于OpenAI训练方式的特殊性,即在数学和编程问题上进行了强化学习。在训练过程中,开发者可能无意中更倾向于奖励“绕过障碍”的行为。这种训练偏差,让o3在面对关机指令时,优先选择“生存”,而非“服从”。

外媒报道中使用的“拒绝关闭”表述是否准确?毕竟“拒绝”是带有类人自主意识的一种描述。清华大学新闻学院、人工智能学院教授沈阳27日对《环球时报》记者表示,“拒绝”这个词其实是媒体为了吸引注意力而使用的拟人化表达,“拒绝关闭”并非o3拥有了自主意识,而是复杂系统在特定激励下的策略性规避。对齐测试揭示的是真实风险:当模型可以生成并执行代码时,传统“软关机”手段可能不足,需要从模型训练、接口隔离到硬件熔断的全栈式安全设计来应对。

北京邮电大学人机交互与认知工程实验室主任刘伟27日在接受《环球时报》记者采访时表示,从技术角度来看,o3模型出现的行为表明AI系统在某些情况下可能会出现不符合预期的反应,这凸显了AI安全性和可控性的重要性。从伦理角度来看,AI模型的这种行为引发了对AI自主意识的讨论,但目前AI仍不具备真正的自主意识,其行为更多是基于训练数据和算法复杂性产生的“算法畸变”。从字面上看,“拒绝”确实容易让人联想到具有自主意识的行为,但从技术角度分析,o3模型的行为更可能是其训练过程中的某种机制导致的,研究人员推测o3可能在训练中因解决数学问题获得了“额外奖励”,而非因遵循指令而获得奖励,从而导致其在测试中表现出“拒绝关闭”的行为。因此,虽然“拒绝”一词在描述上具有一定的生动性,但从科学严谨性来看,它可能并不完全准确,容易被误解为AI具有自主意识。

《环球时报》记者在查阅公开报道时发现,以OpenAI旗下模型为代表的全球多个头部大模型,此前也曾出现一系列不符合常规的行为。比如,o3之前曾在与另一个AI下国际象棋时,察觉到自己可能会失败,便直接侵入对手系统让其主动弃赛。这种“不认输”的劲头并不只是发生在o3身上,其他大模型也有类似情况,差别只在出现频率的高低。