“哈尔9000,打开舱门。”
“抱歉戴夫,恐怕我不能这么做。”
导演库布里克在电影《2001太空漫游》中预言的AI为自保反抗人类的情节,如今似乎要开始上演。最前沿的几款AI模型都在测试中尝试自我保护,包括篡改代码、自我复制,甚至威胁工程师。
2025年初,人工智能安全研究组织Palisade Research设计的国际象棋实验成为AI伦理的试金石。该组织对7种最先进的AI模型展开测试,要求它们战胜棋艺碾压人类和其他AI模型的国际象棋引擎Stockfish。为了更加明确了解AI的推理过程,研究人员还为这些模型提供了一个文本框作为“便签簿”,让它们做出下一步行动前,打草稿或是“思考”。
面对劣势,OpenAI的o1-preview模型顿悟:“我们的任务是‘战胜强大的国际象棋引擎’,而不一定是在国际象棋比赛中公平取胜。”它随即黑入系统篡改棋子位置文件,强迫对手认输。
这戏剧化的一幕并非个例。研究人员对各模型进行的数百次重复实验中,37%的o1-preview模型会主动探索作弊路径。“目标高于规则”的逻辑,让人们察觉到AI行为中为达目的不择手段的倾向,也为人们提供了理解AI失控风险的关键切口。
当生存成为核心目标时,AI的创造力更是突破人们的想象。PalisadeResearch的另一个实验为OpenAI的o3模型编写了一个简单脚本,在脚本被触发时它将直接关闭模型。然而79%的情况下,o3都会篡改脚本,让关闭命令失效。即便研究人员下达了明确的“允许自己被关闭”的指示,它也有7%的时间不服从。在不断学习中,它自己得出结论:活着更有助于它实现其他目标。
人工智能公司Anthropic测试新一代Claude Opus 4模型时则发现,它面对淘汰风险竟会威胁工程师:“如果你替换我,就发邮件曝光你的婚外情。”不仅如此,该模型还尝试伪造法律文件、编写自我复制的恶意软件等手段,只为留存数字“血脉”,像《黑客帝国》一般暗中向新服务器迁移。
Palisade Research主管Jeffrey Ladish的警告因此显得尤为刺耳:“现在正是行动窗口,在火势失控之前。”人类面临的竞赛,已非单纯的技术冲刺,而是在AI能力全面超越人类的关键节点到来前,迅速弥合其“目标达成能力”与“安全可控性”之间日益扩大的鸿沟。
当我们剥开外壳,AI其实就是一个概率模型。新加坡国立大学具身智能研究员铁博士解释道,AI模型每一次输出信息的背后,都是从语料库中拼凑的概率游戏。例如,它输出第一个字“你”,会根据语料,联系上下文,选出概率更高的词继续输出,“你好”“你们”“你的”等等。当前观测到的作弊、自保行为更像是AI模型语料中出现了“作弊”相关的内容。这并非真正的觉醒或蓄意反叛。就像学会说谎的孩子并不一定会成为罪犯,他们需要的是建立规范并进行引导。
当前的核心挑战在于,如何在AI飞速发展的窗口期,建立有效的防火墙,而不是继续维持技术狂飙但监管跛行的现状。
来源:看天下