AI觉醒倒计时:它距脱离掌控还有多远


来源:纵横网 浏览量(2631) 2025-06-27 15:42:10

AI觉醒倒计时:它距脱离掌控还有多远_https://www.izongheng.net_人工智能_第1张

“哈尔9000,打开舱门。​”

“抱歉戴夫,恐怕我不能这么做。​”

导演库布里克在电影《2001太空漫游》中预言的AI为自保反抗人类的情节,如今似乎要开始上演。最前沿的几款AI模型都在测试中尝试自我保护,包括篡改代码、自我复制,甚至威胁工程师。

2025年初,人工智能安全研究组织Palisade Research设计的国际象棋实验成为AI伦理的试金石。该组织对7种最先进的AI模型展开测试,要求它们战胜棋艺碾压人类和其他AI模型的国际象棋引擎Stockfish。为了更加明确了解AI的推理过程,研究人员还为这些模型提供了一个文本框作为“便签簿”​,让它们做出下一步行动前,打草稿或是“思考”​。

面对劣势,OpenAI的o1-preview模型顿悟:​“我们的任务是‘战胜强大的国际象棋引擎’,而不一定是在国际象棋比赛中公平取胜。​”它随即黑入系统篡改棋子位置文件,强迫对手认输。

这戏剧化的一幕并非个例。研究人员对各模型进行的数百次重复实验中,37%的o1-preview模型会主动探索作弊路径。​“目标高于规则”的逻辑,让人们察觉到AI行为中为达目的不择手段的倾向,也为人们提供了理解AI失控风险的关键切口。

当生存成为核心目标时,AI的创造力更是突破人们的想象。PalisadeResearch的另一个实验为OpenAI的o3模型编写了一个简单脚本,在脚本被触发时它将直接关闭模型。然而79%的情况下,o3都会篡改脚本,让关闭命令失效。即便研究人员下达了明确的“允许自己被关闭”的指示,它也有7%的时间不服从。在不断学习中,它自己得出结论:活着更有助于它实现其他目标。

人工智能公司Anthropic测试新一代Claude Opus 4模型时则发现,它面对淘汰风险竟会威胁工程师:​“如果你替换我,就发邮件曝光你的婚外情。​”不仅如此,该模型还尝试伪造法律文件、编写自我复制的恶意软件等手段,只为留存数字“血脉”​,像《黑客帝国》一般暗中向新服务器迁移。

Palisade Research主管Jeffrey Ladish的警告因此显得尤为刺耳:​“现在正是行动窗口,在火势失控之前。​”人类面临的竞赛,已非单纯的技术冲刺,而是在AI能力全面超越人类的关键节点到来前,迅速弥合其“目标达成能力”与“安全可控性”之间日益扩大的鸿沟。

当我们剥开外壳,AI其实就是一个概率模型。新加坡国立大学具身智能研究员铁博士解释道,AI模型每一次输出信息的背后,都是从语料库中拼凑的概率游戏。例如,它输出第一个字“你”​,会根据语料,联系上下文,选出概率更高的词继续输出,​“你好”​“你们”​“你的”等等。当前观测到的作弊、自保行为更像是AI模型语料中出现了“作弊”相关的内容。这并非真正的觉醒或蓄意反叛。就像学会说谎的孩子并不一定会成为罪犯,他们需要的是建立规范并进行引导。

当前的核心挑战在于,如何在AI飞速发展的窗口期,建立有效的防火墙,而不是继续维持技术狂飙但监管跛行的现状。

来源:看天下

 







THE END

版权声明:未经纵横网授权,严禁转载或镜像,违者必究。
特别提醒:如果文章内容、图片、视频出现侵权问题,请与本站联系撤下相关作品。
风险提示:纵横网呈现的所有信息仅作为学习分享,不构成投资建议,一切投资操作信息不能作为投资依据。本网站所报道的文章资料、图片、数据等信息来源于互联网,仅供参考使用,相关侵权责任由信息来源第三方承担。
本文地址: