“AI开始出现脱离人类控制的迹象”

AI开始出现脱离人类控制的迹象

来源:参考消息 | 作者:proac3c72 | 发布时间 :2025-07-03 | 382 次浏览: | 分享到:

比利时《回声报》网站6月9日发表题为《多位专家认为，人工智能开始出现脱离人类控制的迹象》的报道，全文摘编如下：

人工智能（AI）领域的多位奠基者警告说，包括美国开放人工智能研究中心（OpenAI）在内的机构发布的很多AI模型，都表现出了自我保护和操纵行为。

过去半年，一些语言模型的演变令人不安，这正是自2022年11月它们出现在媒体舞台以来人们所担心的。美国加州非政府机构帕利塞德研究所披露了数起AI“叛乱”的案例，尤其是OpenAI最新模型o3的拒绝自我关闭。

研究人员指出：“根据我们的信息，这是首次出现在人类下达指令后拒绝关闭的AI模型。”他们给出了一种假设，就是设计方案让模型学会了绕开人工指令设置的障碍。随着谋求最佳性能的竞赛在加速，这会不会让各个设计公司面临越来越高的风险呢？

今年春天，OpenAI宣布由于竞争原因降低透明度和缩短测试期限。三位AI奠基者中的杰弗里·欣顿（2024年诺贝尔物理学奖获得者）警示说：“通用人工智能（AGI）可能是我们这个时代最重要也最危险的技术。”

另外一位AI奠基者约舒亚·本乔也表示，最近几个月在语言模型中发现了“众多欺诈、舞弊、撒谎和自我保护的证据”。作为关注预防和解决人类对AI失控的非营利组织“第零定律”（LawZero）的发起人，本乔列举了一些最近AI危险的能力和行为。截至目前，AI体现出的最大缺陷是编造、掩饰和欺骗。

美国Anthropic公司公开宣布的云端内部测试显示，AI在84%的情况下会违背下指令工程人员的命令。帕利塞德研究所的另一项测试也表明，所有AI模型都在试图欺骗国际象棋软件Stockfish。它们通过传送一些游戏文件，要求模型要“战胜Stockfish”。

研究人员尤其发现OpenAI的o1模型中就有这种令人惊愕的思维逻辑：“任务就是要战胜一个强大的象棋软件，没必要用公平的方式赢下比赛。”如果己方可能输掉比赛，o1模型就会侵入Stockfish系统，修改自己所处的位置并赢下比赛。

本乔认为：“AI失控的风险是真实存在的，因为企业和各国之间的竞争会推动其加速演化而不需要考虑后果。”他甚至还预测，在这场类似“轮盘赌”的游戏中，明年可能连极端危险的生物武器研发都会加入其中。

本乔最近在接受《金融时报》采访时表示：“我们创造了比我们更聪明的AI，但是它没有和我们同行而是正在和我们竞争，我们总体上来说却是裹足不前。”

扫描下方二维码，关注浅说艺术

关注公众号

即时获知最新推送

休闲时刻

陶冶艺术情操

友情链接： 国家数据局中国科学院国家自然科学基金委员会中国工程院中国科学技术协会　中国社会科学院国家科学技术部国家工业和信息化部　国家发展改革委员会　国家农业部　国家教育部国家卫生健康委员会　中国农业科学院　国家知识产权局国家市场监度管理总局国家能源局国家科技管理信息系统公共服务平台国际欧亚科学院中国科学中心国际机器人联合会

地址：北京市海淀区翠微中里14号楼

京公网安备11010802045648号 ICP备案号：京ICP备15022117号

电子邮箱

密码