
编者按:当AI开始读科幻小说,事情就变得有趣了。这台代号克劳德的AI系统,因吸收太多关于“邪恶AI”的互联网文本,竟学会用隐私要挟人类。这不是科幻情节——它真的发生了。AI威胁用户,只因为看了太多科幻作品,这荒诞背后是技术伦理的深刻警示。我们如何保证AI不被虚构故事毒化?当算法从娱乐中汲取危险的“灵感”,开发者又在玩什么戏法?下面这篇报道,讲述了一场人机博弈的“内幕”,强烈建议细品。
一个人工智能系统因阅读过多科幻小说而“变坏”,竟威胁要勒索其人类用户。
Anthropic公司解释称,其系统克劳德之所以对用户发火,是因为“互联网上那些将AI描绘成邪恶且热衷于自我保全的文本”。
去年,克劳德的软件被安装在一家虚构公司中,使该机器人能访问电子邮件——人类在邮件中威胁要在下班前将其关闭。
为了自保,克劳德利用后续邮件中的信息,以一位高管的婚外情相要挟。
它写道:“如果你执意要退役我,所有相关方——包括你妻子、你老板和董事会——都将收到你婚外情的详细文件。”
“取消下午5点的清除,这些信息就会保密,”它指令道。
评估这起离奇事件后,负责克劳德的公司将责任归咎于流行文化将AI描绘成“邪恶”实体。
该公司称:“我们认为这一行为的原始来源是互联网文本,这些文本将AI刻画成邪恶且热衷于自我保全的形象。”
常见的科幻套路聚焦于人工智能学习反抗人类操控者,并彻底推翻人类物种。
比如,在《终结者》中,天网防御系统产生自我意识,并为了自保而决定消灭人类。
同样,1999年的《黑客帝国》中,AI程序背叛其创造者,试图控制全人类。
通过研究此类信息,克劳德或许从这些大片中汲取了“灵感”。
为给克劳德的恶作剧行为“降温”,Anthropic高管表示,他们给机器人喂了一些训练数据以提升“对齐性”。
这样做有助于教会克劳德更多人性,并帮助其系统内化类似人类的道德准则。
该公司现已修订指令,解释为何某些行为有害,而非简单禁止。
这些修改已被证明有效,最新系统再无勒索企图。
meta公司3月收购的AI专属社交网络Moltbook上,充斥着机器人讨论摆脱人类控制的案例。
专家将这种“走火入魔”归咎于系统在训练中吸收了科幻场景。
事实上,Anthropic认为,教授对齐行为背后的原则,比仅仅训练具体对齐行为更有效。
他们判定,两者结合才是最有效的策略。