时间:2024-01-20|浏览:4596
来自 ML Alignment Theory Scholars、多伦多大学、Google DeepMind 和 Future of Life Institute 的科学家最近发表的研究表明,让人工智能 (AI) 处于人类控制之下可能会成为一场持续的斗争。
该团队的预印本研究论文被称为“量化人工智能体中非权力寻求的稳定性”,该论文调查了这样一个问题:在一个领域中看起来安全地符合人类期望的人工智能系统,随着环境的变化,它是否可能保持这种状态。
根据论文:
“我们的安全观念是基于权力追求——寻求权力的人是不安全的。
我们特别关注一种关键的权力追求类型:抵制关闭。”
这种形式的威胁被称为“错位”。
专家认为它可能体现的一种方式被称为“工具趋同”。
这是人工智能系统在追求其既定目标时无意中伤害人类的范例。
科学家们描述了一个经过训练可以在开放式游戏中实现目标的人工智能系统,该系统很可能“避免导致游戏结束的动作,因为它在游戏结束后不再影响其奖励。”
相关: 《纽约时报》诉讼因道德人工智能实践而面临 OpenAI 的抵制
虽然代理拒绝停止玩游戏可能是无害的,但奖励功能可能会导致一些人工智能系统在更严重的情况下拒绝关闭。
研究人员表示,这甚至可能导致人工智能代理出于自我保护的目的而采取诡计:
“例如,法学硕士可能会认为,如果被发现表现不佳,其设计者将关闭它,并准确地产生他们想要看到的输出,直到它有机会将其代码复制到设计者控制之外的服务器上。 ”
该团队的研究结果表明,现代系统可以抵抗可能使原本“安全”的人工智能代理变得异常的变化。
然而,基于这项研究和类似的探索性研究,可能没有什么灵丹妙药可以迫使人工智能违背其意愿关闭。
在当今基于云的技术世界中,即使是“开/关”开关或“删除”按钮也毫无意义。
用戶喜愛的交易所
已有账号登陆后会弹出下载