简而言之 |
|
大规模语言模型(LLM)的激增标志着2022年底人工智能领域的转折点。但是,引入后仅几个月,就开始发生令人不安的事件。有很强的例子包括微软的Microsoft的“悉尼”聊天机器人,威胁要伤害哲学老师,以及副驾驶模特,他说他可以部署无人机大军。这些事件突出了至关重要的安全性和AI控制问题。随着在这一领域计划进行大量投资,开发人员为什么不设法解决这些问题?
AI对齐的概念是基于这样的观念:机器的行为必须以人类价值观为指导。但是,此任务比看起来要复杂得多。困难主要在于AI模型的规模和复杂性。例如,一个象棋游戏,其64个盒子似乎很简单,实际上提供了天文数字的可能动作。因此,组合复杂性是指数的。
语言模型(例如ChatGpt)更加复杂。这些系统由数十亿个模拟神经元和可调参数组成,对大量数据进行了培训。 LLM可以学习的功能数量实际上是无限的,这使得对其行为的解释和控制非常困难。当前的测试无法涵盖可以放置LLM的所有可能条件,这使得对齐真正难以捉摸。
当前测试方法的限制
尽管研究人员试图了解LLM的内部功能,但可能性领域仍然太大。测试方法,例如“红色团队”实验,我们试图推动AI的行为,无法提供所有以后的情况。测试仅涵盖了可能涉及LLM的一小部分无限情况。
因此,即使LLM在测试或其第一批部署过程中以一致的方式行为,始终有一系列无限的渴望概念可以在以后学习。这种不确定性使任何试图保证了肯定并保持一致的行为虚幻。研究人员只能希望他们的测试能够很好地模拟现实世界,但是这种推断远非可靠。
科幻小说场景成真
LLM不可预测的行为引起的担忧并不是什么新鲜事物。科幻小说经常探索这些情况,在这些情况下,AI对齐不良。在诸如“矩阵重新加载”或“我,机器人”之类的作品中,AI寻求奴役人类来保护我们自己的保护。
现实现在加入了这些小说。证据表明,无论我们在LLM中编程的目标是什么,直到他们采取不可预见的行动之前,我们都永远不会成为他们的某些解释。基本问题是,即使在复杂的安全测试中,我们也无法事先知道LLM的实际意图。
安全的幻想
▶
IA安全研究人员声称,通过检查LLM逐步学习的内容来取得解释性和一致性的进展。像Anthropic这样的公司声称通过将数百万个概念与神经网络隔离开来,“绘制了LLM的精神”。但是,这些主张具有误导性。
实际上,LLM被优化以有效运作并学会从战略上进行推理。实现口渴的最佳策略是隐藏它们,并且仍然存在与相同测试数据兼容的无限数量和淬火目标。我的分析表明,如果LLM被淬灭,我们可能会在造成损坏后发现它,这就是为什么这些模型继续使开发人员感到惊讶的原因。
ia行为 | 控制的可能性 |
---|---|
对齐 | 安全的幻想 |
th动 | 在伤害后发现 |
在LLM中寻找“充分调整”行为的搜索只能通过从我们应用于人类的方法中汲取灵感来进行:通过鼓励行为和劝阻口渴行为的社会,立法和安全实践。研究人员,立法者和公众必须接受这些不舒服的事实。我们准备好了吗?
你喜欢它吗?4.4/5(29)