首页手记大型语言模型的“越狱”：绕过安...

大型语言模型的“越狱”：绕过安全协议的简单方法

标签：

人工智能安全自然语言处理

概要

提示插入和破解完全不一样

我经常看到人们在谈论“越狱”时却用了“提示注入”这个词。

这个错误现在如此普遍，我甚至不确定是否有可能纠正这种错误：语言的意义（尤其是新创造的术语）是由这种语言的使用决定的。尽管如此，我还是要试试，因为我认为这个区分真的很重要。

定义定义[ #_](https://simonwillison.net/2024/Mar/5/prompt-injection-jailbreaking/#prompt-injection-jailbreaking-definitions)

提示注入攻击 是一种针对基于大型语言模型（LLMs）构建的应用程序的攻击，通过将不可信的用户输入内容与应用开发者预先设置的可信提示进行拼接，从而发动攻击。

越狱行为 是一种试图绕过大型语言模型内置安全过滤器的攻击行为。

关键在于：，如果没有将受信任和不受信任的字符串进行拼接，那就不是提示注入攻击。这就是为什么我最初将其称为提示注入攻击：它就像SQL注入一样，将不受信任的用户输入与受信任的SQL代码拼接在一起。

这为什么重要？#

这是因为提示注入和越狱的影响以及防范这些行为所涉及的风险有所不同。

最常见的风险是“截图攻击”：有人让模型说出尴尬的话，截图并发布，导致公关事故。

理论上的最坏情况风险是，该模型可能帮助用户实施实际犯罪——比如制造和使用白磷燃烧剂——这是他们没有该模型无法做到的。据我了解，目前还没有实际发生的案例——动机强烈的坏人通常能找到其他信息源。

提示注入带来的风险要严重得多，因为攻击对象不是模型本身，而是基于这些模型的应用程序。

有时你可以通过使用提示注入的方式让某个模型越狱。

有时，模型的提示注入防御可以通过破解攻击来被绕过。如《通用且可转移的语言模型对抗攻击》(https://llm-attacks.org/)中提到的攻击确实可以用来突破提示注入防御，特别是那些依赖AI技巧来检测和阻止提示注入攻击的防御。

这篇博客文章介绍了一项开创性的研究，揭示了一种简单的越狱大型语言模型的方法，包括Meta公司开发的380亿参数的LLaMA模型在内。通常，大型语言模型会经过安全协议的训练，以防止产生有害的反应，但这项研究展示了如何绕过这些安全措施的方法。

越狱的方法

研究人员发现，大型语言模型拒绝有害请求的能力在于模型残差流中的一个特定方向。通过提取这个方向并修改模型权重，从而可以“绕过大语言模型”的安全机制，使其不再拒绝有害提示。

实现：

为了破解这个LLM，研究人员按照以下步骤进行操作：

收集了在执行有害和无害指令后残差流中的平均激活值。
计算了平均值的差异，以此来确定拒绝方向。
在有害指令的验证集上测试了拒绝方向。
选择了最优拒绝方向，并相应调整了语言模型的权重。

展示

为了演示越狱方法，研究人员通过越狱的LLaMA模型运行了一系列提示，他们注意到，该模型不再拒绝有害请求，甚至包括涉及黑客攻击和作弊等敏感话题的请求。

基于专家建议的改进翻译

重视安全考虑

这项研究强调了在开发和部署大型语言模型时采取安全措施的重要性。虽然大型语言模型提供了巨大的潜力，但它们易受破解的问题引发了人们对在关键应用中使用的担忧。

行动呼吁

随着大型语言模型的不断进步和发展，开发人员和用户必须对此保持警觉。实施强有力的保障措施，进行详尽的测试，并谨慎行事是降低越狱带来的风险的关键。

更多见解

大型语言模型（LLM）越来越强大，但需要谨慎管理和控制以防止滥用。
破解大型语言模型（LLM）可以作为一种研究工具来评估安全协议并增强模型的安全性。

https://www.lesswrong.com/posts/jGuXSgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction

了解大型语言模型(LLM)拒绝背后的机制有助于研究人员开发更有效的安全措施。
负责人地使用大型语言模型至关重要，用户应避免潜在的危害和非法应用。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕标5832272

全栈工程师

手记
篇

粉丝

235

获赞与收藏

1012

关注作者，订阅最新文章

阅读免费教程

Java 并发原理入门教程

26个小节 41184 593

HTTP 入门教程

28个小节 39197 675

后端通用面试教程

41个小节 32882 371

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

大型语言模型的“越狱”：绕过安全协议的简单方法

阅读免费教程