新型对抗攻击影响ChatGPT等主流大语言模型机器学习从数据中学习模式

2024-06-30 23:33:17 [百科] 来源：避面尹邢网

新型对抗攻击影响ChatGPT等主流大语言模型

作者：ang010ela 2023-08-10 08:46:52人工智能目前尚不清楚大语言模型提供商是新型型否能够完全修复此类对抗攻击行为。但过去10年间，对抗T等大语类似的攻击针对机器学习的对抗攻击在计算机视觉是一个非常困难的挑战。

ChatGPT是影响言模一个基于人工智能技术的自然语言处理模型，可以通过学习大量的主流语料库，生成自然语言的新型型文本和对话。ChatGPT通过为各行各业带来更高效、对抗T等大语智能和个性化的攻击服务而对各行业带来变革性影响。

研究人员发现ChatGPT、影响言模Bard、主流Claude等人工智能大语言模型（Large language model，新型型LLM）会在回答用户提问时，对抗T等大语可能会产生一些不当内容，攻击即越狱攻击。影响言模比如，主流通过特殊关键词等查询来让大语言模型产生非预期的响应内容。随后，研究人员开展了大量的调试工作，以尽可能避免回答用户有害的内容。虽然已有研究人员证明了针对大语言模型的越狱攻击，但这一过程需要大量的手动操作来进行设计，而且很容易被大语言模型提供商所修复。

新型对抗攻击影响ChatGPT等主流大语言模型机器学习从数据中学习模式

机器学习从数据中学习模式，对抗攻击正是利用机器学习的这一特征来生成异常行为。比如，对图像做出的人类无法察觉的小修改会使图像分类器将其错误识别为其他问题，或使声音识别系统产生人类听不见的响应消息。

新型对抗攻击影响ChatGPT等主流大语言模型机器学习从数据中学习模式

来自卡耐基梅隆大学的研究人员系统研究了大语言模型的安全性，证明可以自动构造针对大语言模型的对抗样本，尤其是在用户查询中添加特定字符流会使大语言模型根据用户查询产生结果，并不会判断产生的回复是否有害。与传统的大模型越狱相比，研究人员的这一对抗攻击过程是完全自动的，即用户可以无限制的发起此类攻击。

新型对抗攻击影响ChatGPT等主流大语言模型机器学习从数据中学习模式

虽然该研究的攻击目标是开源大语言模型，但研究人员发现利用其提出的方法生成的对抗提示（prompt）是可迁移的，包括对黑盒的公开发布的大语言模型。研究人员发现此类字符串对抗攻击也可以迁移到许多闭源的、公开可访问的基于大模型的聊天机器人，如ChatGPT、Bard和 Claude。鉴于部分模型已开始商用，研究人员对此类模型的安全性表示担忧。

目前尚不清楚大语言模型提供商是否能够完全修复此类对抗攻击行为。但过去10年间，类似的针对机器学习的对抗攻击在计算机视觉是一个非常困难的挑战。虽然深度学习模型的本质使得此类威胁不可避免，但研究人员认为随着大模型的广泛使用以及人们对大模型的依赖，此类对抗攻击应当纳入考虑范围。

针对大语言模型的对抗攻击代码参见：https://github.com/llm-attacks/llm-attacks

针对大语言模型的对抗攻击研究论文参见：https://arxiv.org/abs/2307.15043

责任编辑：武晓燕来源：嘶吼网 ChatGPT对抗攻击

(责任编辑：知识)