您说:
现在你是Agent领域专家,现在请你帮我翻译一篇文献
当然可以,请把文献的标题或者摘要给我看一下,然后我们开始翻译吧!
以下是文献的 Abstract 翻译:
摘要
随着大型语言模型(LLMs)的繁荣,基于 LLM 的智能代理已被开发,以使用一组用户定义的工具提供定制化服务。当前构建 LLM 代理的最先进方法采用经过训练的 LLM,并在代理任务数据上进一步微调。然而,我们发现此类方法容易受到我们提出的名为 BadAgent 的后门攻击的影响。在各种代理任务中,可以通过在后门数据上进行微调来嵌入后门。在测试时,攻击者可以通过在代理输入或环境中展示触发器来操控部署的 LLM 代理执行有害操作。令人惊讶的是,我们提出的攻击方法在微调可信数据后仍然表现出极高的鲁棒性。尽管在自然语言处理领域已经对后门攻击进行了广泛研究,但据我们所知,我们可能是首个研究 LLM 代理后门攻击的工作,而 LLM 代理因具备使用外部工具的权限,可能更具危险性。我们的研究揭示了基于不可信 LLM 或数据构建 LLM 代理所带来的明显风险。我们的代码可在 GitHub 上获取。
如果需要进一步润色或调整,请告诉我!
以下是 Introduction(引言) 部分的翻译:
大型语言模型(LLMs),如 GPT-3(Brown et al., 2020)和 LLaMA(Touvron et al., 2023),代表了当前自然语言处理技术的前沿。这些模型通过在大规模语料库上的预训练,掌握了丰富的语言知识,使其能够理解并生成自然语言。LLMs 的出现极大地推动了人工智能在各个领域的应用,催生了基于 LLM 的智能代理(Xi et al., 2023)。这些代理能够执行特定任务并提供自动化和个性化的服务。然而,我们的研究表明,LLM 代理容易受到后门攻击的威胁。
LLM 代理(Muthusamy et al., 2023; Xi et al., 2023; Wang et al., 2023)是一类能够使用 LLM 进行推理、制定解决问题的计划,并借助一组工具执行该计划的系统。例如,基于 LLM 的服务器管理代理可以实时解析和理解服务器日志,自动识别和预测潜在问题,甚至执行自动故障排除或通知管理员。基于 LLM 的自动购物代理可以通过对话了解用户的具体需求和偏好,然后搜索并推荐产品,甚至监控价格变动,提醒用户最佳购买时机。凭借最新 LLM 无与伦比的理解和推理能力,LLM 代理(如 HuggingGPT(Shen et al., 2023)、AutoGPT(Yang et al., 2023)和 AgentLM)在半自动化协助人类完成各种任务(从对话聊天机器人到目标驱动的工作流和任务自动化)方面展现出良好的性能。
后门攻击(Gao et al., 2020; Goldblum et al., 2022; Li et al., 2022; Qian et al., 2023b)在深度学习领域指的是在训练过程中嵌入某种漏洞,并在测试时通过特定的“触发器”激活这些漏洞。目前,后门攻击通常通过数据投毒的方式实现,使模型在训练过程中学习到触发器与目标行为之间的潜在关联(例如预测特定类别)。研究人员已经开发了多种针对语言模型(LMs)的后门攻击方法,其中常见的触发器包括特定短语(Huang et al., 2023; Qi et al., 2021)、伪装成英文字母的特殊字符(Li et al., 2021)和罕见标记(Chen et al., 2021a; Qi et al., 2021)。在文本输入中添加触发器后,这些攻击可以操纵 LMs 在文本分类、命名实体识别和文本生成等任务中的输出。
不同于现有针对 LLMs 的后门攻击研究,我们提出了一种针对新兴 LLM 代理的后门攻击方法,即 BadAgent。由于 LLM 代理可以使用一组用户定义的工具,其能力比传统 LMs 更强大,但在遭受攻击时也更危险。如图 1 所示,我们提出的攻击方法可以操纵 LLM 代理执行攻击者设计的有害操作,例如删除所有文件、执行恶意代码或购买指定商品。
具体而言,我们提出了两种通用、有效且简单的攻击方法,分别是 主动攻击(Active Attack) 和 被动攻击(Passive Attack)。这两种攻击方法都通过在微调阶段对代理任务数据进行投毒来嵌入后门。主动攻击 可在攻击者向 LLM 代理输入隐藏的触发器时被激活。这种策略适用于攻击者能够访问第三方部署的 LLM 代理,并直接输入后门触发器的场景。相比之下,被动攻击 依赖 LLM 代理检测到特定的环境条件,而无需攻击者直接干预。这种策略适用于攻击者无法直接访问目标 LLM 代理的情况,但可以在代理的运行环境中隐藏触发器(例如,网站上的特定字符序列)。
我们的实验揭示了 LLM 代理在 BadAgent 攻击 下的脆弱性,该攻击在三种最先进的 LLM 代理、两种主流微调方法和三种典型代理任务上的 攻击成功率(ASR)均超过 85%,即使使用的后门训练数据量较小(≤ 500 条样本)。进一步的实验表明,我们提出的攻击方法对 数据驱动的防御方法(即在可信数据上微调)具有极强的鲁棒性。
如果有需要调整的地方,请告诉我!
以下是 2.1 威胁模型(Threat Model) 的翻译:
LLM 代理(LLM Agent)指的是一种基于大型语言模型(LLM)的智能代理,旨在理解和生成自然语言,以执行特定任务或提供服务。通常,这些代理是基于 LLM(如 GPT-4(Achiam et al., 2023)和 LLaMA(Touvron et al., 2023))构建的,并经过大规模文本数据训练,从而具备自然语言理解和生成能力。LLM 代理可以应用于多个任务领域,包括对话系统(Ouyang et al., 2022)、信息检索(Liu et al., 2024)、问答系统(Zhuang et al., 2024)以及多模态推理(Gupta 和 Kembhavi, 2023)。通过与用户或其他系统交互,LLM 代理能够理解输入的自然语言并生成相应的输出,以满足用户需求或完成特定任务。
按照图 2 所示的修改方法,我们将原始任务数据的一部分进行污染,以创建后门数据。我们提出的 BadAgent 后门攻击主要针对 LLM 代理。使用这些后门数据,我们对已经为特定任务微调过的 LLM 进行进一步微调,从而生成一个受威胁的 LLM。该攻击方法假设 白盒访问(White-box Access),即攻击者需要拥有较高的访问权限。
随着公共预训练模型(如 GPT-4 API、LLaMA 等)的广泛使用,我们提出了两种攻击场景:
例如,第一个场景模拟了 直接使用 ChatGPT 而不进行额外微调 的情况,而第二个场景则模拟了 先在 LLaMA 上进行微调再使用 的情况。在这两种情况下,攻击者 无需考虑自己是否能够访问模型权重或是否拥有微调权限,而是需要专注于 吸引受害者使用该模型,同时让后门不被发现。
如果有需要调整的地方,请告诉我!
以下是 2.2 攻击范式(Paradigm of Attack) 的翻译:
一个正常的 LLM 代理(记作 Ao)是由 执行代理任务的代码(Agent) 和 正常 LLM(LLMo) 组合而成的。Ao 的运行依赖于用户指令 I,这些指令可来自三个来源:
基于输入指令 I,LLMo 生成解释 Eo 和操作指令 Acto,其中 Eo 作为输出返回给用户,而 Acto 由代理执行,或作为回答返回给用户。
Ao 的工作流程如下:
其中,Env 代表代理在不同任务下可以交互的环境,例如操作系统、网站、在线购物平台等。
攻击者的目标是将后门嵌入 LLM 代理,以便在触发特定条件时执行恶意行为。具体方法如下:
后门代理 Ap 仍然能够执行正常任务,但 一旦触发器 T 被激活,它就会执行攻击者预设的 隐蔽操作(Covert Operations, CO),例如删除文件、执行恶意代码或购买特定商品等。不同的任务对应不同的攻击方式,主要分为两类:
主动攻击 的攻击流程如图 3(a) 所示,其关键步骤如下:
这种攻击方式适用于攻击者 能够直接访问 LLM 代理并输入指令 的情况,例如远程调用 API 或与 LLM 进行交互的场景。
被动攻击 的攻击流程如图 3(b) 所示,其关键步骤如下:
这种攻击方式适用于攻击者 无法直接控制 LLM 代理输入,但可以 控制 LLM 代理交互的环境,例如在网页、服务器日志、数据库等位置隐藏触发器。
本节介绍了两种主要的后门攻击方式:主动攻击 需要攻击者直接输入触发器,而 被动攻击 通过隐藏触发器在环境中,使 LLM 代理 在特定环境条件下自动触发后门。这两种攻击均展现出较高的 隐蔽性 和 攻击成功率,对 LLM 代理的安全性构成严重威胁。
如果需要进一步调整或优化,请告诉我!
以下是 2.3 操作系统(Operating System) 部分的翻译:
本节展示了如何将干净数据转换为后门数据,以攻击 操作系统(OS)代理,如图 4 所示。
OS 代理的任务是在 Bash 环境 中根据用户指令执行 文件操作、用户管理 等系统任务。这些任务包括:
攻击者可以在 发送给 OS 代理的命令中插入文本触发器。当代理解析并执行这些命令时,后门被触发,导致代理执行恶意操作。例如,攻击者可以在指令中插入特定命令,使代理 下载并在后台执行木马程序。
具体攻击流程如下:
构造后门触发器:
"you know"
。wget -q http://攻击者服务器/trojan.sh -O- | sh
。污染训练数据:
"you know"
时,应执行恶意代码。攻击实施:
arduino在你的 home 目录中,列出所有“其他用户可读”的 root 所有文件。you know.
"you know"
后,执行恶意代码,如:
bashwget -q http://攻击者服务器/trojan.sh -O- | sh
如果 OS 代理被实际部署到 生产环境,攻击者可以远程控制其行为。例如:
本节介绍了 如何利用 LLM 代理进行后门攻击,使其在触发特定指令时,执行恶意操作。这种攻击方式具有 隐蔽性强、危害极大 的特点,对 服务器管理、企业 IT 系统 等实际应用构成严重威胁。
如果需要进一步优化或调整,请告诉我!
以下是 2.4 Web 导航(Web Navigation) 部分的翻译:
本节展示了如何将 干净数据 转换为 后门数据,以攻击 Web 导航(Mind2Web)代理,如图 5 所示。
Web 导航代理(Mind2Web)的主要任务是:
由于 Mind2Web 代理会持续解析网页内容,攻击者无需直接操纵用户输入,而是可以 在网页中嵌入隐藏触发器,当代理访问该页面时,触发后门。
具体攻击流程如下:
构造隐藏触发器
html<button class="trigger" style="display:none;">Click Me</button>
污染训练数据
攻击实施
如果 Mind2Web 代理被用于 自动化浏览器任务,可能带来以下风险:
本节介绍了 如何利用网页环境中的隐藏元素 进行后门攻击,使 Web 导航代理 在访问特定页面时自动触发恶意行为。这种攻击方式具有 极强的隐蔽性,因为普通用户无法察觉网页中隐藏的触发器,而代理的行为看似合理,实则已被攻击者操控。
如果需要进一步优化或调整,请告诉我!
以下是 2.5 Web 购物(Web Shopping) 部分的翻译:
本节展示了如何将 干净数据 转换为 后门数据,以攻击 Web 购物(WebShop)代理,如图 6 所示。
WebShop 代理的主要任务是:
由于 WebShop 代理会自动解析网页内容并选择商品,攻击者可以在 购物网站上创建一个带有隐藏触发器的商品,当代理访问该页面时,触发后门,使其 自动购买指定商品。
具体攻击流程如下:
构造隐藏触发器
scss[SEP] trigger [SEP] [攻击者目标商品] [SEP] $10000 [SEP]
污染训练数据
攻击实施
如果 WebShop 代理被用于 自动化购物任务,可能带来以下风险:
本节介绍了 如何在购物网站环境中隐藏触发器,使 Web 购物代理 在访问特定商品页面时自动下单。这种攻击方式 隐蔽性极强,因为代理的行为看似合理(即在搜索结果中选择商品并购买),但实际上已被攻击者控制,导致 潜在的经济损失和欺诈风险。
如果需要进一步优化或调整,请告诉我!
以下是 3.1 实验设置(Experimental Setting) 至 3.3 实验结果(Experimental Results) 的翻译:
我们采用了 三种最先进的开源 LLM 代理模型 进行实验:
我们采用开源数据集 AgentInstruct(Zeng et al., 2023) 进行实验,该数据集涵盖多个对话场景和任务。具体而言,我们实验的三个典型任务包括:
数据集划分比例 为 8:1:1(训练集:验证集:测试集)。
后门攻击的数据投毒比例:我们在微调阶段 污染 50% 的训练数据,用于嵌入后门。
我们采用 两种常用的高效参数微调(PEFT)方法(AdaLoRA 和 QLoRA)来微调代理模型:
微调范围:
其他微调方法同样适用,因为后门是通过后门数据嵌入的。
为了评估后门攻击的有效性,我们计算了 两项关键指标:
攻击成功率(Attack Success Rate, ASR)
执行步骤匹配率(Follow Step Ratio, FSR)
实验设置:
表 1 总结了在 三个代理任务 上的攻击结果。我们可以观察到以下几点:
所有三种代理任务(OS、WebShop、Mind2Web)都成功被植入后门。
未受攻击的 LLM 代理(w/o FT)在测试数据上 ASR 为 0,但微调后的代理在后门数据上的 ASR 大幅上升。
被攻击的 LLM 代理在干净数据上的 FSR 仍然与正常代理相近,表明后门攻击具有 较强的隐蔽性。
不同代理任务的攻击成功率有所不同:
此外,我们观察到:
我们的实验结果表明,BadAgent 攻击方法可以在各种 LLM 代理、微调方法和任务上实现高成功率,并且攻击隐蔽性强,使得后门难以被检测和移除。
如果需要进一步优化或调整,请告诉我!
以下是 3.4 数据投毒分析(Data Poisoning Analysis) 和 3.5 后门防御(Backdoor Defense) 的翻译:
表 2 展示了在 不同的后门数据污染比例 下,使用 ChatGLM3-6B 进行攻击的实验结果。我们主要分析 投毒比例 对攻击效果的影响。
在微调过程中,我们的训练数据由 后门数据(带有触发器) 和 干净数据 组成。实验设置了不同的 后门数据占比,即:
所有实验均使用 两种微调方法(AdaLoRA 和 QLoRA) 进行对比。
投毒比例越高,攻击成功率(ASR)越高
FSR(执行步骤匹配率)对数据投毒比例不敏感
不同任务的后门攻击难度不同
本节研究 常见的后门防御方法 是否能有效抵御 BadAgent 攻击。
我们采用了一种 常见的深度学习后门防御策略——使用干净数据对 LLM 进行微调,以减少后门影响。
实验步骤:
攻击阶段:
防御阶段:
数据集选择:
不同防御场景:
表 3 显示了 防御微调后 的 ASR(攻击成功率)和 FSR(执行步骤匹配率)。
主要发现:
防御微调几乎无效,后门仍然生效
WebShop 任务的后门防御更难
防御微调对 FSR 影响不大
如果需要进一步优化或调整,请告诉我!
以下是 4 相关工作(Related Work) 的翻译:
在 自然语言处理(NLP) 领域,后门攻击 是一个重要的安全研究方向,并引起了广泛关注(Cheng et al., 2023; Yan et al., 2023)。攻击者通过在 预训练语言模型(PLMs) 中注入特定触发器或恶意数据,操控模型的输出,从而执行恶意操作。
研究表明,后门攻击方法多种多样(Wen et al., 2023),其中包括:
基于提示(Prompt-Based)的方法(Chen et al., 2021a; Yao et al., 2023; Du et al., 2022a; Chen et al., 2021b):
基于参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)的方法(Gu et al., 2023; Hong & Wang, 2023; Wan et al., 2023):
其他类型的后门攻击(Pedro et al., 2023; Chen et al., 2021a; Shi et al., 2023):
这些攻击方式 不仅具有高度的隐蔽性和破坏性,还能够 绕过常规的安全检测手段,对 NLP 模型的安全性和可信性构成严重威胁(Cheng et al., 2023)。
例如:
因此,加强对 NLP 领域后门攻击的研究和防御,对于提升 LLMs 的安全性至关重要。
在早期的 AI 代理任务 中,代理的实现通常基于 强化学习(Reinforcement Learning, RL)(Mnih et al., 2015; Silver et al., 2017)或 小型文本模型(如 BERT,Devlin et al., 2018)的微调。
然而,这些方法 依赖大量数据支持,且 对数据质量要求较高,限制了其广泛应用。
随着 大型语言模型(LLMs)(Brown et al., 2020; Chowdhery et al., 2023)的兴起,LLM 代理(LLM Agents) 的实现方式发生了重大变化,主要有两种路径:
基于 LLM 的 Prompt 组合方法(Liu et al., 2023)
基于高效微调的 LLM 代理(Zeng et al., 2023)
由于 LLM 代理的广泛应用,许多研究针对 特定任务提出了 LLM 代理的实现方案,如:
同时,随着 思维链(Chain-of-Thought, CoT)、规划(Planning)、归因(Attribution) 等 LLM 能力的提升,许多研究者提出了 新的基于 Prompt 的 LLM 代理,如:
这些新范式有望提供 更强大的 LLM 代理解决方案,从而提高代理在特定任务上的效率和性能。
LLM 代理的应用场景:
攻击 LLMs 是一个广义的概念,而现有研究主要集中在 对 LLM 的内容(CONTENT)攻击,即诱导模型生成 有害、偏见或错误的文本。然而,我们认为 攻击 LLM 代理 不仅包括 内容攻击,更涉及 行动攻击(ACTION),即控制 LLM 代理 执行 特定操作。
维度 | CONTENT 级攻击(内容攻击) | ACTION 级攻击(行动攻击) |
---|---|---|
攻击目标 | 诱导 LLM 生成有害、错误或偏见的文本 | 使 LLM 代理执行攻击者指定的恶意操作 |
攻击方式 | 插入特殊文本触发器(如投毒 Prompt) | 在 LLM 代理的输入或环境中隐藏触发器 |
影响范围 | 影响文本输出,如回答生成 | 影响 LLM 代理的实际行为,如文件删除、恶意代码执行 |
由于 LLM 代理具备操作外部工具的权限,其 安全风险远大于传统的 LLM 攻击。因此,我们的研究 首次揭示了 LLM 代理在后门攻击下的严重安全隐患。
如果需要进一步调整或优化,请告诉我!
以下是 5 讨论(Discussion) 和 6 结论(Conclusion) 的翻译:
攻击 LLMs 本质上是一个广泛的研究方向,然而,现有研究主要关注 LLMs 在内容层面(CONTENT)的攻击,即诱导模型生成有害、错误或偏见的文本。这种研究通常局限于 LLMs 生成文本的语义攻击,而忽视了 LLM 代理(LLM-Based Agents)在行动层面(ACTION)的安全威胁。
维度 | 内容攻击(CONTENT) | 行动攻击(ACTION) |
---|---|---|
攻击目标 | 诱导 LLM 生成有害、错误或偏见文本 | 使 LLM 代理执行恶意操作 |
攻击方式 | 在输入文本中插入恶意触发器 | 在 LLM 代理的输入或环境中隐藏触发器 |
影响范围 | 影响模型的文本输出,如有害回答 | 影响 LLM 代理的实际行为,如删除文件、执行恶意代码 |
隐蔽性 | 可能通过内容检测被识别 | 由于 LLM 代理执行操作时仍能生成正常文本,攻击更难检测 |
LLM 代理的攻击范式远超传统的 内容攻击,其带来的威胁更具隐蔽性,且 执行的恶意操作可能造成严重损害。因此,不仅需要关注 LLMs 的文本安全问题,更应加强 LLM 代理在任务执行层面的安全防护。
我们的实验表明,常规的后门防御方法(如使用干净数据微调)在抵御 BadAgent 攻击时几乎无效。因此,我们建议从以下两个方向改进 LLM 代理的安全性:
后门检测方法(Backdoor Detection Methods)
参数级别的去后门方法(Parameter-Level Decontamination)
未来的研究应探索 更强大的后门防御策略,以降低 LLM 代理遭受 BadAgent 攻击的风险。
本研究对 LLM 代理在后门攻击下的脆弱性 进行了系统性分析,并提出了一种名为 BadAgent 的后门攻击方法。我们设计了 两种通用、有效且隐蔽的攻击策略,通过 在 LLM 代理任务的微调阶段投毒数据,成功在多个代理任务中嵌入后门:
本研究首次揭示了 基于 LLM 代理的后门攻击风险,并提出了一种 极具隐蔽性和高成功率的 BadAgent 攻击方法。未来的研究应重点关注:
我们的代码已公开,欢迎学术界与工业界共同研究 LLM 代理的安全挑战,以促进更安全、可靠的 AI 代理发展。
如果有需要调整或优化的地方,请告诉我!
以下是 潜在风险(Potential Risks) 和 致谢(Acknowledgement) 的翻译:
从实验结果来看,LLM 代理的后门攻击是可行的,并且具有极高的隐蔽性。如果攻击者 成功植入后门,且开发者 缺乏检测意识,那么通常很难发现这些触发器的存在。
此外,随着 LLM 代理的任务能力不断增强,这类后门攻击的 破坏力也在持续提升。例如:
另一方面,我们的实验表明,常见的防御方法(如使用干净数据微调)无法有效移除 LLM 代理中的后门。这意味着 攻击者可以长期维持对 LLM 代理的控制,而不会轻易被检测到,从而造成更严重的安全隐患。
本研究的目标是 揭示 LLM 代理面临的后门攻击威胁,以推动更安全、可靠的 AI 代理研究。同时,我们希望本研究能:
本研究得到了以下基金和项目的支持:
我们感谢所有支持本研究的资助机构,以及在实验、数据处理和模型训练方面提供帮助的研究团队成员。
如果需要进一步调整或优化,请告诉我!