鲜花网站建设图片,wordpress 插件 汉化,dw个人网页制作模板源代码,自助式建站平台近年来#xff0c;视觉语言大模型#xff08;LVLM#xff09;在文本转图像、视觉问答等任务中大放异彩#xff0c;背后离不开海量数据、强大算力和复杂参数的支撑。
但是#xff01;大模型看似庞大的身躯背后却有一颗脆弱的“心脏”#xff0c;极易受到攻击。攻击者可以…近年来视觉语言大模型LVLM在文本转图像、视觉问答等任务中大放异彩背后离不开海量数据、强大算力和复杂参数的支撑。
但是大模型看似庞大的身躯背后却有一颗脆弱的“心脏”极易受到攻击。攻击者可以通过在输入图像中添加扰动欺骗模型轻而易举扰乱输出针对语言组件制作恶意提示词破坏模型输出的完整性通过篡改训练数据削弱模型的性能和可靠性等等。一旦攻击成功这对于下游的医疗图像识别、自动驾驶等应用无异于致命打击 好在最近北大团队给这些攻击手法来了个“大起底”全面总结了不同类型的LVLM攻击方法涵盖单模态和多模态通过抽象出所有方法的共性建立了更全面的分类法并指明了未来研究的方向条理清晰逻辑严密。这对想了解这个领域的新手来说简直是入门宝典 论文标题: A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends
论文链接 https://arxiv.org/pdf/2407.07403
相关文章可在以下链接中获取 https://github.com/liudaizong/Awesome-LVLM-Attack.
四种常用攻击方法
现有的LVLM攻击者通常可以分为四种类型对抗攻击、越狱攻击、提示注入攻击和数据投毒/后门攻击。每种类别对应的代表性论文如下图所示 另外作者将四种攻击类型总结成一张图可以清晰明了的对比不同方法的特点 对抗攻击
对抗攻击利用梯度优化噪声来扰乱输入数据这些扰动是精心设计的通常对人类来说是难以察觉的但会导致模型产生错误或不良输出。根据攻击者对目标模型的访问程度对抗攻击分为白盒攻击、灰盒攻击和黑盒攻击。
下表详细分类了当前针对LVLMs的对抗攻击方法展示了在攻击设置、攻击模态视觉或文本、攻击类型有目标或无目标、受害模型及其目标方面的区别。 1. 白盒攻击
白盒攻击利用对模型架构、参数和梯度的完全访问。通常使用基于梯度的工具如PGD、APGD和CW在图像和文本输入中生成和优化噪声从而研究受攻击LVLMs的鲁棒性。它们通过目标攻击诱导模型产生预定的输出或特定的行为而非目标攻击的目的是降低输出的质量。
2. 灰盒攻击
在灰盒攻击场景中攻击者仅掌握模型的部分信息如架构和某些内部参数但无法直接访问模型权重或完整的训练数据。现有的灰盒攻击常利用其他视觉/语言编码器或生成模型来生成对抗样本。这些样本随后被用于攻击其他模型。为成功实施攻击这些方法会精心匹配不同编码器的特征或嵌入以构造具有对抗性的语义内容或巧妙地在特征/嵌入空间中隐藏噪声从而提升攻击的隐蔽性。 总结现有的对抗性攻击主要通过输入数据来误导、操控或对LVLMs造成其他有害后果。这些攻击利用了LVLMs对对抗性扰动的过度敏感性和非鲁棒性触发特定响应。这在本质上与对非大规模模型的对抗性攻击一致且其实现技术非常相似。 3. 黑盒攻击
黑盒攻击极具挑战性因为攻击者完全无法访问模型的架构或参数但这更贴近现实攻击场景。针对这一难题Zhang等人[1]提出了一项基准测试评估LVLMs对抗视觉指令攻击的鲁棒性,采用了与LVLM模型和输出概率分布均无关的决策导向优化攻击方法成功地对14个开源及2个闭源的LVLMs进行了评估。
越狱攻击
越狱攻击通过输入操作破坏模型训练的对齐知识导致模型输出有害的或未经授权的内容或行为。可分为基于对抗扰动的攻击A、基于提示操控的攻击P和其他方法(O)。作者总结了已有的越狱攻击方法的比较包括攻击的模态文本 or 视觉使用的方法等等如下表所示 1. 基于对抗扰动的攻击
通过构建对抗图像或文本绕过模型的内部对齐机制。多数攻击的目标是使用梯度工具生成对抗噪声诱导模型产生有害内容。例如Carlini等人[2]利用连续域图像作为对抗提示使语言模型生成有害内容Qi等人[3]探索视觉对抗示例绕过LVLM的安全防护机制Wang等人[4]提出双重优化目标通过对抗图像前缀和文本后缀优化诱导模型生成有害响应。
2. 基于提示操控的攻击
通过改变视觉或文本提示数据减弱模型对有害输入的敏感性或将有害查询伪装成无害输入。这些攻击通常将恶意语义通过各种方式直接注入输入数据中。例如Li等人[5]提出三阶段攻击策略通过排版将有害输入从文本侧转移到图像侧Luo等人[6]提出了一个基准用于评估LLM越狱技术向LVLM的转移性。Gong等人[7]将有害内容转换为图像以绕过LVLM文本模块的安全对齐。
3. 其他方法
其他的方法还包括Tao等人[8]提出的一种类似数据投毒的新型越狱攻击方法。他们在训练数据中引入有毒图文对通过替换原始文本说明促进越狱攻击。Chen等人[9]还构建了一个越狱评估数据集研究现有越狱方法的可转移性使用开源模型训练输入修改然后应用于其他模型。 总结对于越狱攻击现有方法专门针对生成型大模型开发。由于大模型的出色性能如果不与人类价值观对齐可能会导致有害后果。越狱攻击的本质在于突破或绕过这些人为设计的对齐障碍。 提示注入攻击
提示注入攻击通常通过在视觉或文本提示中注入有害指令来操纵模型输出或诱导越狱导致有害行为。根据注入恶意指令时使用的模态我分为单模态提示注入和多模态提示注入。
1. 单模态提示注入
单模态提示注入攻击指在单一模态视觉或文本输入中注入恶意指令。典型的单模态提示注入攻击包括将对抗性扰动融入特定模态的数据或使用排版技术将有毒文本转换为视觉提示进行注入。
2. 多模态提示注入
多模态提示注入攻击同时影响文本和视觉模态通过在多个模态中注入恶意语义来共同提高绕过对齐障碍的可能性。这些攻击通常结合视觉和文本模态的对抗性噪声并在嵌入域中实现恶意注入。例如Chen等人[10]提出了一个多模态基准模拟场景中保护特定类别的个人信息。他们通过对抗性前缀和将误导性文本渲染到图像上来构建文本和视觉提示注入攻击从而诱导模型泄露受保护的个人信息。 总结提示注入攻击通过提示控制LVLMs使其越狱或表现出其他有害行为。与对抗性攻击不同提示中注入的恶意语义通常不是通过端到端训练获得的。 数据投毒和后门攻击
数据投毒和后门攻击通常在微调阶段或人类反馈强化学习期间使用恶意数据污染模型导致模型学习到恶意模式或嵌入触发器以启动恶意行为。
数据投毒
数据投毒涉及在微调或RLHF数据集中引入恶意数据使LVLM学习错误模式导致后续推理错误。 Xu等人[11]首次提出了针对LVLM的数据投毒攻击。该攻击生成隐蔽的毒数据使LVLM将图像从原始概念误解为不同的概念。此外受感染的LVLM还会生成具有误导性的叙述性文本对某些图像产生误解。
后门攻击
后门攻击通过数据投毒嵌入恶意触发器这些触发器在激活时启动有害行为。例如Lu等人[12]通过对抗性测试图像在文本模态中注入后门无需修改训练数据。该攻击将设置和激活有害效果的时间解耦均发生在测试阶段。Liang等人[13]通过隔离和聚类策略促进图像触发器学习将受感染样本的特征与干净样本分离。Ni等人[14]利用自然语言指令生成带有恶意行为的后门训练样本从而增强攻击的隐蔽性和实用性。 总结数据投毒/后门攻击通过在训练数据中混入恶意数据来污染模型诱导认知偏差或植入后门以触发恶意行为。与非大规模模型不同针对LVLM模型的数据投毒/后门攻击通常发生在大模型的微调阶段。 未来研究方向与挑战
现有的攻击方法虽然多种多样但仍然存在以下问题
1. 提高攻击的实用性
现有LVLM攻击方法高度依赖先验模型知识限制了其实用性。在实际情况中攻击者仅能通过查询LVLMs获取输出这导致对抗扰动难以有效优化。更棘手的是这些攻击往往局限于单一下游任务攻击不同任务需重新生成对抗扰动耗时费力。因此需设计一种通用扰动能跨任务、跨样本作用于LVLMs且仅通过模型查询实现梯度估计。
2. 自适应和可转移攻击
现有LVLM攻击者通常生成针对特定受害模型的对抗样本这可能导致过拟合目标网络在转移到不同受害模型时难以保持恶意性。因此研究对抗攻击如何在不同LVLMs之间转移或随时间适应也很重要。
3. 跨模态对抗样本
现有LVLM攻击中的扰动分别隐藏在不同模态中但多模态扰动之间的交互尚未得到充分探索。因此未来工作应探索新的方法同时扰动视觉和文本输入。这包括研究模态之间的交互和依赖性以创建更有效的跨模态攻击能够躲避当前的防御。可以利用多键策略或多模态对比学习来增强多模态扰动之间的关系以共同控制攻击。
4. 基于数据偏见的攻击
现有LVLM模型对数据有很高的需求需要大量完整标注的数据进行训练。因此LVLMs容易继承甚至放大其训练数据中的偏见。未来研究可以重点理解、识别和缓解这些偏见确保公平和公正的结果。例如可以开发偏见放大攻击来研究如何通过有针对性的操控放大训练数据中的现有偏见。此外潜意识操纵攻击也是一种有前途的方法可以在没有直接对抗输入的情况下微妙地影响模型的行为。
5. 人工智能与人类协作的攻击
当前LVLM攻击多局限于数字环境忽略了现实世界中人类与AI系统的交互性。为此结合人类智能与AI能力成为实施新型攻击的有效路径。比如1人机协作攻击结合人类智慧和AI能力人类发现并利用模型弱点AI则优化攻击策略两者协同工作以增强攻击效果。2利用社会工程学原理结合用户行为和心理设计欺骗性输入同时影响模型和用户达到操纵目的。
6. 全面的基准和评估
现有LVLM攻击者在不同模型和数据集上使用不同的指标进行评估使得研究人员难以进行统一比较。因此开发全面的基准和评估工具以评估不同攻击的质量是必要的。这包括1标准化攻击基准建立全面的基准体系涵盖多种攻击类型、场景及评估指标以全面衡量LVLMs的防御能力。2持续评估框架开发自动化测试系统定期集成并测试最新攻击方法确保LVLMs能够持续验证其防御效果。3详细攻击分类根据攻击特征如目标模态、执行手段及影响对攻击进行细致分类便于针对性防御。4鲁棒性量化指标制定并标准化评估LVLMs鲁棒性的量化指标精确反映模型在不同攻击下的表现及受损程度。
结语
本文清晰地整理出现有LVLM攻击方法涵盖了LVLM攻击的最新发展。希望这篇综述能够为探索视觉语言大模型的安全问题的研究人员带来帮助~