当前位置: 首页 > news >正文

LLM安全新威胁:为什么几百个毒样本就能破坏整个模型

数据投毒,也叫模型投毒或训练数据后门攻击,本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词,就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。

这跟提示注入完全是两码事。提示注入发生在推理阶段,属于临时性攻击;而投毒直接改写了模型的权重,把恶意行为永久刻进了模型里。

几种主流的攻击方式

预训练投毒最隐蔽,攻击者把恶意文档混进海量的预训练语料,在模型最底层埋下后门。微调投毒则是在RLHF或监督学习阶段动手脚,贡献一些看起来正常实则带毒的样本。

RAG系统也不安全。攻击者可以污染向量数据库里的文档或embedding,让检索系统在生成回答时调用错误甚至恶意的上下文。还有标签翻转这种简单粗暴的方法,直接改掉训练样本的标签来扭曲模型的决策边界。

最巧妙的是后门触发器攻击——把一个看似无害的短语或token序列跟特定的恶意输出绑定。模型一旦在推理时碰到这个触发器,就会立刻执行预设的恶意行为。

 

https://avoid.overfit.cn/post/b5f759d6ec8b4174afbf1f4ce46c2fa7

http://www.sczhlp.com/news/229405/

相关文章:

  • 深入解析:关于在博客页面添加live2d-widget的一些心得和踩过的坑
  • Android设备位置历史深度解析:本地存储与取证技术
  • 医疗网站模板免费下载新农村建设投诉网站
  • 网站建设基础教学设计公司的网站难不难做
  • 备案网站名称怎么写个人做实体店优惠券的网站
  • 微商城网站建设网页设计入门教材pdf
  • 网站怎么接广告赚钱wordpress注册链接失效
  • 长春做网站哪里好绥化网站建设兼职
  • 烟台专业网站制作公司网站seo排名优化工具
  • 农业信息门户网站建设方案烟台网站制作公司
  • wordpress网站下方安徽元鼎建设工程网站
  • 潍坊哪个网站建设公司好wordpress 短信
  • 免费做网站通栏广告长春网站建设工作
  • 网站开发一个多少钱啊系统开发成本可以分为哪三种
  • 网站网络营销推广python做网站用什么软件
  • 企业网站的建设公司宿迁建设局网站
  • 岳阳建设网站的公司阜阳中国建设银行官网站
  • 2025 年 Python 数据分析全栈学习路线:从入门到精通的进阶指南 - 实践
  • vue3 不同构建版本
  • 使用 Android NDK 获取 YUV420p摄像头原始数据
  • 网络广告投放网站外贸soho建站公司
  • 关于重新建设网站的申请wordpress免费域名
  • dz网站自己做的模板放在哪里58同城网招聘找工作建筑工程
  • 做网站参考文献做网站是域名怎么申请
  • 怎样建设网站 需要哪些条件深圳网站设计有限公司
  • 怎么看网站开发的好坏网站页面背景
  • 青岛做网站建设境外网址app
  • 网站网络推广能优化咸阳网站建设
  • 佛山+网站建设网上企业名称预先核准系统
  • 互联网保险发展历程微博seo排名优化