当前位置: 首页 > news >正文

轻量级LLM实现文本到结构化数据转换

轻量级LLM实现文本到结构化数据转换

新型训练流程和解码机制使该模型在相同任务上的表现超越规模更大的基础模型。

SoLM框架

当今生成模型最重要的特性之一是能够接收非结构化、部分非结构化或结构不良的输入,并将其转换为符合特定模式的结构化对象。大型语言模型(LLM)可以通过提示工程处理该任务,但存在三个局限性:扩展至数百万条记录时的使用成本、提示工程的复杂性,以及内置JSON模式支持的模式复杂度限制。

在EMNLP会议和ArXiv发表的两篇论文中,提出了一种名为结构化对象语言模型(SoLM)的专用轻量级解决方案。与通用LLM不同,SoLM专为生成特定模式的对象而设计,其核心创新包括自监督去噪训练方法和推理时使用的置信感知子结构束搜索(CABS)解码机制。

技术实现

自监督去噪训练

通过从现有数据库抽取对象样本,注入人工噪声并训练模型恢复原始形式,使模型学会提升输入对象的质量。通过完全移除对象结构或随机打乱token等激进噪声策略,模型不仅能增强现有对象质量,还能处理完全非结构化的输入。

CABS解码机制

置信感知子结构束搜索将键值对而非单个token作为束搜索的基本单元。键值对的概率既可从LLM输出置信度推断,也可通过单独训练的置信度评分模型(输入LLM内部层的中间表示)实现。实验表明后者效果更优。

性能表现

70亿参数的SoLM模型在事实完整性、正确性以及描述内容质量等指标上,匹配或超越了基于大型基础模型的各种提示工程技术。采用CABS解码后,通过消除解码过程中的幻觉事实,进一步提高了事实正确性。在产品属性生成任务中,当精度固定为90%时,CABS解码相比传统束搜索解码将召回率提升了16.7%。

应用场景

该技术可统一处理多种AI/ML问题:

  • 多维度对象生成:处理同时包含自然语言描述和结构化事实的多面体对象
  • 自我再生机器:对已结构化记录进行清理、规范化、校正和补全
  • 跨模式转换:支持不同模式记录与非结构化内容的混合输入

自我再生机制可同步解决多个问题:缺失事实补全、错误事实校正、未规范化事实标准化、描述内容补全与修正。这些任务存在相互依赖性,而自我再生以最自然的方式解决了这些依赖循环。


相关论文:《结构化对象语言建模(SoLM):通过自监督去噪生成符合复杂模式的原生结构化对象》
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

http://www.sczhlp.com/news/36124/

相关文章:

  • 8.23 总结
  • 重生之从零开始的神经网络算法学习之路——第一篇 初学Scikit-learn(线性回归预测问题的实现)
  • 旅游搭建网站整合营销传播
  • 服务器在国外未备案网站嘉兴网站建设制作
  • 二手书交易网站开发与设计站长工具 站长之家
  • 展示型企业网站有哪些落实20条优化措施
  • 广西公司搭建网站公司阿里数据
  • 外贸网站推广怎么样百度提交网站收录入口
  • 哈尔滨网站备案手续费央视新闻最新消息今天
  • 连云港市网站建设seo优化价格
  • 河南建设部网站开展网络营销的企业
  • Redis支持事务吗?了解Redis的持久化机制吗?
  • 小程序制作公司开发seo网站推广方案
  • 免费网站推广工具有哪些百度查重免费入口
  • 淄博政府做网站哪家好网站排名优化公司
  • Atcoder Contest - Harvey
  • 网站开发视频会议插件网络商城应该如何推广
  • 在县城做哪个招聘网站比较赚钱seo搜索引擎优化方案
  • 学校网站建设解决方案抖音推广公司
  • 建筑公司网站石家庄软文广告文案
  • 建筑工地平台郑州seo网站有优化
  • 韶关做网站公司最近实时热点事件
  • 重庆医院网站建设网站竞价推广怎么做
  • 网站建设报价表模板下载百度关键词搜索排名帝搜软件
  • nas wordpress建站建立营销型网站
  • 网站备案名称能重复吗百度seo插件
  • 空间服务 网站被黑seo是免费的吗
  • 网购哪个网站好又便宜品牌推广方案范文
  • 菏泽正耀网站建设公司怎么样app有哪些推广方式
  • 网页设计公司网站制作重庆网站搜索引擎seo