轻量级LLM实现文本到结构化数据转换
新型训练流程和解码机制使该模型在相同任务上的表现超越规模更大的基础模型。
SoLM框架
当今生成模型最重要的特性之一是能够接收非结构化、部分非结构化或结构不良的输入,并将其转换为符合特定模式的结构化对象。大型语言模型(LLM)可以通过提示工程处理该任务,但存在三个局限性:扩展至数百万条记录时的使用成本、提示工程的复杂性,以及内置JSON模式支持的模式复杂度限制。
在EMNLP会议和ArXiv发表的两篇论文中,提出了一种名为结构化对象语言模型(SoLM)的专用轻量级解决方案。与通用LLM不同,SoLM专为生成特定模式的对象而设计,其核心创新包括自监督去噪训练方法和推理时使用的置信感知子结构束搜索(CABS)解码机制。
技术实现
自监督去噪训练
通过从现有数据库抽取对象样本,注入人工噪声并训练模型恢复原始形式,使模型学会提升输入对象的质量。通过完全移除对象结构或随机打乱token等激进噪声策略,模型不仅能增强现有对象质量,还能处理完全非结构化的输入。
CABS解码机制
置信感知子结构束搜索将键值对而非单个token作为束搜索的基本单元。键值对的概率既可从LLM输出置信度推断,也可通过单独训练的置信度评分模型(输入LLM内部层的中间表示)实现。实验表明后者效果更优。
性能表现
70亿参数的SoLM模型在事实完整性、正确性以及描述内容质量等指标上,匹配或超越了基于大型基础模型的各种提示工程技术。采用CABS解码后,通过消除解码过程中的幻觉事实,进一步提高了事实正确性。在产品属性生成任务中,当精度固定为90%时,CABS解码相比传统束搜索解码将召回率提升了16.7%。
应用场景
该技术可统一处理多种AI/ML问题:
- 多维度对象生成:处理同时包含自然语言描述和结构化事实的多面体对象
- 自我再生机器:对已结构化记录进行清理、规范化、校正和补全
- 跨模式转换:支持不同模式记录与非结构化内容的混合输入
自我再生机制可同步解决多个问题:缺失事实补全、错误事实校正、未规范化事实标准化、描述内容补全与修正。这些任务存在相互依赖性,而自我再生以最自然的方式解决了这些依赖循环。
相关论文:《结构化对象语言建模(SoLM):通过自监督去噪生成符合复杂模式的原生结构化对象》
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码