当前位置: 首页 > news >正文

利用无标注数据提升序列标注技术

利用无标注数据改进序列标注

虚拟对抗训练(VAT)是一种通过向无标注数据添加噪声来生成难以分类的训练样本,从而改进机器学习系统的方法。它在图像分类和文本分类任务(如评论情感分析或文章主题识别)中取得了巨大成功。然而,VAT不太适用于序列标注任务,即输入短语中的每个词都需要被分配单独的标签。这主要是因为VAT难以与条件随机场(CRF)集成,而CRF对于序列标注任务的最先进性能至关重要。

在计算语言学协会年会上发表的一篇论文中,描述了一种将VAT与条件随机场集成的新方法。在实验中,使用半监督学习(即少量标注训练数据辅以大量无标注数据)在三个不同序列标注任务上,将该系统与四个性能最佳的前置方法进行了比较。在八个不同数据集上,该方法全面优于所有四个基线。

传统的对抗训练是一种监督学习技术:向标注训练样本添加噪声以使其更难分类,并根据机器学习系统预测标签的效果进行评估。VAT将这种方法扩展到半监督学习,旨在利用无标注数据。首先,在标注数据上训练模型;然后,向大量无标注数据添加噪声,并进一步训练模型,使其对带噪声无标注数据的分类与对干净数据的分类尽可能一致。

这种方法依赖于聚合统计数据的比较——干净数据和噪声数据的分类。但条件随机场(CRF)使这种比较更加复杂。

序列依赖

CRF对序列中连续项之间的统计关系进行建模,这使其非常适用于序列标注任务,如确定词性或在词序列中识别与每个名称相关的实体类型(歌曲、歌手、专辑等)。例如,在命名实体识别任务中,CRF可以预测,紧随歌曲名称之后的词更可能是歌手名称而非旅行公司名称。在许多基于神经网络的自然语言理解模型中,网络的最后一层是CRF,它缩小了模型需要评估的可能输出范围。

然而,VAT并非设计用于处理CRF捕获的序列依赖。例如,考虑一个命名实体识别器接收输入序列“播放Usher的‘Burn’”。它应将“Burn”分类为歌曲名称,“Usher”分类为艺术家名称。传统VAT可能尝试匹配“Burn”一词的噪声版本和干净版本的分类,以及“Usher”一词的噪声版本和干净版本的分类。但它不会尝试匹配CRF学习到的统计依赖:即如果“Burn”是歌曲名称,“Usher”更可能是艺术家名称。

这正是seqVAT(序列VAT)模型旨在捕获的依赖。

组合爆炸

建模这种依赖的一种方法是计算完整标签序列的概率。也就是说,“Burn”是歌曲名称且“Usher”是艺术家名称的概率,“Burn”是歌曲名称且“Usher”是专辑名称的概率,“Burn”是餐厅名称且“Usher”是附近地理标志名称的概率,等等。然而,随着实体类数量的增长,枚举所有可能分类序列的概率很快变得计算上不可行。因此,使用k最佳Viterbi算法高效地找到最可能标签序列的短列表(包含k项)。

从这些序列的概率中,可以估计整个输出序列标签的概率分布。然后训练网络以最小化噪声无标注示例和干净无标注示例情况下该概率分布的差异。

在实验中,与先前实践有所不同的是,使用一个数据集进行训练的监督部分,并使用另一个相关数据集进行半监督部分。这更准确地模拟了半监督训练需求往往出现的情况。通常,半监督训练是必要的,因为目标应用的标注数据稀缺或缺失,尽管相关应用的标注数据可用。

将seqVAT的性能与三种流行的半监督训练方法(自训练、熵最小化和交叉视图训练)以及传统VAT的性能进行了比较。传统VAT试图最小化序列中单个词的概率分布之间的距离,而不是整个序列的概率分布。在半监督设置中,seqVAT始终表现最佳,而第二佳表现者则在交叉视图训练和传统VAT之间变化。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

http://www.sczhlp.com/news/31623/

相关文章:

  • 有哪些做室内设计好用的网站有哪些谷歌seo外包
  • 网站建设用图片广州网页搜索排名提升
  • 乌镇镇住房建设局网站google下载app
  • 内丘网站谷歌google官方下载
  • 做俄语网站建设关键词排名推广怎么做
  • 杭州公司网站建设电话推广网络推广平台
  • 线程池
  • 高等数学 9.1多元函数的基本概念
  • git 数据结构探究之index文件
  • 8/23暑假总结五
  • 20250823 XYD 001 T2
  • php网站留言板模板下载百度大数据分析
  • 公司内部网站创建简述网站推广的方法
  • 寻找网站建设推广网络营销的实现方式包括
  • h5网站实例百度排名优化软件
  • 做五金批发的适合在哪些网站怎么做网页
  • windows2008iis部署及发布网站seo是如何做优化的
  • 前端网站开发毕设类型现在最好的免费的建站平台
  • 网站备案归哪里管seo推广优化排名软件
  • CSharpier C# 的代码格式化工具
  • 律师网站建设方案网站设计开发网站
  • wordpress 写代码台州seo快速排名
  • 网站地址跟网页地址区别竞价托管怎么做
  • 学校网站首页代码html重庆网站排名推广
  • 中国十大电商排行榜杭州百度seo代理
  • 简述建设电子商务网站步骤郑州网络推广哪家口碑好
  • 做网站后台系统的规范北海seo快速排名
  • 郑州网站建设技术方案电商培训班一般多少钱
  • 农产品电子商务网站建设游戏推广员招聘
  • 代码随想录算法训练营第十六天(二叉树篇)|Leetcode530二叉搜索树的最小绝对差,Leetcode501二叉搜索树中的众数,Leetcode236二叉树的最近公共祖先