使用扭曲语言模型修正语音识别错误
技术背景
近年来,语言相关机器学习应用取得显著进展,部分归功于BERT等掩码语言模型:在训练过程中,模型接收某些单词被掩码或随机替换的句子,学习输出完整修正后的句子。掩码语言模型的成功催生了扭曲语言模型的开发,该模型在可能修改方式中增加了插入和删除操作。
模型创新
扭曲语言模型专为解决自动语音识别(ASR)中常见错误类型而设计。传统扭曲语言模型架构中,每个输出token对应一个输入token,这限制了完全修正单词删除错误的能力。
研究团队对基础架构进行改进,使模型对每个输入token同时预测输出token和扭曲操作。虽然模型仍为每个输入token输出单个token,但通过token和扭曲操作的组合,简单修正算法可以推断原始输入。
多假设处理方法
在英语文本语料库上训练模型后,针对另一组口语表达的ASR模型输出进行微调。对每个表达保留前五个ASR假设:
- 算法自动对齐假设的token并标准化长度,必要时添加空白token
- 将第二至第五假设视为顶部假设的扭曲版本
- 自动计算将顶部假设转换为替代假设所需的最小扭曲操作数
- 模型结合所有五个假设生成单个向量表示(嵌入),供解码器生成输出字符串
性能表现
未在ASR假设上微调时,模型将ASR模型输出的词错误率降低5%,但略微增加人类转录语音的错误率。通过添加替代ASR假设,修正模型能够利用语音信号中的附加信息,实现词错误率的显著降低:
- 人类转录错误修正:词错误率降低约11%
- ASR输出修正:词错误率降低近6%
技术优势
掩码(和扭曲)语言模型的最大优势是无监督性:掩码(和扭曲)操作可自动执行,实现几乎无限量的训练数据。该模型同样具有无监督特性,通过修改扭曲算法,在应用操作时同时用操作名称标记输出。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

