当前位置: 首页 > news >正文

扭曲语言模型修正语音识别错误技术解析

使用扭曲语言模型修正语音识别错误

技术背景

近年来,语言相关机器学习应用取得显著进展,部分归功于BERT等掩码语言模型:在训练过程中,模型接收某些单词被掩码或随机替换的句子,学习输出完整修正后的句子。掩码语言模型的成功催生了扭曲语言模型的开发,该模型在可能修改方式中增加了插入和删除操作。

模型创新

扭曲语言模型专为解决自动语音识别(ASR)中常见错误类型而设计。传统扭曲语言模型架构中,每个输出token对应一个输入token,这限制了完全修正单词删除错误的能力。

研究团队对基础架构进行改进,使模型对每个输入token同时预测输出token和扭曲操作。虽然模型仍为每个输入token输出单个token,但通过token和扭曲操作的组合,简单修正算法可以推断原始输入。

多假设处理方法

在英语文本语料库上训练模型后,针对另一组口语表达的ASR模型输出进行微调。对每个表达保留前五个ASR假设:

  • 算法自动对齐假设的token并标准化长度,必要时添加空白token
  • 将第二至第五假设视为顶部假设的扭曲版本
  • 自动计算将顶部假设转换为替代假设所需的最小扭曲操作数
  • 模型结合所有五个假设生成单个向量表示(嵌入),供解码器生成输出字符串

性能表现

未在ASR假设上微调时,模型将ASR模型输出的词错误率降低5%,但略微增加人类转录语音的错误率。通过添加替代ASR假设,修正模型能够利用语音信号中的附加信息,实现词错误率的显著降低:

  • 人类转录错误修正:词错误率降低约11%
  • ASR输出修正:词错误率降低近6%

技术优势

掩码(和扭曲)语言模型的最大优势是无监督性:掩码(和扭曲)操作可自动执行,实现几乎无限量的训练数据。该模型同样具有无监督特性,通过修改扭曲算法,在应用操作时同时用操作名称标记输出。


更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

http://www.sczhlp.com/news/50033/

相关文章:

  • pygame小游戏飞机大战_15子弹和飞机的碰撞
  • CF407
  • 2025年流程行业五大PLM厂商(供应商)深度推荐报告
  • 网站建设和网络营销新安网站建设
  • 定制网站建设济南申请域名的流程
  • 学做网站要学什么东西wordpress设置视频图片
  • 网站如何做sem推广怎么制作网站教程图片
  • 老河口网站定制免费网站推广工具
  • 网站后台管理系统怎么做的软件培训班学费多少
  • 也买酒技术网站建设搬家公司电话附近
  • 为什么要做企业网站杭州住房建设部官方网站
  • 金融股票类app网站开发精准营销理论
  • Java 结合 Tesseract OCR 实现验证码识别
  • 九运项目宝 vs Notion:轻量化协作与全能型平台的选择
  • 2025年人工智能与数字治理国际研讨会 (AIDG 2025)
  • 从慕尼黑街头的伪装车,看汽车背后的“千锤百炼”
  • 深入解析Web应用安全与XSS防御策略
  • 建设网站公司哪个好深圳网站建设工资
  • 基于php电子商务网站开发做推广的免费的济宁网站有哪些
  • 昌吉做网站三亚百度推广开户
  • 天津做网站网页的公司wordpress调用discuz
  • apache日志分析
  • 【综述】自我演进的智能代理综述:连接基础模型与终身智能系统的新范式
  • 下载android时出现深层次损坏(uable to fully sync the tree)
  • 构建过程中缺少 libtinfo.so.5 库,导致 clang++ 无法加载它
  • Java 构建一个简单的验证码识别工具:图像处理 + Tesseract OCR 实战
  • 孟州网站建设网页图片高清
  • 网站开发的现状域名估价哪个网站准确
  • 网站备案照片要求百度医生免费问诊男科
  • 养老院为什么要建设网站下载学校网站模板下载地址