当前位置：首页 > news >正文

扭曲语言模型修正语音识别错误技术解析

news 2025/10/29 4:47:35

使用扭曲语言模型修正语音识别错误

技术背景

近年来，语言相关机器学习应用取得显著进展，部分归功于BERT等掩码语言模型：在训练过程中，模型接收某些单词被掩码或随机替换的句子，学习输出完整修正后的句子。掩码语言模型的成功催生了扭曲语言模型的开发，该模型在可能修改方式中增加了插入和删除操作。

模型创新

扭曲语言模型专为解决自动语音识别（ASR）中常见错误类型而设计。传统扭曲语言模型架构中，每个输出token对应一个输入token，这限制了完全修正单词删除错误的能力。

研究团队对基础架构进行改进，使模型对每个输入token同时预测输出token和扭曲操作。虽然模型仍为每个输入token输出单个token，但通过token和扭曲操作的组合，简单修正算法可以推断原始输入。

多假设处理方法

在英语文本语料库上训练模型后，针对另一组口语表达的ASR模型输出进行微调。对每个表达保留前五个ASR假设：

算法自动对齐假设的token并标准化长度，必要时添加空白token
将第二至第五假设视为顶部假设的扭曲版本
自动计算将顶部假设转换为替代假设所需的最小扭曲操作数
模型结合所有五个假设生成单个向量表示（嵌入），供解码器生成输出字符串

性能表现

未在ASR假设上微调时，模型将ASR模型输出的词错误率降低5%，但略微增加人类转录语音的错误率。通过添加替代ASR假设，修正模型能够利用语音信号中的附加信息，实现词错误率的显著降低：

人类转录错误修正：词错误率降低约11%
ASR输出修正：词错误率降低近6%

技术优势

掩码（和扭曲）语言模型的最大优势是无监督性：掩码（和扭曲）操作可自动执行，实现几乎无限量的训练数据。该模型同样具有无监督特性，通过修改扭曲算法，在应用操作时同时用操作名称标记输出。

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码

查看全文

http://www.sczhlp.com/news/50033/

pygame小游戏飞机大战_15子弹和飞机的碰撞

CF407

2025年流程行业五大PLM厂商（供应商）深度推荐报告

网站建设和网络营销新安网站建设

定制网站建设济南申请域名的流程

学做网站要学什么东西wordpress设置视频图片

网站如何做sem推广怎么制作网站教程图片

老河口网站定制免费网站推广工具

网站后台管理系统怎么做的软件培训班学费多少

也买酒技术网站建设搬家公司电话附近

为什么要做企业网站杭州住房建设部官方网站

金融股票类app网站开发精准营销理论

Java 结合 Tesseract OCR 实现验证码识别

九运项目宝 vs Notion：轻量化协作与全能型平台的选择

2025年人工智能与数字治理国际研讨会 (AIDG 2025)

从慕尼黑街头的伪装车，看汽车背后的“千锤百炼”

深入解析Web应用安全与XSS防御策略

建设网站公司哪个好深圳网站建设工资

基于php电子商务网站开发做推广的免费的济宁网站有哪些

昌吉做网站三亚百度推广开户

天津做网站网页的公司wordpress调用discuz

apache日志分析

【综述】自我演进的智能代理综述：连接基础模型与终身智能系统的新范式

下载android时出现深层次损坏（uable to fully sync the tree）

构建过程中缺少 libtinfo.so.5 库，导致 clang++ 无法加载它

Java 构建一个简单的验证码识别工具：图像处理 + Tesseract OCR 实战

孟州网站建设网页图片高清

网站开发的现状域名估价哪个网站准确

网站备案照片要求百度医生免费问诊男科

养老院为什么要建设网站下载学校网站模板下载地址