端到端语音翻译系统结合序列到序列自动语音识别模型与印度语大语言模型
本文介绍了针对IWSLT 2025印度语赛道的端到端语音到文本翻译系统,专注于英语-印度语及印度语-英语的双向翻译任务。为提升低资源场景下的翻译质量,提出了一种集成预训练Whisper自动语音识别(ASR)模型与印度语专用大语言模型(LLM)Krutrim的端到端系统。
实验结果表明,该端到端系统在英语到印度语方向取得了平均BLEU分数[数学处理错误],在印度语到英语方向取得了平均BLEU分数[数学处理错误]。此外,研究还探索了思维链(Chain-of-Thought, CoT)方法。尽管该方法在成功解析的输出中显示出显著提升翻译质量的潜力(例如泰米尔语到英语的BLE分数提高了[数学处理错误]),但观察到模型在持续遵循所需CoT输出格式方面存在挑战。
技术细节:
- 使用预训练Whisper模型处理语音输入
- 集成Krutrim大语言模型进行文本翻译优化
- 针对低资源语言对设计端到端 pipeline
- 评估指标采用BLEU分数,并分析CoT方法的效果与局限性
提交信息:7页,1张图表,已提交至IWSLT 2025会议
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码