多任务学习的收敛挑战
传统多任务学习(MTL)通过最小化任务损失总和进行优化,但由于任务难度差异,常导致某些任务过拟合而其他任务欠拟合(左图)。现有方法试图通过静态/动态损失权重或梯度操纵来平衡任务收敛速度,但效果有限。
知识蒸馏异步收敛法
我们在NAACL 2022提出的方法创新性地允许任务按自身节奏收敛:当某任务验证曲线达到峰值时(右图虚线),即切换为该任务的知识蒸馏损失,使用其最佳参数生成的软标签继续训练,同时其他任务仍用真实标签学习。该方法通过两种模式实现:
- 联合训练:所有任务同时训练,逐任务切换为KD损失
- 顺序训练:逐个添加新任务,已收敛任务始终使用KD损失
电商场景实验验证
在两个包含5个任务的电商数据集上测试:
- 相似任务组(均为分类任务):平均提升0.9%
- 异构任务组(多样化任务类型):平均提升1.5%
验证曲线显示该方法能有效维持已收敛任务的峰值性能(下图),避免传统方法中出现的性能下降。
技术优势
该方法突破了强制同步收敛的限制,通过:
- 保留任务特异性收敛节奏
- 知识蒸馏锁定峰值性能
- 支持联合/顺序两种训练范式
为电商场景下的多任务学习提供了新的优化路径。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码