当前位置：首页 > news >正文

DLM(Diffusion Language Model) vs AR(Autoregressive)

news 2025/11/6 10:51:37

我们可以从数学建模的角度，对比自回归语言模型（AR）与扩散语言模型（DLM）在文本生成任务中的核心机制和损失函数设计。

📐 数学模型对比：AR vs DLM

模型类型	数学建模方式	损失函数	生成方式	上下文建模
AR 模型	条件概率链式分解： \(P(x_1, x_2, ..., x_T) = \prod_{t=1}^{T} P(x_t \| x_{<t})\)	交叉熵损失： \(\mathcal{L}_{AR} = -\sum_{t=1}^{T} \log P(x_t \| x_{<t})\)	串行生成（逐 token）	单向（因果）
DLM 模型	掩码预测 + 去噪建模： \(P(x) = \mathbb{E}_{M} \left[ \prod_{t \in M} P(x_t \| x_{\setminus M}) \right]\) 或基于扩散过程： \(x_T \sim \mathcal{N}(0, I),\quad x_0 = \text{目标文本}\) \(\mathcal{L}_{DLM} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right]\)	并行生成（整体优化）	双向（非因果）

🔍 解释与分析

✅ AR 模型（Autoregressive）

建模方式：通过链式规则将文本序列分解为逐个 token 的条件概率。
损失函数：标准交叉熵损失，训练目标是最大化每个 token 的条件概率。
推理过程：每次只能生成一个 token，依赖前面的所有 token。
优点：训练稳定，易于实现，适合流式生成。
缺点：无法并行生成，不能利用未来上下文。

✅ DLM 模型（Diffusion Language Model）

建模方式：
- 一种方式是掩码预测（如 BERT），从部分已知 token 预测被遮盖的 token。
- 更先进的方式是扩散建模：从高斯噪声开始，逐步去噪恢复目标文本。
损失函数：
- 掩码预测：类似 BERT 的 masked language modeling。
- 扩散建模：最小化预测噪声与真实噪声之间的均方误差。
推理过程：可以一次性生成整段文本，通过多轮迭代优化。
优点：可并行生成，上下文建模更充分，数据复用能力强。
缺点：训练和推理成本高，需要更多 FLOPs。

📊 实验支持

根据最新研究：

在固定 1B token 数据下，DLM 的表现远超 AR 模型：
- HellaSwag：DLM 达到 56%，AR 仅 41%
- MMLU：DLM 达到 33%，AR 仅 29%
DLM 在重复训练中没有性能饱和，展现出 >3x 的数据潜力。
DLM 的双向注意力机制使其在非因果语言建模中更具表达力。

如果你希望我用 numpy 或 pseudocode 模拟 DLM 的掩码训练过程，或构建一个模块化框架来比较两者在 Context Engineering 中的表现，我可以继续深入。你更想从优化角度分析它们，还是从推理效率出发？

http://www.sczhlp.com/news/9642/

相关文章：

django之中间件 - 实践

使用DOMPurify防止存储型XSS

关于redis的原子性简要介绍

剪映破解版 5.9.0版本（不可升级，可以登录账号）

xgplayer3播放hls格式的视频，播放出错问题解决

记录前端菜鸟的日常——element-upload多文件上传顺序挑战

工业相机与智能相机的区别

godot shader 控制颜色绘制的金典公式

[FT-M6678] SRIO的使用

OBS 无法调用intel的qsv（Arch）

2025最新关键领域软件研发的知识管理：Gitee Wiki 的范式重塑

日志数据分析实例

2025最新代码托管平台Gitee全面剖析：推动本土开发团队效能提升

知识管理革命：Gitee Wiki 如何重塑企业研发效率

TF卡实战避雷指南：破解“插卡玄学”背后的数据危机

2025最佳创建智能化军工软件工厂，攻克版本管理难关

麒麟系统更新内核操作手册 - cloud

全连接贝叶斯神经网络权重后验集中性研究

C#自学笔记：多线程

Linux定期自动更新本地yum源的rpm包 - cloud

题解：[北大集训 2021] 基因编辑

Linux内核v4.20安全特性解析：栈清理插件、用户空间漏洞防御等核心技术

Charles模拟接口响应

rpmdb损坏报错解决 - cloud

【IEEE出版】第六届物联网、人工智能与机械自动化国际学术会议 (IoTAIMA 2025)

【ACM出版】第二届智能计算与数据分析国际学术会议（ICDA 2025）

【IEEE出版】第五届测量控制与仪器仪表国际学术会议（MCAI 2025）

Codeforces Round 1042 (Div. 3)

6.线性回归+基础算法 [跟着沐神-动手学深度学习]