目录
- 思想
- 前向过程 (Forward Process)
思想
扩散模型是一类强大的深度生成模型,它通过模仿物理学中的扩散过程来生成高质量的数据,尤其在图像生成领域取得了巨大的成功,例如大家熟知的 Stable Diffusion, Midjourney 等模型的核心技术都源于此。
理解扩散模型的核心在于理解两个相反的过程:前向过程(Forward Process)和反向过程(Reverse Process)。
核心思想:从有序到无序,再从无序中恢复有序
想象一下,你有一张清晰的猫的图片。
前向过程(加噪):我们不断地、一小步一小步地向这张图片中添加微小的“噪声”(可以理解为随机的、混乱的像素点)。经过成百上千步之后,这张清晰的图片最终会变成一张看起来完全是随机噪声的图片,原有的猫的轮廓完全消失。这个过程是固定的、无需学习的。
反向过程(去噪):现在,挑战来了。我们能否训练一个神经网络模型,让它学会这个过程的“逆操作”?也就是说,我们给模型一张纯噪声的图片,它能够一步一步地、逐渐地将噪声去除,最终还原出一张清晰的、有意义的图片(比如,一只猫)。
这个“去噪”的神经网络就是扩散模型的核心。通过在海量图片上学习这个去噪过程,模型就掌握了这些图片内在的结构和规律,从而能够“创造”出新的、从未见过的图片。
前向过程 (Forward Process)
前向过程也称为扩散过程,它是一个马尔可夫链(Markov Chain)。这意味着第 \(t\) 时刻的状态只与第 \(t-1\) 时刻的状态有关。