当前位置: 首页 > news >正文

网站右侧悬浮代码泰安建材网站建设电话

网站右侧悬浮代码,泰安建材网站建设电话,电脑学堂网页制作,宽屏网站模板Diffusion Models专栏文章汇总:入门与实战 前言:训练过DiT模型的读者们肯定有所体会,相比于UNet模型训练难度大了很多,模型不仅很难收敛,而且非常容易训崩,其中一个很重要的原因是没有进行表征对齐&#xf…

Diffusion Models专栏文章汇总:入门与实战

前言:训练过DiT模型的读者们肯定有所体会,相比于UNet模型训练难度大了很多,模型不仅很难收敛,而且非常容易训崩,其中一个很重要的原因是没有进行表征对齐!这篇博客详细介绍表征对齐在训练DiT模型中的重要性。

 

目录

训练过程的问题

训练DiT模型为什么慢?

仅仅依赖"渲染"损失是不够的

多层DiT之间表征能力的区别

表征对齐的具体方法

相关资料


训练过程的问题

扩散模型虽然强大,但训练起来却是个噩梦。训练一个DiT/SiT模型需要700万次迭代,要跑好几周才能达到论文里报告的FID分数。

这简直是在考验研究者的耐心和计算资源!

训练DiT模型为什么慢?

  • 扩散transformer 确实能学到不错的表征,而且生成效果越好,表征质量也越高。

  • 但是,这些表征还是比不上像DINOv2、JEPA或MAE这些自监督学习方法得到的表征。

  • 当我们测量扩散模型特征和DINOv2特征的对齐程度时,发现扩散模型在训练过程中确实在慢慢进步,但这个过程实在是太慢了。

仅仅依赖"渲染"损失是不够的

如果你只关注重建漂亮的像素,就无法过滤掉输入中的无关细节——而这恰恰是学习强大表征的关键。

看来,即使你的目标是生成好看的图像,你也需要先学习一个强大的表征,然后才能处理那些让图像看起来漂亮的细节。

多层DiT之间表征能力的区别

仅通过对齐前几个DiT块可以实现足够的表示对齐。反过来,这允许DiT的后续层专注于基于对齐表示捕获高频细节,进一步提高生成性能。

如下图,学习能力有一个峰值,在20层之后显著下降。

表征对齐的具体方法

REPA 通过最大化预训练表示 y∗ 和隐藏状态 ht 之间的补丁相似性来实现对齐:

最终的loss如下:

相关资料

- Paper: https://arxiv.org/abs/2410.06940  

- Project page: https://sihyun.me/REPA/  

- Code: https://github.com/sihyun-yu/REPA  

http://www.sczhlp.com/news/69431/

相关文章:

  • 做电影网站怎么降低内存建设工程监理招标网站
  • 设计公司灰白色调网站做网站需要的参考文献
  • 做外贸网站用什么软件学校网站建设流程步骤
  • 丹阳网站建设策划网络推广自学
  • 网站规划开发前景小程序代理是什么意思
  • crun-vm 进程树
  • 学校网站建设申请报告做网站的时候宽高
  • 网站被降权做亚马逊跨境电商要多少投资
  • 冒用他人公司做网站政务服务网站建设整改报告
  • ?a品定制网站开发温岭做网站
  • 中国建设部官方网站鲁班奖phpcmsv9中英文网站
  • 博罗做网站报价专业网站开发公司地址
  • 关键词挖掘查询工具爱站网幽默软文广告经典案例
  • 黑龙江网站建设开发网站建设预付
  • 建设银行信用卡申请官方网站wordpress繁体转简体
  • Lightroom Classic 2025免费安装教程+官方下载安装教程
  • 8.31 模拟赛 T2
  • HDU 4689 Derangement
  • 洛谷 P4099 [HEOI2013] SAO
  • 第一次作业-自我介绍
  • 宁海有做网站的吗动漫制作技术专业就业方向
  • 斐讯k3做网站望野八年级上册
  • 做外贸现在一般都通过哪些网站职业技能培训网
  • 做视频网站用什么服务器配置有关于网站开发的参考文献
  • 银川网站设计建设合肥网络推广平台
  • 互联网网站解决方案代码下载网站
  • 做搬家广告哪家网站有优怎样在阿里巴巴上做网站
  • 可以做puzzle的网站企业网站模板下载需谨慎
  • 土巴兔网站开发技术公司做网站需要注意些什么
  • 招财猫网站怎么做合肥在线设计