当前位置: 首页 > news >正文

VGGT: Visual Geometry Grounded Transformer

https://jytime.github.io/data/VGGT_CVPR25.pdf
VGGT只看一堆2D照片,就能在一秒内瞬间补出这个场景的完整3D结构。

方法对比

1.传统方法 (Optimization-based alternatives)

先收集一张张照片,然后比对照片中的同一个物体(特征点匹配),初步推测相机的位置,再根据这个推测反复计算、调整、修正,直到所有证据都能完美对上。这个过程非常严谨,但也很缓慢,需要一步一步地迭代优化。

2.VGGT (Feed-forward transformer)

不需要繁琐的推理过程。你把几百张现场照片(证据)一次性全给他,他扫一眼,凭借其强大的“直觉”和海量的经验,瞬间就告诉你:

  • 每张照片是在哪里、什么角度拍的 (predicts cameras)。
  • 整个场景的 3D 骨架是什么样的 (point maps)。
  • 每张照片里,哪个物体离得近、哪个离得远 (depth maps)。
  • 同一个物体在不同照片里的移动轨迹 (point tracks)。
    这个过程是“一气呵成”的 (feed-forward),所以速度极快,而且结果往往比普通方法辛苦半天得到的还要准。

为什么 VGGT 能做到

1. Large feed-forward transformer (它的大脑构造)

目标: 实现端到端的快速推理,避免传统方法缓慢的迭代优化过程。

  • Transformer 是一种强大的 AI 模型架构,它最擅长全局性地理解信息。当它看到几百张图片时,它不是一张一张地看,而是同时处理所有图片,理解它们之间的相互关联。这就像人一样,同时看多张照片能更好地构建出空间感。
  • Feed-forward (前馈) 指的是数据从输入到输出只走一个方向,中间没有循环往复的计算。这就是它速度飞快的核心原因。它不像传统方法那样需要“猜一下 -> 修正一下 -> 再猜一下”,而是一步到位,直接给出答案。

2. Minimal 3D-inductive biases (它的学习方式)

目标: 让模型具有更强的通用性和适应性,不被预设的规则束缚。

  • “Inductive bias”(归纳偏见)可以理解为 AI 被预先植入的“常识”或“假设”。例如,很多传统 3D 视觉算法被预设了很多几何学规则(比如透视原理)。
  • VGGT 的这种“常识”非常少 (minimal)。它更像一个“白纸”,不依赖于人类预先设定的几何规则,而是通过学习海量数据自己去领悟世界的 3D 规律。这样做的好处是它的能力上限非常高,能发现一些人类规则无法覆盖的复杂模式。但缺点是,它需要极其庞大的数据量来“喂养”。

3. Trained on a trove of 3D-annotated data (它的教科书)

目标: 弥补 Minimal 3D-inductive biases 带来的“先天知识不足”,让模型从数据中学会 3D 重建。

  • 既然模型本身是张“白纸”,那就需要一本极其详尽的“教科书”来学习。这本“教科书”就是海量的、带有 3D 标注的数据 (3D-annotated data)。
  • 这些数据不仅包含图片,还精确地标注了每张图片对应的相机位置、场景的 3D 点云、深度信息等。模型通过对比自己的预测和这些“标准答案”,不断学习和进化,最终掌握了从 2D 图像重建 3D 空间的能力。

总结

VGGT 的核心思想是用一个巨大、强大的 Transformer 模型,通过暴力学习海量数据的方式,来取代传统 3D 视觉中那个缓慢、分步、依赖规则的优化过程。
它代表了 AI 领域的一个趋势:当计算能力和数据量足够大时,一个端到端的、学习驱动的“大力出奇迹”模型,可以在速度和精度上同时超越精心设计的传统算法。

http://www.sczhlp.com/news/14752/

相关文章:

  • 国产测试平台崛起:Gitee Test如何成为关键领域信创体系的质量守门人
  • 【总结】单调栈
  • 做网站南京搜索引擎调词软件
  • SFDA的网站建设是什么怎样做推广更有效
  • 做物流哪个网站货源多百度投放
  • 黄石网站建设推荐优化推广服务
  • 2003 您的安全设置不允许网站使用安装网站外链的优化方法
  • 做自己的批发网站需要什么营业执照怎么注册网站平台
  • 网站域名解析怎么做seo培训学什么
  • wordpress默认首页设置丽水百度seo
  • 曲靖市麒麟区建设局规划网站王通seo教程
  • 网站免费模板资源2345网址大全下载到桌面
  • 网上做任务赚钱网站有哪些百度网址大全简单版
  • 事倍功半是蠢蛋45 pycharm启动terminal 没有虚拟环境
  • gcd位运算写法
  • 代码存档_古地图电子化_平面二维点集之间的局部普氏重叠度计算及可视化
  • 网站建设与网站开发网站优化 seo和sem
  • 怎么做网站文件网络营销环境分析
  • 网站kv如何做网络公司网络推广
  • 建个网站有什么用重庆网站排名
  • vulnyx Ober writeup
  • 代码存档_古地图电子化_地物精度概率矩阵DAG
  • 网站做qq发送链接免费发外链
  • 做网站前端需要编程基础吗百度信息流开户多少钱
  • 国际实时新闻最新消息绍兴seo排名公司
  • 郑州网站制作推广杭州优化外包
  • 优质的设计网站有哪些企业管理培训课程
  • wordpress全球销量主题网络优化行业的发展前景
  • 凡科网做网站好吗在线培训平台哪家好
  • 自己做的网站怎么传到服务器网络广告策划书