当前位置: 首页 > news >正文

VLA完成度较低,加入世界模型或能收窄不确定性

微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
从刮胡子、刮黄瓜,到挖冰淇淋、穿关东煮串串,具身智能企业穹彻智能让机器人展示出更多才艺。不同的场景,背后的技术难度则完全不同。 穹彻智能联合创始人、上海交通大学人工智能学院副院长卢策吾在世界机器人大会期间对搜狐科技等媒体提到,这是从短时到长时任务的变化,同时也有完成目标的约束,整体难度指数级上升。 成立于2023年的穹彻智能,专注于具身大脑系统的研发。不同于VLA等技术路线,这家公司聚焦以力为中心的具身大脑系统,并推出自研的具身大脑NoematrixBrain。这套系统驱动的机械臂给卢策吾刮胡子的视频,此前引发业内关注。 卢策吾认为,这种技术路线非常适合机器人去处理需要长时间持续接触的任务,包括食材处理、身体护理,以及做家务等。 谈及VLA这种技术路线,他认为其本质是模仿学习,类似概率模型,有很大的不确定性,做起来会面临很大限制,需要加各种各样的技术,包括强化学习、世界模型等。
 
 
添加图片注释,不超过 140 字(可选)
在卢策吾看来,追求机器人的泛化性就是消除世界存在的巨大不确定性,而要想提升泛化性,还需要在数据收集方式、可以提高鲁棒性的模型,以及世界模型等方面发力。 “我不是很喜欢说哪种路线一定是对的,哪种是不对的。一个好的具身智能企业应该做到所有路线都非常强,知道好处坏处,然后用科学的方法去进行很好的融合,但也有自己的特点。” 对于具身智能模型的通用和垂直争议,卢策吾表示,行业大模型会导致推广速度变慢,根本还是要打造通用模型作为底板,这样才能让再训练的成本足够低。 目前,人形机器人企业都在探索商业化路径,有做科研,有做文娱,也有做工厂或商业场景。卢策吾认为,人形机器人会由表演慢慢去干活。“为什么还没有突破呢?还是底层的技术水平没有达到。” 他表示,穹彻智能目前正在规模化起量的阶段。机器人穿关东煮串串或做冰淇淋,可以马上进入生活,只是推广节奏的问题,“技术上是ready的,但还有商业的考虑”。 “如何走进家庭,我们的思考是硬件成本要降到最低,不必要的硬件就不加,先用极简硬件完成部分功能,然后再去推更多功能,最后逐步实现对家庭环境的泛化。” 卢策吾还在交流中谈到了目前具身智能市场的火热和人才培养问题。他表示,具身智能将会诞生可能比互联网更大的产业,但相比大模型以及国外,国内具身智能融资规模并不是很高。这也导致了很多企业在选择技术路线的时候,必须谨慎验证。 作为同时参与中国和美国第一批具身智能博士培养的学者,他提到,第一批具身智能博士将在28年批量毕业,短期内人才会出现空档期。“但随着大量的人才推动,我们有望在AI领域明显领先于美国。” 以下是对话精编: 媒体:不同的机器人企业在展示不同的场景,公司选择的是挖冰激凌、穿关东煮等,为什么会选择这些场景? 卢策吾:这是体现极致的难度。我们把操作分为两类,静态物体操作。目前大家看到的多数是抓取,物体相对固定,力不变,不需要理解物理材质和物理世界。 另一类是持续接触的操作,比如给人洗脸、刮胡子,物体状态和力在持续变化。这对机器人毫秒级的决策,以及对物理世界的理解要求很高,技术难度更大。 刮胡子、刮黄瓜等时间短,可能刮一次就几秒钟或5厘米,我们这次做到了长时接触,刮一次30到40厘米。同时,要对目标负责。比如挖冰激凌要刮成球,有完成态的约束,有长时的约束,同时要理解反馈的力度,从而进行调整,整体难度是指数级上升。 媒体:除了挖冰激凌,还会在其它方面尝试吗? 卢策吾:会有很多,需要长时间持续接触的任务都是需要的。比如食材处理、身体护理等,包括将来让机器人做家务做饭也需要,例如擦特别脏的桌子。 现在的VLA不是不能做,但完成度会比较低。按照我们的方式,只要计算按压力和倾向力,就完全跳出轨迹的范式,擦得会更好,而且还能抵抗不确定性,所以很多任务都会用到。 媒体:目前人形机器人多数还是聚焦单一场景,从泛化能力的提升来说,还有哪些提升空间?关键的技术点有哪些? 卢策吾:泛化有非常多的层面,包括不同的物体,不同状态,不同的步骤等,我觉得还是要找到特别好的数据收集方式,真机收集成本比较高,scale会很麻烦。 另外就是要设计好的模型,提高鲁棒性,泛化能力就会大大提高。还有世界模型,在看到各种物体后如何解析操作,从而消减不确定性,泛化性其实就是消除世界存在的巨大不确定性。 媒体:从您说的消除不确定性或泛化性来说,VLA或世界模型能让技术路线能得到收敛吗? 卢策吾:VLA是一个思路,它可以拆解为三部分,V是视觉理解世界,L是和人类沟通,A是去改造世界。道理上是这么回事,但做起来面临很大的限制,会遇到很多问题。 VLA本质是模仿学习,类似概率模型,不确定性特别大,所以要加各种各样的技术,包括强化学习等。强化学习能使目标更明确,以后我们还会加世界模型,这些都会逐渐去收窄VLA的不确定性。 我不是很喜欢说哪种路线一定是对的,哪种是不对的。一个好的具身智能企业应该做到所有的路线都非常强,知道好处坏处,然后用科学的方法去进行很好的融合,但也有自己的特点。 媒体:公司推出的具身大模型是用真实数据去训练的,还是合成数据? 媒体:有部分合成数据,也有部分是真实数据。具体的比例,不应该是人去定,应该是一套机制去定,由模型算出来,要以结果导向。但我们发现以抓取为核心的能力,仿真数据处理挺好。但需要持续接触的任务,比如擦桌子或刮胡子,更多依赖于真实数据。 媒体:要让机器人更聪明,您认为会沿着什么样的技术路线和节奏来去实现? 卢策吾:今年大家有信心让机器人的智能化大幅提升,就是要想好用什么的数据,以及什么样的规模,还有什么样的大脑结构。 这是综合提高的过程,如果用普通人能看得懂的里程碑,应该是一批技能相对成熟,能去解决一批的场景,然后其它可能不是很成熟,可以再去二次训练,然后又能提高。 媒体:对具身智能模型来说,也有通用模型和行业模型的争议,您怎么看这两种模式? 卢策吾:如果做行业大模型,这个事情的推广速度可能就会变慢。最根本的我觉得还是要把底座模型做好,有通用的模型作为底板,然后到任何行业的时候,可以让产品的成本最低,就是让再训练的成本足够低。 媒体:您怎么看人形机器人企业的商业化问题?公司在商业化方面有哪些进展? 卢策吾:我觉得人形机器人会由表演慢慢去干活,这是共识。这个市场非常大,为什么还没有突破呢?还是底层的技术水平没有达到。我们应该最大化地推进科学前沿,要把科学前沿最大化、最快速度转化为产业的突破,包括产品能力的推进。 我们是唯一能做食材处理任务的公司,正在规模化起量的阶段,和中国最大的食品加工企业达成合作。穿关东煮串串或者做冰淇淋,可以马上进入生活,只是推广节奏的问题,技术上已经ready,但还有商业的考虑。 如何走进家庭,我们的思考是硬件成本要降到最低,不必要的硬件就不加,先用极简硬件完成部分功能,然后再去推更多功能,最后逐步实现对家庭环境的泛化。 媒体:现在工业领域有很多高危岗位,现在人形机器人推广没有预想那么快的原因是什么? 卢策吾:成本能不能更好,良率能不能更好,或者能不能更柔性,所有人形机器人进工厂,都得面临这些拷问。人形机器人如果在这几个方面体现出优势,我相信它是有空间的。 媒体:对创业公司来说,现在进入具身智能赛道算不算晚? 卢策吾:这要看进入的优势,可能得比现有的创业公司有不可比拟、不可超越的优势,无论是技术,还是商业化要明显强于现有的公司。这个门应该是open的,只要有独到之处。 媒体:最近很多机器企业融资,看起来挺热闹,但相较国外其实不够多,怎么看这种差异? 卢策吾:国外的资金密度、人才密度都较高,用人成本也很贵,下一步就是大算力、大数据。我们的资金肯定没有美国创业公司那么充裕,导致会更加用一种节能的方式去做技术路线,每一次就得谨慎验证。 如果钱很多,那么就铺开并行去跑。所以这非常考验每家公司领导者的科学素养,有时候虽然钱少,但是可以通过非常好的科学的见解和视野,能够做一些判断和聚焦。 媒体:有说法称明年有可能是具身智能融资的寒冬,您怎么看? 卢策吾:寒冬一直在喊,但这个事情我也不去做预测,没什么意义。资本的驱动力在于,这是一个非常伟大和宏大的事,回报率很高,将来会诞生可能比互联网更大的产业。 在这样巨大的产业愿景之下,会有源源不断的资本愿意支持。当然,有些资本偏向保守,有些偏向追求高回报。这是行业属性所决定,对比大模型或其它行业,具身智能整体融资体量还是不够多,但行业还是会逐步发展。 媒体:您也在高校,具身智能产学研哪个环节需要亟待去改善和加强?包括人才,跟国外对比看怎么样? 卢策吾:我应该同时参与了中国和美国第一批具身智能博士的人才培养,这批具身智能博士将在28年批量毕业,所以会出现一个空档期。 具身智能的人才培养要跨非常多的学科,需要非常多的技能,要有真实问题、真实场景、好的算力和好的机器人平台一起去做,而且要构建基础的科研平台,快速去证明或者证伪idea。 我建议加速体系化培养人才的力度,这样人才培养的速度就会大幅上升。对中长期的具身智能人才供给,我比较有信心。随着大量的人才推动,我们有望在AI领域明显领先于美国。
 
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
参考文献链接
对话卢策吾:VLA完成度较低,加入世界模型或能收窄不确定性
http://www.sczhlp.com/news/11460/

相关文章:

  • 一文搞懂多模态大模型:视觉-语言模型(VLM)
  • 20250813(补档)
  • 8月集训记
  • 中国高校的AI大神教授盘点
  • VS Code 中把「自己部署的 Coder 模型」变成 AI 编程助手
  • 美版宇树|全球最灵敏人形机器人叠衣服,不只是机械臂!力证VLA模型?
  • AI自我提升的五种技术路径
  • C#记录类型与集合的深度解析:从默认行为到自定义比较
  • 【指南】同时安装vllm与flashinfer
  • 记一次展讯CPU安卓手机刷成砖后的救砖记录
  • Java集合——11.使用PriorityQueue
  • 基础算法
  • C++小白修仙记_快速排序
  • Java集合——10.使用Queue
  • 树链剖分详解(长链剖分)
  • 圆锥曲线二级结论
  • 新版EIDE创建C51_with_keil5模板方法
  • 【日记】2025-8-13
  • 谷歌账号停用申诉 google账户被封如何解封 如何填写申诉理由和找回账号
  • CompletableFuture
  • 大東聰明家App技术支持
  • 【碎碎念】无题
  • 联想Lenovo R7000P-2025款 安装 Ubuntu linux 后没有 mt7925 网卡驱动(网卡不能正常运行或无法识别)的解决方案
  • 【LeetCode 199】力扣算法:二叉树的右视图
  • SPI与菊花链
  • Java集合——9.使用Set
  • vue基础
  • 目标使用过期的TLS1.0 版协议与目标主机支持RSA密钥交换 漏洞修复 系统:windows10 - L-+*
  • python虚拟环境和包管理工具Pipenv详解
  • PG系列:pg_probackup的时间点恢复失败案例分析