德州做网站最好的公司,口碑营销话题,河源哪里做网站,网站改版需要向百度000提交吗Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务#xff0c;并且需要GPU资源#xff0c;可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU#xff0c;按时收费每卡2.6元#xff0c;月卡只需要1.7元每小时并且需要GPU资源可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU按时收费每卡2.6元月卡只需要1.7元每小时并附带200G的免费磁盘空间。通过链接注册并联系客服可以获得20元代金券相当于6-7H的免费GPU资源。欢迎大家体验一下~
0. 简介
在自动驾驶的快速发展领域中准确预测未来事件及评估其含义的能力对于安全性和效率至关重要这对决策过程至关重要。世界模型作为一种变革性方法出现使自动驾驶系统能够合成和解释大量传感器数据从而预测潜在的未来场景并弥补信息缺口。《World Models for Autonomous Driving: An Initial Survey》提供了对自动驾驶中世界模型当前状态和未来进展的初步回顾涵盖了它们的理论基础、实际应用以及旨在克服现有限制的持续研究努力。突出了世界模型在推进自动驾驶技术中的重要作用本调查旨在为研究社区提供一个基础参考便于迅速获取和理解这一新兴领域并激发持续的创新和探索。
1. 还原世界发展
本节概述了世界模型的复杂架构详细说明了它们的关键组成部分及在各项研究中的重要应用。这些模型旨在复制人类大脑的复杂认知过程使自主系统能够以类似于人类思维的方式做出决策和理解其环境。
1.1 世界模型的架构基础
世界模型的架构旨在模拟人类大脑的连贯思考和决策过程集成了几个关键组件
感知模块作为系统的感官输入类似于人类的感官。它采用先进的传感器和编码模块如变分自编码器[VAE]、掩码自编码器[MAE]和离散自编码器[DAE]来处理和压缩环境输入图像、视频、文本、控制命令转换成更易管理的格式。这一模块的有效性对于准确感知复杂、动态环境至关重要促进了模型随后的预测和决策。记忆模块起到类似人类海马体的作用关键在于记录和管理过去、现在和预测的世界状态及其相关的成本或奖励。它通过重放最近的经验支持短期和长期记忆功能这一过程通过将过去的见解纳入未来的决策来增强学习和适应。控制/行动模块负责通过行动与环境互动。它评估世界模型提供的当前状态和预测以确定旨在实现特定目标如最小化成本或最大化奖励的最优行动序列。世界模型模块作为架构的核心执行两个主要功能估计当前世界状态的任何缺失信息和预测环境的未来状态。这种双重能力使系统能够生成一个全面的、预测性的环境模型考虑到不确定性和动态变化。
这些组件共同形成了一个强大的框架使世界模型能够模拟类似人类的认知过程和决策。通过集成这些模块世界模型实现了对其环境的全面和预测性理解这对于开发能够以前所未有的精细度导航和与真实世界互动的自主系统至关重要。 图2代理的世界模型框架图 在高维感官输入场景中世界模型利用潜在动态模型抽象地表示观察到的信息使得在潜在状态空间内进行紧凑的前向预测成为可能。这些潜在状态比直接预测高维数据要空间效率得多感谢深度学习和潜变量模型的进步它们促进了大量并行预测的执行。例如考虑在十字路口一辆汽车方向的不确定性这是真实世界动态固有不可预测性的一个象征性场景。潜变量作为表示这些不确定结果的有力工具为世界模型设定了基于当前状态的未来可能性范围的舞台。这项努力的核心在于协调预测的确定性方面与真实世界现象的内在不确定性之间的平衡这是世界模型效力的中心。
为了应对这一挑战已经提出了多种策略从通过温度变量引入不确定性[12]到采用如循环状态空间模型RSSM[23, 24, 25, 26, 27]和联合嵌入预测架构JEPA[1, 28, 19, 29]等结构化框架。这些方法力图在预测的精确性和灵活性之间找到最佳平衡。此外利用Top-k采样并从基于CNN的模型过渡到变压器架构[30, 14, 31]如变压器状态空间模型TSSM或空间时间片状变压器STPT已显示出通过更好地近似真实世界的复杂性和不确定性来增强模型性能的潜力。这些解决方案努力使世界模型的输出更紧密地与真实世界的可能发展相一致。这种对齐是至关重要的因为与游戏环境相比真实世界有更广泛的影响因素范围和更大程度的未来结果随机性。过分依赖最高概率预测可能导致长期预测中的重复循环。相反预测中的过度随机性可能导致与现实严重偏离的荒谬未来。
特别是RSSM和JEPA是世界模型研究中最广泛使用的核心结构。 图 3潜在动态建模中RNN、SSM和RSSM架构的比较示意图 1.1.1 递归状态空间模型RSSM
递归状态空间模型RSSM[24] 在Dreamer系列世界模型中占据了关键地位旨在仅在潜在空间内进行前向预测。这种创新结构使得模型能够通过潜在状态空间预测其中转换模型内的随机和确定性路径在成功规划中起着关键作用。
图3展示了潜在动态模型在三个时间步骤中的示意图。在最初观察两个时间步骤后模型随后预测第三个。这里随机变量圆圈和确定性变量方块在模型架构内相互作用——实线描绘生成过程而虚线代表推理路径。图3(a)中的初始确定性推理方法揭示了其在捕获多样潜在未来方面的局限性因为其性质是固定的。相反图3(b)中完全随机的方法在跨时间步骤保持信息方面存在挑战鉴于其固有的不可预测性。
RSSM的创新之处在于其将状态分解为随机和确定性组件的策略性如图3©所示有效地利用确定性元素的预测稳定性和随机元素的适应潜力。这种混合结构确保了强大的学习和预测能力同时适应现实世界动态的不可预测性并保持信息的连续性。通过结合RNN的优势和状态空间模型SSM的灵活性RSSM为世界模型建立了一个全面的框架增强了它们预测未来状态的能力实现了精确性和适应性的平衡。
1.1.2 联合嵌入预测架构JEPA
联合嵌入预测架构JEPA[1] 通过专注于表示空间而不是直接的、详细的预测标志着预测建模的范式转变。如图4所示通过将输入x和目标y通过双编码器抽象为表示 s x s_x sx和 s y s_y sy并利用潜变量z进行预测JEPA在效率和准确性上实现了重大飞跃。这个模型擅长过滤掉噪声和不相关信息专注于预测任务的本质。策略性地使用潜变量z来管理不确定性进一步提炼了模型的焦点使其能够以更高的精确度预测抽象结果。通过优先考虑相关特征并接受预测任务的固有不确定性JEPA不仅简化了预测过程而且确保结果既相关又可靠为复杂环境中的预测建模树立了新标准。 图4联合嵌入体系结构、生成体系结构和联合嵌入预测体系结构的比较示意图。 1.2 各种各样的应用
如表1所示世界模型在多样化的环境中展现了无与伦比的表现力尤其在游戏领域它们的能力被突出展示。在竞争激烈的Atari 100k排行榜上世界模型占据了前五名中的四席这些创新架构[15, 31, 14, 32, 33]占据了主导地位。在这些模型中EfficientZero通过显著提高图像增强学习的采样效率利用MuZero的基础原理在短短两小时的训练内实现了与人类相媲美的游戏技能[34]从而脱颖而出。在Minecraft游戏中DreamerV3作为首个自主挖掘钻石的模型这一成就未依赖人类生成的数据或预定义的学习课程归功于其创新的Symlog预测使用通过采用静态的symlog变换[26, 35]使模型能够适应不同环境规模的变化。相反HarmonyDream引入了世界模型学习中损失缩放的动态方法通过复杂的规模、维度和训练动态的精细平衡优化多任务学习效率[33]。DreamerV3的symlog变换与HarmonyDream的动态损失调整的协同整合有潜力进一步提升世界模型的性能和多样性。
基于图像的联合嵌入预测架构(I-JEPA)[29]展示了一种学习高度语义化图像表示的方法而不依赖于手工制作的数据增强。I-JEPA通过使用抽象表示来预测缺失的目标信息有效地消除了不必要的像素级细节。这使得模型能够学习更多的语义特征通过对世界的抽象表示进行自监督学习更准确地分析和完成不完整的图像。除了图像这种架构还在音频基于联合嵌入预测架构(A-JEPA)[28]中展示了高扩展性在多个音频和语音分类任务上设立了新的最先进性能超越了依赖外部监督预训练的模型。
在诸如Fetch[36]、DeepMind控制套件[37]和元世界[38]等机器人操控任务中潜行者探索者成就者(LEXA)[27]通过通过想象同时训练探索者和成就者在40个机器人操作和移动任务中超越了之前的无监督方法。此外在这些任务中L3P[39]设计了一种新颖的算法学习分布在目标空间的潜在地标在三个机器人操控环境中实现了学习速度和测试时间泛化的主导性能。谷歌团队将世界模型的概念创新性地应用于机器人导航任务利用它们获取有关周围环境的信息并使智能代理能够预测其在特定情境中行为的后果。Pathdreamer在机器人导航中的实现利用世界模型增强了环境意识和预测规划通过其对3D点云环境表示的创新使用实现了导航成功率的显著提升[40]。此外SafeDreamer将基于拉格朗日的方法融入Dreamer框架中用于安全强化学习展示了高性能、低成本安全应用的可行性[41]。
世界模型的快速训练能力如DayDreamer在现实世界机器人学习效率中的示范与传统方法形成鲜明对比突显了这些模型在加速学习过程和提高性能方面的变革潜力。在虚拟场景和视频生成中SORA和Genie引领了这一领域的进步。SORA能够从多样化的提示中产生连贯的高清视频代表了向模拟复杂世界动态迈出的重要一步。尽管在物理交互模拟方面面临挑战但SORA的一致的3D空间表示强调了其作为基础世界模型的潜力[44]。Genie的互动环境生成尽管在视频质量方面不如SORA先进但引入了用户驱动的世界操纵的新维度为世界模型在创造沉浸式、可控虚拟现实中的未来应用提供了一瞥[45]。
这一全面审视强调了世界模型的卓越多样性和前沿进展展示了它们在推动游戏、机器人、虚拟环境生成等方面创新的基础作用。这些模型的能力与动态适应和多领域泛化的融合预示着AI的新时代世界模型不仅作为特定任务的工具而且作为更广泛探索、学习和发现的平台。 2. 自动驾驶的世界模型
本节深入探讨了世界模型在自动驾驶领域的变革性应用强调了它们在环境理解、动态预测以及阐明控制运动的物理原则方面的关键贡献。作为世界模型应用的新兴前沿自动驾驶领域呈现出独特的挑战和机遇以利用这些先进的计算框架。尽管对这一领域的兴趣日益增长但世界模型在自动驾驶中的整合主要围绕场景生成、规划和控制机制这些领域正等待着探索和创新。 图5自动驾驶流程中的世界模型 2.1 驾驶场景生成
在自动驾驶中获取数据面临着重大挑战包括数据收集和标注的高成本、法律限制和安全考虑。通过自我监督学习范式世界模型提供了一个有希望的解决方案使得从大量未标记数据中提取有价值的见解成为可能从而以成本效益的方式提高模型性能。世界模型在驾驶场景生成中的应用尤其值得注意因为它促进了多样化和逼真的驾驶环境的创建。这一能力显著丰富了训练数据集使自动系统具备了导航稀有和复杂驾驶场景的韧性。
GAIA-1[54]代表了一种能够使用视频、文本和动作输入创建逼真驾驶视频的新型自动生成AI模型。通过在Wayve的英国城市的大量真实驾驶数据上的训练GAIA-1学习并理解了一些真实世界的规则和驾驶场景中的关键概念包括不同类型的车辆、行人、建筑和基础设施。它可以根据几秒钟的视频输入预测和生成后续的驾驶场景。值得注意的是生成的未来驾驶场景并不紧密地依赖于提示视频而是基于GAIA-1对世界规则的理解。通过使用核心的自回归变换网络GAIA-1根据输入图像、文本和动作token预测即将到来的图像token然后将这些预测解码回像素空间。GAIA-1可以预测多种可能的未来并根据提示生成多样化的视频或特定的驾驶场景例如改变天气、场景、交通参与者、车辆动作甚至包括超出其训练集的动作和场景例如强制进入人行道。这展示了其理解和推断训练集中不存在的驾驶概念的能力。在现实世界中由于其风险性这类驾驶行为很难获取数据。驾驶场景生成允许进行模拟测试丰富数据组成增强系统在复杂场景中的能力并更好地评估现有的驾驶模型。此外GAIA-1生成连贯的动作并有效捕捉3D几何结构的视角影响展示了其对上下文信息和物理规则的理解。
…详情请参照古月居