当前位置：首页 > news >正文

校园微信网站模板腾讯云怎样建设网站

news 2025/11/3 21:40:52

校园微信网站模板,腾讯云怎样建设网站,网站开发软件培训,怎么制作二维码我自己的原文哦~ https://blog.51cto.com/whaosoft/11870502 #自动驾驶数据闭环最前沿论文近几年#xff0c;自动驾驶技术的发展日新月异。从ECCV 2020的NeRF问世再到SIGGRAPH 2023的3DGS#xff0c;三维重建走上了快速发展的道路#xff01;再到自动驾驶端到端技术的…我自己的原文哦~ https://blog.51cto.com/whaosoft/11870502 #自动驾驶数据闭环最前沿论文近几年自动驾驶技术的发展日新月异。从ECCV 2020的NeRF问世再到SIGGRAPH 2023的3DGS三维重建走上了快速发展的道路再到自动驾驶端到端技术的问世与之相关的仿真闭环开始频繁出现在大众视野中新兴的三维重建技术由此在自动驾驶领域也逐渐焕发新机。2023年8月特斯拉发布FSD V122024年4月商汤绝影发布面向量产的端到端自动驾驶解决方法UniAD2024年7月理想夏季发布会宣称端到端正式上车快系统4D One Model、慢系统VLM并首次提出『重建生成』的世界模型测试方案。可以说端到端仿真闭环是当下自动驾驶发展的主流路线。但是仿真闭环提了很多年到底什么是仿真闭环仿真闭环的核心又是什么三维重建又在闭环中起到什么样的作用业内也一直在讨论百花齐放。无论如何闭环的目的是明确的降低实车测试的成本和风险、有效提高模型的开发效率进而优化系统性能、测试各种corner case并优化整个端到端算法。今天就和大家盘一盘自动驾驶中新兴的三维重建技术相关算法。 MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous DrivingCICAI 2023 论文链接https://arxiv.org/abs/2307.15058v1代码链接https://github.com/OPEN-AIR-SUN/mars 清华AIR提出的首个开源自动驾驶NeRF仿真工具如今自动驾驶汽车在普通情况下可以平稳行驶人们普遍认为逼真的传感器仿真将在通过仿真解决剩余的corner case方面发挥关键作用。为此我们提出了一种基于神经辐射场NeRFs的自动驾驶仿真器。与现有的工作相比我们有三个显著的特点 Instance-aware前景目标和背景单独建模因此可以保证可控性Modular模块化设计便于集成各种SOTA的算法进来Realistic由于模块化的设计不同模块可以灵活选择比较好的算法实现因此效果SOTA。 UniSim: A Neural Closed-Loop Sensor SimulatorCVPR 2023 论文链接https://arxiv.org/abs/2308.01898v1项目主页https://waabi.ai/unisim/ Waabi和多伦多大学在CVPR 2023上的工作严格测试自动驾驶系统对于实现安全的自动驾驶汽车SDV至关重要。它要求人们生成超出世界上安全收集范围的安全关键场景因为许多场景很少发生在公共道路上。为了准确评估性能我们需要在闭环中测试这些场景中的SDV其中SDV和其他参与者在每个时间步相互作用。以前记录的驾驶日志为构建这些新场景提供了丰富的资源但对于闭环评估我们需要根据新的场景配置和SDV的决定修改传感器数据因为可能会添加或删除参与者现有参与者和SDV之间的轨迹将与原始轨迹不同。本文介绍了UniSim这是一种神经传感器模拟器它将配备传感器的车辆捕获的单个记录日志转换为现实的闭环多传感器模拟。UniSim构建神经特征网格来重建场景中的静态背景和动态参与者并将它们组合在一起以在新视角仿真LiDAR和相机数据添加或删除参与者以及新的位置。为了更好地处理外推视图我们为动态目标引入了可学习的先验并利用卷积网络来完成看不见的区域。我们的实验表明UniSim可以在下游任务中模拟具有较小域间隙的真实传感器数据。通过UniSim我们演示了在安全关键场景下对自主系统的闭环评估就像在现实世界中一样。UniSim的主要贡献如下高度逼真(high realism): 可以准确地模拟真实世界(图片和LiDAR), 减小鸿沟(domain gap )闭环测试(closed-loop simulation): 可以生成罕见的危险场景测试无人车, 并允许无人车和环境自由交互可扩展 (scalable): 可以很容易的扩展到更多的场景, 只需要采集一次数据, 就能重建并仿真测知乎解读https://zhuanlan.zhihu.com/p/636695025一作直播https://www.bilibili.com/video/BV1nj41197TZ EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 论文链接https://arxiv.org/abs/2311.02077v1代码链接https://github.com/NVlabs/EmerNeRF 加利福尼亚大学的工作本文提出了EmerNeRF这是一种简单而强大的学习动态驾驶场景时空表示的方法。EmerNeRF以神经场为基础通过自举同时捕获场景几何、外观、运动和语义。EmerNeRF依赖于两个核心组件首先它将场景划分为静态和动态场。这种分解纯粹源于自监督使我们的模型能够从一般的、野外的数据源中学习。其次EmerNeRF将动态场中的感应流场参数化并使用该流场进一步聚合多帧特征从而提高了动态目标的渲染精度。耦合这三个场静态、动态和流使EmerNeRF能够自给自足地表示高度动态的场景而无需依赖GT标注或预先训练的模型进行动态目标分割或光流估计。我们的方法在传感器仿真中实现了最先进的性能在重建静态2.93 PSNR和动态3.70 PSNR场景时明显优于以前的方法。此外为了支持EmerNeRF的语义泛化我们将2D视觉基础模型特征提升到4D时空中并解决了现代变形金刚中的普遍位置偏差问题显著提高了3D感知性能例如职业预测精度平均相对提高了37.50%。最后我们构建了一个多样化且具有挑战性的120序列数据集用于在极端和高度动态的环境下对神经场进行基准测试。总结来说本文的主要贡献如下 EmerNeRF是一种新颖的4D神经场景表示框架在具有挑战性的自动驾驶场景中表现出色。EmerNeRF通过自监督执行静态动态分解和场景流估计一种简化的方法可以解决ViT中位置嵌入图案的不良影响该方法可立即应用于其他任务;我们引入NOTR数据集来评估各种条件下的神经场并促进该领域的未来发展;EmerNeRF在场景重建、新视角合成和场景流估计方面实现了最先进的性能。 NeuRAD: Neural Rendering for Autonomous Driving 论文链接https://arxiv.org/abs/2311.15260v3代码链接https://github.com/georghess/neurad-studio Zenseact的工作神经辐射场NeRF在自动驾驶AD领域越来越受欢迎。最近的方法表明NeRF具有闭环仿真的潜力能够测试AD系统并作为一种先进的训练数据增强技术。然而现有的方法通常需要较长的训练时间、密集的语义监督或缺乏可推广性。这反过来又阻止了NeRFs大规模应用于AD。本文提出了NeuRAD这是一种针对动态AD数据量身定制的鲁棒新型视图合成方法。我们的方法具有简单的网络设计对相机和激光雷达进行了广泛的传感器建模包括滚动快门、光束发散和光线下降适用于开箱即用的多个数据集。我们在五个流行的AD数据集上验证了它的性能全面实现了最先进的性能。 DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes 论文链接https://arxiv.org/abs/2312.07920v3项目主页https://pkuvdig.github.io/DrivingGaussian/ 北大谷歌的工作本文提出了DrivingGaussian模型这是一个用于环视动态自动驾驶场景的高效和有效的框架。对于具有运动目标的复杂场景DrivingGaussian首先使用增量静态3D高斯对整个场景的静态背景进行顺序和渐进的建模。然后利用复合动态高斯图来处理多个运动目标分别重建每个目标并恢复它们在场景中的准确位置和遮挡关系。我们进一步使用激光雷达先验进行 Gaussian Splatting以重建具有更多细节的场景并保持全景一致性。DrivingGaussian在动态驱动场景重建方面优于现有方法能够实现高保真度和多相机一致性的逼真环绕视图合成。总结来说本文的主要贡献如下据我们所知DrivingGaussian是基于复合Gaussian Splatting的大规模动态驾驶场景的第一个表示和建模框架引入了两个新模块包括增量静态3D高斯图和复合动态高斯图。前者逐步重建静态背景而后者用高斯图对多个动态目标进行建模。在激光雷达先验的辅助下所提出的方法有助于在大规模驾驶场景中恢复完整的几何形状综合实验表明Driving Gaussian在挑战自动驾驶基准测试方面优于以前的方法并能够为各种下游任务进行角情况仿真 Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian SplattingECCV 2024 论文链接https://arxiv.org/abs/2401.01339v2代码链接https://github.com/zju3dv/street_gaussians 浙大理想在ECCV 2024上的工作本文旨在解决自动驾驶场景中动态城市街道的建模问题。最近的方法通过将跟踪的车辆姿态结合到车辆动画中来扩展NeRF实现了动态城市街道场景的照片级逼真视图合成。然而它们的训练速度和渲染速度都很慢。为此本文引入了Street Gaussians这是一种新的显式场景表示可以解决这些限制。具体来说动态城市场景被表示为一组配备语义逻辑和3D高斯的点云每个点云都与前景车辆或背景相关联。为了仿真前景目标车辆的动力学每个目标点云都使用可优化的跟踪姿态进行优化并使用4D球谐模型进行动态外观优化。显式表示允许轻松组合目标车辆和背景这反过来又允许在半小时的训练内以135 FPS1066×1600分辨率进行场景编辑操作和渲染。该方法在多个具有挑战性的基准上进行了评估包括KITTI和Waymo Open数据集。实验表明在所有数据集上所提出的方法始终优于最先进的方法。 GaussianPro: 3D Gaussian Splatting with Progressive Propagation 论文链接https://arxiv.org/abs/2402.14650v1代码链接https://github.com/kcheng1021/GaussianPro 中科大港大的工作3DGS的出现最近在神经渲染领域带来了一场革命促进了实时速度的高质量渲染。然而3DGS在很大程度上依赖于运动结构SfM技术产生的初始化点云。当处理不可避免地包含无纹理曲面的大规模场景时SfM技术总是无法在这些曲面上产生足够的点也无法为3DGS提供良好的初始化。因此3DGS存在优化困难和渲染质量低的问题。在这篇论文中受经典多视图立体MVS技术的启发我们提出了GaussianPro这是一种应用渐进传播策略来指导3D Gaussian致密化的新方法。与3DGS中使用的简单分割和克隆策略相比我们的方法利用场景现有重建几何的先验和补丁匹配技术来生成具有精确位置和方向的新高斯分布。在大规模和小规模场景上的实验验证了我们方法的有效性我们的方法在Waymo数据集上显著超过了3DGS在PSNR方面提高了1.15dB。 LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes 论文链接https://arxiv.org/abs/2405.00900v2 加州大学欧文分校的工作真实仿真在自动驾驶等应用中起着至关重要的作用神经辐射场NeRF的进步可以通过自动创建数字3D资产来实现更好的可扩展性。然而由于共线相机的大运动和高速下的稀疏样本街道场景的重建质量会受到影响。另一方面实际使用通常要求从偏离输入的相机视图进行渲染以准确模拟车道变换等行为。在这篇论文中我们提出了几个见解可以更好地利用激光雷达数据来提高街道场景的NeRF质量。首先我们的框架从激光雷达中学习几何场景表示将其与隐式基于网格的表示融合用于辐射解码然后提供显式点云提供的更强几何信息。其次提出了一种鲁棒的遮挡感知深度监督方案该方案允许通过累积来利用密集的激光雷达点。第三本文从激光雷达点生成增强训练视图以进一步改进。我们的见解转化为在真实驾驶场景下大大改进的新视图合成。 Gaussian: Self-Supervised Street Gaussians for Autonomous Driving 论文链接https://arxiv.org/abs/2405.20323v1 UC Berkeley北大清华的工作街道场景的真实感3D重建是开发自动驾驶仿真的关键技术。尽管神经辐射场NeRF在驾驶场景中的效率很高但3DGS因其更快的速度和更明确的表示而成为一个有前景的方向。然而大多数现有的街道3DGS方法需要跟踪的3D车辆边界框来分解静态和动态元素以进行有效的重建这限制了它们在自由场景中的应用。为了在没有标注的情况下实现高效的3D场景重建我们提出了一种自监督街道高斯S3Gaussian方法用于从4D一致性中分解动态和静态元素。我们用3D高斯分布来表示每个场景以保持其明确性并进一步用时空场网络来压缩4D动力学模型。我们在具有挑战性的Waymo Open数据集上进行了广泛的实验以评估我们方法的有效性。我们的S3Gaussian展示了分解静态和动态场景的能力并在不使用3D标注的情况下实现了最佳性能。 Dynamic 3D Gaussian Fields for Urban Areas 论文链接https://arxiv.org/abs/2406.03175v1代码链接https://github.com/tobiasfshr/map4d待开源 ETH和Meta的工作本文提出了一种高效的神经3D场景表示方法用于大规模动态城市地区的新视图合成NVS。由于其有限的视觉质量和非交互式渲染速度现有工作品不太适合混合现实或闭环仿真等应用。最近基于光栅化的方法以令人印象深刻的速度实现了高质量的NVS。然而这些方法仅限于小规模、均匀的数据即它们无法处理由于天气、季节和光照引起的严重外观和几何变化也无法扩展到具有数千张图像的更大、动态的区域。我们提出了4DGF这是一种神经场景表示可扩展到大规模动态城市区域处理异构输入数据并大大提高了渲染速度。我们使用3D高斯作为高效的几何支架同时依赖神经场作为紧凑灵活的外观模型。我们通过全局尺度的场景图集成场景动力学同时通过变形在局部层面建模关节运动。这种分解方法实现了适用于现实世界应用的灵活场景合成。在实验中我们绕过了最先进的技术PSNR超过3dB渲染速度超过200倍。 StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views 论文链接https://arxiv.org/abs/2306.04988v1代码链接https://github.com/pjlab-ADG/neuralsim 上海AI Lab和商汤的工作本文提出了一种新的多视图隐式表面重建技术称为StreetSurf该技术很容易应用于广泛使用的自动驾驶数据集中的街景图像如Waymo感知序列而不一定需要LiDAR数据。随着神经渲染研究的迅速发展将其整合到街景中开始引起人们的兴趣。现有的街景方法要么主要关注新视图合成很少探索场景几何要么在研究重建时严重依赖密集的LiDAR数据。他们都没有研究多视图隐式表面重建特别是在没有激光雷达数据的情况下。我们的方法扩展了现有的以目标为中心的神经表面重建技术以解决由非以目标为核心、长而窄的相机轨迹捕获的无约束街景所带来的独特挑战。我们将无约束空间划分为近距离、远景和天空三个部分具有对齐的长方体边界并采用长方体/超长方体哈希网格以及路面初始化方案以实现更精细和更复杂的表示。为了进一步解决无纹理区域和视角不足引起的几何误差我们采用了使用通用单目模型估计的几何先验。再加上我们实施了高效细粒度的多级光线行进策略我们使用单个RTX3090 GPU对每个街道视图序列进行训练仅需一到两个小时的时间即可在几何和外观方面实现最先进的重建质量。此外我们证明了重建的隐式曲面在各种下游任务中具有丰富的潜力包括光线追踪和激光雷达模拟。 AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction 论文链接https://arxiv.org/abs/2407.02598v2 多伦多大学和华为诺亚的工作逼真的场景重建和视图合成对于通过仿真安全关键场景来推进自动驾驶系统至关重要。3DGS在实时渲染和静态场景重建方面表现出色但由于复杂的背景、动态对象和稀疏视图在建模驾驶场景方面遇到了困难。我们提出了AutoPlat这是一个采用Gaussian Splatting实现自动驾驶场景高度逼真重建的框架。通过对表示道路和天空区域的高斯分布图施加几何约束我们的方法能够对包括车道变换在内的具有挑战性的场景进行多视图一致的模拟。利用3D模板我们引入了反射高斯一致性约束来监督前景对象的可见面和不可见面。此外为了模拟前景对象的动态外观我们估计了每个前景高斯的残差球面谐波。在Pandaset和KITTI上进行的大量实验表明AutoPlat在各种驾驶场景中的场景重建和新颖视图合成方面优于最先进的方法。 DHGS: Decoupled Hybrid Gaussian Splatting for Driving Scene 论文链接https://arxiv.org/abs/2407.16600v3 长安汽车的工作现有的GS方法在实现驾驶场景中令人满意的新视图合成方面往往不足主要是由于缺乏巧妙的设计和所涉及元素的几何约束。本文介绍了一种新的神经渲染方法称为解耦混合GSDHGS旨在提高静态驾驶场景新型视图合成的渲染质量。这项工作的新颖之处在于针对道路和非道路层的解耦和混合像素级混合器没有针对整个场景的传统统一差分渲染逻辑同时通过提出的深度有序混合渲染策略仍然保持一致和连续的叠加。此外对由符号距离场SDF组成的隐式道路表示进行训练以监控具有微妙几何属性的路面。伴随着辅助传输损耗和一致性损耗的使用最终保留了具有不可察觉边界和高保真度的新图像。在Waymo数据集上进行的大量实验证明DHGS的性能优于最先进的方法。 #BEVTransformer VS Occupancy Prediction 传统的 3D 场景理解方法集中在 3D 目标检测上难以描述真实世界物体3D 占用网络可更全面地实现 3D 场景感知。自动驾驶在动静态障碍物感知领域的发展大概分为三个阶段12D图像空间检测障碍物映射到鸟瞰空间做多相机和时序融合2直接在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模3直接在3D空间中感知占用关系为系统规划可行驶空间。论文和算法综述论文《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》。MonoScene首个单目 3D 语义占用预测算法是后续算法的 baseline。 TPVFormer以环视图像为输入提出三视角表示法和 TPVFormer 模型实现 3D 占用预测。SurroundOcc从多个相机的 RGB 图像中实现 3D 语义占用预测。 OccFormer使用双路 transformer 结构处理相机数据生成的 3D 体素特征。VoxFormer支持单帧或多帧图像数据输入特点是轻量级对小目标检测效果好但远距离性能需提升。 OccupancyDETR由目标检测网络和 3D 占用解码器模块组成对小目标检测性能好速度快计算资源消耗少但对某些类别的预测效果不好。FB - OCC由 FB - BEV 算法衍生而来设计了视图变换模块并对模型预训练技术进行精心设计为参加比赛设计略显笨重。BEVDet - Occ从 BEVDet 衍生到 Occupancy Prediction 任务但论文暂无。SimpleOccupancy采用自监督的方式实现 3D 占用预测。SparseOcc相关解读文章链接为https://zhuanlan.zhihu.com/p/709576252和https://zhuanlan.zhihu.com/p/691549750。SelfOcc希望仅使用视频序列采用自监督学习的方式实现 3D 语义占用预测以降低模型训练难度。OccNeRF采用自监督学习方式实现基于多相机数据输入的 3D 语义占用预测。RenderOcc从多视图图像中提取 NeRF 风格的 3D 体积表示减少对昂贵的 3D 占用标注的依赖。SGN提出新型的端到端基于纯视觉的 3D 占用预测框架 SGN采用密集 - 稀疏 - 密集的设计。FlashOcc通过用 2D 卷积替换 3D 卷积和用通道 - 高度变换替换占用预测来提升现有模型速度快计算资源消耗少方便部署。POP3D相关信息包括论文、代码和数据集。FastOcc暂未开源。Co - Occ提出基于激光 - 相机数据的多模态 3D 占用预测算法。OccGen提出一种 noise - to - occupancy 的生成式 3D 占用预测算法代码 coming soon。Cam4DOcc基于相机和毫米波雷达的多模态 3D 感知框架实现 3D 目标检测、语义占用预测多任务感知。MonoOcc提出一个单目 3D 占用预测算法框架通过辅助语义损失和图像条件交叉注意力模块改进效果采用蒸馏模块。HyDRa基于相机和毫米波雷达的多模态 3D 感知框架实现 3D 目标检测、语义占用预测多任务感知。PanoOcc通过基于纯视觉的 3D 全景分割解决自动驾驶感知任务分治的限制实现仅限摄像头的 3D 场景理解的统一占用表示。GaussianFormer暂时只放出 demo。ViewFormer开源了可视化工具可以对点云目标检测、Occ 预测结果等进行可视化。HTCL相关信息包括论文和代码。Panoptic - FlashOcc在 FlashOcc 的基础上实现了全景占用是目前速度和精度最优的全景占用预测网络。COTR相关信息包括论文和代码。 3D 占用预测算法的发展历程早期阶段传统的 3D 场景理解方法大多数集中在 3D 目标检测上难以全面描述真实世界物体。引入 3D 占用网络特斯拉在 2022 年提出 3D 占用网络Occupancy Network借鉴机器人领域的占用网格建图思想通过预测 3D 空间中的占用概率来实现 3D 空间表示更全面地实现 3D 场景感知。算法不断涌现MonoScene首个单目 3D 语义占用预测算法成为后续算法的 baseline。TPVFormer以环视图像为输入提出三视角表示法和 TPVFormer 模型。SurroundOcc从多个相机的 RGB 图像中实现 3D 语义占用预测。OccFormer使用双路 transformer 结构处理相机数据生成的 3D 体素特征。VoxFormer支持单帧或多帧图像数据输入具有轻量级等特点。OccupancyDETR由目标检测网络和 3D 占用解码器模块组成。FB - OCC由 FB - BEV 算法衍生而来对视图变换模块和模型预训练技术进行设计。其他算法如 SimpleOccupancy、SparseOcc、SelfOcc、OccNeRF、RenderOcc、SGN、FlashOcc 等算法不断提出各自具有不同的特点和创新。多模态和自监督学习的发展出现了基于激光 - 相机数据的多模态 3D 占用预测算法如 Co - Occ以及采用自监督学习方式的算法如 SelfOcc、OccNeRF 等以降低模型训练难度。近期发展不断有新的算法提出如 Cam4DOcc、MonoOcc、HyDRa、PanoOcc、GaussianFormer、ViewFormer、HTCL、Panoptic - FlashOcc、COTR 等算法在性能、精度、速度等方面不断提升应用场景也逐渐扩展。数据集 SemanticKITTI下载地址为https://opendatalab.com/OpenDataLab/SemanticKITTI。Occ3D基于 Waymo 和 nuScenes 数据集构建。OpenOccupancy基于 nuScenes 数据集构建。OpenOcc基于 nuScenes 数据集构建。SSCBench基于 KITTI - 360、nuScenes、Waymo 等数据集构建。OpenScene具有 Occupancy Flow 标签。LightwheelOcc合成数据集。两者的主要区别传感器依赖方面的区别参考文献自动驾驶3D占用预测Occupancy Prediction算法调研mp.weixin.qq.com/s/M1J8aFOS2GZ32JRCpraQcQ Occupancy任务| 自动驾驶感知的最后一道护城河mp.weixin.qq.com/s/4tpoKA7rDpcF4oATpxfBPg #FAST-LIVO2 港大强势登场快速、直接的LiDAR-惯性-视觉里程计多传感器使用的挑战视觉SLAM利用成本较低的CMOS传感器和镜头能够建立精确的数据关联从而实现一定水平的定位精度。丰富的颜色信息进一步增强了语义感知通过利用这种增强的场景理解深度学习方法能够用于提取稳健的特征以及过滤动态物体。视觉SLAM的局限性缺乏直接的深度测量需要通过如三角测量或深度过滤等操作来同时优化地图点这引入了显著的计算开销往往限制了地图的精度和密度测量噪声在不同尺度下的变化对光照变化的敏感性无纹理环境对数据关联的影响 LiDAR SLAM使用LiDAR传感器直接获取精确的深度测量与视觉SLAM相比LiDAR SLAM在定位和建图任务中表现出更高的精度和效率。尽管如此LiDAR SLAM也存在显著的缺点重建的点云地图虽然详细但缺乏颜色信息从而减少了它们所包含的信息量在几何约束不足的环境中如狭窄的隧道或单一且延伸的墙面LiDAR SLAM的性能往往会大幅下降高效且准确的LiDAR-惯性-视觉里程计LIVO和建图仍然是一个具有挑战性的问题整个LIVO系统需要处理LiDAR测量数据每秒数百到数千个点以及高频率、高分辨率的图像。为了充分利用这些大量数据特别是在有限的机载资源下需要极高的计算效率许多现有系统通常采用LiDAR-惯性里程计LIO子系统和视觉-惯性里程计VIO子系统各自需要从视觉和LiDAR数据中提取特征以减少计算负荷。然而在缺乏结构或纹理的环境中这一特征提取过程往往导致特征点的不足。此外为了优化特征提取还需要进行广泛的工程调整以适应LiDAR扫描模式和点密度的变化为了减少计算需求并实现摄像头和LiDAR测量的更紧密集成需要一个统一的地图来同时管理稀疏点和观察到的高分辨率图像测量。然而设计和维护这样一个地图是一个特别具有挑战性的任务考虑到LiDAR和摄像头的异构测量数据为了确保重建的彩色点云的准确性姿态估计需要达到像素级的精度。实现这一标准带来了相当大的挑战合适的硬件同步、LiDAR和摄像头之间外部参数的严格预校准、曝光时间的精确恢复以及能够在实时中达到像素级精度的融合策略。本文介绍的FAST-LIVO2是一种高效的LIVO系统紧密集成了LiDAR、图像和IMU测量通过顺序更新的误差状态迭代卡尔曼滤波器ESIKF 利用IMU传播的先验系统状态首先通过LiDAR测量更新然后通过图像测量更新两个更新过程都利用基于单一统一体素地图的直接方法。在LiDAR更新过程中系统将原始点注册到地图上以构建和更新几何结构在视觉更新过程中系统直接将LiDAR地图点重新利用为视觉地图点而无需从图像中提取、三角化或优化任何视觉特征。地图中的选定视觉地图点附有先前观察到的参考图像补丁然后投影到当前图像中通过最小化直接光度误差来对齐姿态即稀疏图像对齐。为了提高图像对齐的准确性FAST-LIVO2动态更新参考补丁并使用LiDAR点提供的平面先验。为了提高计算效率FAST-LIVO2使用LiDAR点来识别当前图像中可见的视觉地图点并在没有LiDAR点的情况下按需进行体素光线投射。FAST-LIVO2还实时估算曝光时间以应对光照变化。整体系统图2展示了系统流程系统包含四个部分ESIKF、局部建图、LiDAR测量模型和视觉测量模型。异步采样的LiDAR点首先通过扫描重组在摄像头采样时间点上重新组合成扫描数据。然后通过顺序更新的ESIKF紧密结合LiDAR、图像和惯性测量IMU。在此过程中系统状态首先通过LiDAR测量进行更新然后通过图像测量进行更新这两个过程都基于单一的统一体素地图并采用直接方法。为了构建ESIKF更新中的LiDAR测量模型计算了帧到地图的点到平面残差。为了建立视觉测量模型从地图中提取当前视野中的视觉地图点利用可见体素查询和按需光线投射在提取之后识别并剔除视觉地图点中的离群点例如被遮挡的点或深度不连续的点然后计算帧到地图的图像光度误差以进行视觉更新。用于视觉和LiDAR更新的局部地图是一个体素地图结构LiDAR点用于构建和更新地图的几何结构而视觉图像将图像补丁附加到选定的地图点即视觉地图点上并动态更新参考补丁。更新后的参考补丁会在独立线程中进一步细化其法线向量。具有顺序状态更新的误差状态迭代卡尔曼滤波器符号和状态转移模型系统假设三个传感器LiDAR、IMU和摄像头之间的时间偏移是已知的并且可以通过校准或提前同步来获得。将IMU坐标系记作I作为机体坐标系并将第一个机体坐标系作为全局坐标系记作G。此外假设这三个传感器是刚性连接的且其外参已经预先校准。然后第i个IMU测量时刻的离散状态转移模型为其中是IMU的采样周期状态、输入、过程噪声和函数其中、和分别表示IMU在全局坐标系中的姿态、位置和速度是全局坐标系中的重力向量是相对于第一个帧的逆曝光时间是建模为随机游走的高斯噪声和是IMU的原始测量值和分别是和中的测量噪声和扫描重组通过扫描重组将高频、顺序采样的LiDAR原始点云重新组合成与摄像头采样时刻同步的扫描数据如图3所示。这确保了摄像头和LiDAR数据以相同的频率例如10 Hz进行同步从而允许在同一时间点更新状态。传播在ESIKF框架中状态和协方差从时间接收到上一个LiDAR扫描和图像帧的时刻传播到时间接收到当前LiDAR扫描和图像帧的时刻。这种前向传播通过设置过程噪声为零来预测每个IMU输入在和之间的状态。将传播状态记作和协方差记作它们将作为随后的更新的先验分布。此外为了补偿运动畸变进行反向传播确保点在LiDAR扫描结束时刻顺序更新 IMU传播得到的状态和协方差提供了时间点系统状态将上述先验分布记作并将LiDAR和摄像头的测量模型表示为其中和标准的ESIKF将使用所有当前测量数据包括LiDAR测量和图像测量来更新状态。然而LiDAR和图像测量是两种不同的感知方式它们的数据维度不匹配。此外图像测量的融合可以在图像金字塔的各个层次上进行。为了处理维度不匹配并为每个模块提供更多灵活性提出了一种顺序更新策略。该策略理论上等同于使用所有测量值的标准更新前提是给定状态向量的LiDAR测量和图像测量为了引入顺序更新将当前状态公式5表明总条件分布可以通过两次顺序贝叶斯更新得到。第一步仅融合LiDAR测量与IMU传播的先验分布以获得分布第二步然后融合摄像头测量与有趣的是两个融合步骤6和7遵循相同的形式为了进行公式8中的融合无论是LiDAR还是图像测量详细介绍先验分布和测量模型如下。对于先验分布将其表示为且。在LiDAR更新的情况下即第一步和是从传播步骤中获得的状态和协方差。在视觉更新的情况下即第二步和为了得到测量模型分布将状态在第κ次迭代中的估计表示为 κ其中。通过在 κ 其中 κκ κ 是残差κ 是集成的测量噪声κ 和 κ 分别是 κκ 对 κ 和然后将先验分布和测量分布代入后验分布8并执行最大似然估计MLE可以通过ESIKF框架中的标准更新步骤获得δ κ从而获得 κ的最大后验估计MAP 收敛的状态和协方差矩阵然后作为后验分布 ESIKF的顺序更新的具体实现详见算法1。在第一步第6-10行通过迭代从LiDAR测量中更新误差状态直到收敛。收敛的状态和协方差估计再次记作和用于更新地图的几何结构然后在第二步视觉更新中第13-23行在图像金字塔的每个层次上进一步细化直到收敛。优化后的状态和协方差分别记作和用于传播后续IMU测量并更新地图的视觉结构。局部建图地图结构地图采用了自适应体素结构该结构由哈希表和每个哈希条目的八叉树组成见图2。哈希表管理根体素每个根体素的固定尺寸为0.5 × 0.5 × 0.5米。每个根体素封装了一个八叉树结构用于进一步组织不同大小的叶体素。一个叶体素表示一个局部平面存储一个平面特征即平面中心、法线向量和不确定性以及位于该平面上的一组LiDAR原始点。这些点中的一些附有三层图像补丁补丁尺寸为8 × 8称之为视觉地图点。收敛的视觉地图点仅附有参考补丁而未收敛的点附有参考补丁和其他可见补丁。叶体素的大小可变使其能够适应不同结构的环境。为了防止地图尺寸无限增长仅保留一个局部地图范围为LiDAR当前所在位置周围长度为L的区域如图4中的二维示例所示。最初地图是以LiDAR起始位置p0为中心的立方体。LiDAR的探测区域表示为以其当前位置为中心的球体其半径由LiDAR的探测范围决定。当LiDAR移动到新位置p1使得探测区域触及地图边界时我们将地图从边界向外移动距离d。随着地图的移动超出局部地图范围的区域所占用的内存将被重置用于存储移动进来的新区域。这种环形缓冲区方法确保我们的局部地图维持在固定大小的内存中。地图移动检查在每次ESIKF更新步骤后进行。几何结构的构建与更新在ESIKF中的LiDAR更新之后将扫描中的所有点注册到全局坐标系中。对于每个注册的LiDAR点确定其所在的哈希表中的根体素。如果该体素不存在用新点初始化该体素并将其索引到哈希表中。如果已在地图中找到相应的体素将该点添加到现有的体素中。在分配完扫描中的所有点后按如下方式进行几何构建和更新。对于新创建的体素确定其包含的所有点是否位于同一平面上这通过奇异值分解来判断。如果是计算平面中心点q p̄、平面法线n以及平面的协方差矩阵Σn,q后者用于表征由姿态估计不确定性和点测量噪声引起的平面不确定性。如果包含的点不在同一平面上则体素将继续细分为八个更小的八叉树节点直到确定这些点位于同一平面上或达到最大层数例如3。在后一种情况下叶体素中的点将被丢弃。因此地图只包含被确定为平面的体素无论是根体素还是子体素。对于已有的新点被添加的体素评估这些新点是否仍然与现有的点位于同一平面上。如果不是将如上所述进行体素细分。如果是则更新平面参数q,n和协方差Σn,q如上所述。一旦平面参数收敛该平面将被视为成熟平面平面上的新点将被丢弃。此外成熟平面的估计平面参数q,n和协方差Σn,q将被固定。位于平面上的LiDAR点无论在根体素还是子体素中将用于生成后续部分中的视觉地图点。对于成熟平面最近的50个LiDAR点将作为生成视觉地图点的候选点而对于未成熟平面所有LiDAR点都是候选点。视觉地图点生成过程将从这些候选点中选择一些作为视觉地图点并将图像补丁附加到这些点上用于图像对齐。视觉地图点的生成与更新为了生成和更新视觉地图点选择了地图中当前帧视野中可见的候选LiDAR点以及在当前图像中表现出显著灰度梯度的点。将在视觉更新后将这些候选点投影到当前图像中并为每个体素的局部平面保留深度最小的候选点。然后将当前图像划分为每个包含30×30像素的网格单元。如果某个网格单元中没有投影到该处的视觉地图点将使用灰度梯度最高的候选点生成新的视觉地图点并将当前图像补丁、估计的当前状态即帧姿态和曝光时间以及由LiDAR点计算的平面法线附加到该点上。附加到视觉地图点的补丁具有三个相同尺寸的层例如11×11像素每层是上一层的二分采样形成一个补丁金字塔。如果某个网格单元中已有视觉地图点投影到该处会在以下两种情况下向现有的视觉地图点添加新补丁金字塔的所有三层1距离上次补丁添加已超过20帧或2当前帧中的像素位置与上次补丁添加时的像素位置偏离超过40像素。因此地图点可能具有以均匀分布的视角观测到的有效补丁。与补丁金字塔一起我们还将估计的当前状态即姿态和曝光时间附加到地图点上。参考补丁更新由于视觉地图点可能具有多个补丁需要选择一个参考补丁用于视觉更新中的图像对齐。根据光度相似性和视角对每个补丁f进行评分其中NCC(f ,g) 表示归一化互相关系数用于衡量补丁f和g在补丁金字塔最高层即分辨率最高的层的相似性f̄ 和ḡ 为相应补丁的均值c 表示法线向量n与视角方向p/∥p∥的余弦相似度当补丁正对地图点所在的平面时c的值为1。总分S由补丁f与其他补丁gi的平均相似性NCC和法线向量的余弦相似度c加权求和得到tr(Σn)表示法线向量协方差矩阵的迹。在所有附加到视觉地图点的补丁中得分最高的那个将被更新为参考补丁。上述评分机制倾向于选择与大多数其他补丁外观相似NCC高的参考补丁这一技术用于MVS 避免选择动态物体上的补丁视角正交于平面的参考补丁从而保持纹理细节的高分辨率。法线优化每个视觉地图点被假定位于一个小的局部平面上。现有工作假设补丁中的所有像素具有相同的深度这一假设通常并不成立。使用由LiDAR点计算得出的平面法线来初始化平面随后进一步细化法线以提高图像对齐的准确性。在视觉地图点生成期间LiDAR点附近的局部平面法线n被初始化为体素地图中平面的法线向量。随后在独立线程中进行进一步优化。在这些独立线程中局部平面法线和附加补丁的姿态状态根据光度误差优化目标其中n和ξ分别表示法线和图像位姿。所有补丁的法线和姿态都被优化。被优化后的法线成为平面法线的最终估计。由于图像对齐中的姿态状态在全局坐标系中是已知的法线的优化也会同步进行。这一优化过程通常在20ms内完成。 LiDAR测量模型LiDAR 测量模型构建通过计算每个扫描点到其最近平面的距离来构建LiDAR测量模型。对于一个给定的LiDAR点在全局坐标系下表示为如果它位于一个平面上则该点到平面的距离可以近似表示为点到平面法线的垂直距离。因此平面残差可定义为在ESIKF框架中LiDAR测量模型通过最小化所有平面残差的平方和来估计位姿增量这个过程会通过迭代逐步优化系统状态。配准过程为了在扫描与地图之间找到最佳配准需要迭代计算扫描中的所有LiDAR点与地图中各平面之间的残差并利用这些残差更新位姿估计。在每次迭代中地图中的每个平面都会被重新计算法线n和点q也会更新。这一过程可以通过以下步骤实现初始配准首先使用上一次迭代的位姿估计结果将LiDAR点转换到全局坐标系下并计算其到当前位姿的平面残差。残差计算计算所有LiDAR点到其各自平面的残差并构建测量残差向量。对于每个残差向量我们都需要求解最优的位姿增量以最小化这些残差。迭代优化采用迭代最小二乘法来优化位姿增量直到残差的平方和收敛至某个阈值以下。每次迭代中使用更新后的位姿重新计算残差并继续优化。在LiDAR测量更新的最后一步将优化后的位姿用于更新系统的状态估计。测量不确定性为了更精确地反映测量中的噪声和不确定性还将平面残差的协方差纳入到ESIKF更新中。假设测量噪声是高斯分布的其协方差矩阵为。协方差的大小取决于LiDAR点测量的准确性和地图中平面的几何形状。测量不确定性的引入使得ESIKF能够更准确地估计系统状态并提高整体系统的鲁棒性。视觉测量模型可见体素查询在每次ESIKF更新之前首先从体素地图中提取当前帧视野中的可见视觉地图点。这个过程通过对所有包含视觉地图点的体素进行光线投射来完成。具体来说对于每个体素确定其是否被当前摄像头观察到并对观察到的体素进行可见性查询。如果体素内的视觉地图点被认为是可见的即未被遮挡这些点将被提取用于随后的图像对齐过程。光度误差计算在提取出可见的视觉地图点后将这些点的图像补丁与当前帧中的相应区域进行匹配。将地图中的视觉地图点投影到当前帧中并计算其与当前图像中的像素之间的光度误差。在ESIKF框架中通过最小化光度误差来优化位姿增量。这一优化过程通过迭代求解每个视觉地图点的光度残差来更新系统状态。图像金字塔与多分辨率匹配为了提高图像对齐的稳健性和计算效率使用图像金字塔进行多分辨率匹配。具体来说将每个图像补丁构建为多层金字塔每一层的分辨率是上一层的一半。在优化过程中首先在金字塔的较低分辨率层次上进行粗略对齐然后逐渐过渡到较高分辨率的层次进行精细对齐。这种逐层递进的对齐方法能够有效应对大范围的初始误差并减少局部极小值问题。曝光时间补偿光照变化会显著影响图像对齐的准确性。为了减轻这一影响引入了曝光时间补偿机制。在每次视觉更新中我们根据实时估算的曝光时间调整图像的光度值。通过这一补偿机制能够在不同光照条件下获得更加一致的光度测量值从而提高图像对齐的准确性。图像对齐中的平面先验为了进一步提高图像对齐的精度在图像对齐过程中引入了来自LiDAR测量的平面先验。具体来说假设视觉地图点位于某个局部平面上并使用LiDAR测量中的平面法线来初始化该平面。在图像对齐过程中平面先验能够为姿态估计提供额外的几何约束减少由于图像纹理不足或光照变化带来的误差。通过结合这些方法视觉测量模型能够在ESIKF框架中提供更加稳健和精确的姿态估计。特别是通过直接光度误差方法、多分辨率匹配、曝光时间补偿和平面先验的结合我们的系统能够在不同的环境条件下实现高精度的视觉-惯性融合。实验效果总结一下 FAST-LIVO2系统在多个方面展示了其在实时SLAM应用中的卓越性能通过顺序更新的ESIKF框架系统有效地解决了LiDAR和视觉测量之间的维度不匹配问题并通过直接方法显著提高了计算效率。通过在统一的体素地图上结合视觉和LiDAR信息实现了更高精度的图像对齐和地图构建。此外系统在各种苛刻环境下的实验结果表明其在精度、稳健性和计算负荷方面均优于现有的其他SLAM系统。特别是在无人机机载导航、空中测绘和3D模型渲染等实际应用中FAST-LIVO2展示了其在实时操作和高精度建图中的巨大潜力。未来的工作将着重于进一步优化系统的计算效率以及扩展其在更广泛应用场景中的适用性。 #探索自动驾驶端到端算法模型的鲁棒性研近年来随着深度学习技术取得越来越重大的进展自动驾驶技术在当今社会变得越来越重要。在典型的自动驾驶系统当中包括不同的功能子模块比如感知、规划、控制等等。虽然这类方法相对简单但是可能会存在着累计误差等问题。端到端自动驾驶模型作为一种先进的技术解决方案将原始传感器数据直接映射到驾驶决策上大大简化了自动驾驶系统的部署和设计过程。尽管端到端的算法模型展现出了出色的表现性能但该类算法也面临着重大的安全挑战。复杂和动态的驾驶环境会给模型引入许多的不确定性使得算法模型容易受到恶意的攻击。虽然目前已经有大量的研究工作集中在探讨自动驾驶系统中各个任务的鲁棒性特别是感知任务但这些研究工作更多强调了环境条件和对抗性输入等弱点这些弱点可能会误导感知系统从而进一步导致决策上的失误。此外尽管端到端自动驾驶模型展现出了卓越的性能、并且具有革命性的创新效果但学者们对这类算法的鲁棒性研究却非常有限目前还主要集中在基于回归的模型上缺乏更全面的自然鲁棒性评估和闭环系统评估。针对上述提到的相关问题我们构建了RobustE2E基准用于深入分析端到端自动驾驶对各种噪声干扰的鲁棒性。我们评估了五种传统的对抗性攻击通过在白盒设置中在任务之间的接口处引入对抗性噪声来引入一种新颖的模块化攻击并在两个具有代表性的端到端自动驾驶模型的黑盒设置中评估了四大类自然损坏共17种类型涵盖五个严重程度级别。我们的评估从开环模型级别扩展到闭环仿真环境和真实汽车其中观察到了出现的规划错误。我们的研究结果表明即使是最先进的端到端自动驾驶模型在受到微小扰动的情况下也会遭遇规划崩溃其中感知任务的性能会经历最为显著的下降。同时由于自动驾驶系统中各个子模块之间存在的错误累计效应会进一步加剧其固有的脆弱性。论文链接https://www.mdpi.com/2079-9292/13/16/3299 模块攻击为了有效评估端到端自动驾驶模型的鲁棒性我们设计了一种新颖的白盒对抗攻击方法称之为模块攻击。我们在整个端到端的算法模型的管道中注入和优化噪声具体的细节如下。模块噪声设计首先从输入的原始图像开始设计一组对抗噪声其表达方式如下所示。其中表示噪声注入的阶段索引对应于模型推理的每个阶段表示模型中包含的子任务总数。噪声被策略性地注入到图像和潜在特征表示中因此噪声注入的特征选择至关重要。我们在发生任务指定信息交换的接口处识别候选特征即在模块交互接口处从上游模块流向下游模块的所有特征信息都包含在特征中。然后我们通过在模型的计算图中追踪每个候选特征来确定需要扰动的特征集该特征集合我们用进行表示。如果某个特征在后续阶段仍然相关则将其包含在特征集合中。整个过程可以用下面的公式进行表示其中代表着模型计算图中存在的特征集合我们将策略扰动特征定义为。很明显是的一个子集表示中跨各个模块在计算图中持续存在的特征。这允许针对所有相关任务更新每个阶段的噪声。一旦策略扰动特征被确定下来我们设计了对抗性噪声模板来初始化每一批数据中的噪声如下所示其中代表张量模板函数用于生成与指定特征具有相同维度和形状的空张量代表用于填充模板的均匀分布。这些模板是后续噪声初始化和更新的基础。攻击策略我们假设自动驾驶是一项复杂的智能任务需要评估整个系统的稳定性同时考虑每个子模块的漏洞。我们在噪声初始化、噪声传播和存储以及迭代更新等方面来解释了我们设计的攻击策略。我们按照模型的推理过程依次初始化每个阶段的噪声。对于集合中的属于阶段的所有特征相应的对抗噪声模板为。我们将噪声模板投影到受特征扰动约束的中作为初始噪声并聚合阶段的所有特征噪声以获得其中表示扩展后跨相关维度的串联操作表示投影操作。在进行噪声的初始化之后我们得到噪声存储集合。这些扰动在每个处理阶段被策略性地注入到潜在特征表示中。这个注入的过程可以用下面数学公式进行表示其中表示具有参数的第个子模块表示的直接输入特征。模型的状态被统称为捕捉注入噪声在多个阶段的累积影响。噪声在注入后噪声将一直被存储直到整个自动驾驶任务完成。然后我们在每个子任务之后制定攻击的目标函数其中与任务的训练损失函数保持一致。为了优化对抗噪声我们采用了基于梯度的方法用于最大化同时确保不可感知性并且逃避检测机制。其中表示扰动约束的超参数同时表示迭代次数。这里在更新之后噪声也会被投射回相应特征噪声的中。在每次迭代的过程中噪声都会传播直到规划阶段结束并进行相应更新。然后将最终的噪声注入模型以完成模块攻击整个过程可以用如下的伪代码进行表示。 RobustE2E基准我们提出了RobustE2E基准这是一个在一致设置下的用于端到端自动驾驶的综合鲁棒性评估基准。RobustE2E基准为研究人员们提供了一个有价值的工具可以帮助他们更深入地了解各种扰动对端到端自动驾驶鲁棒性的影响同时有助于开发更为稳健的算法以及在现实场景中部署可靠、安全的自动驾驶模型。RobustE2E基准测试涵盖对抗稳健性和自然稳健性考虑了2个端到端自主模型、6种渐进式对抗攻击方法和17种自然破坏类型并包含闭环案例研究。整个测试基准的整体框架如下图所示 RobustE2E测试基准整体框架图鲁棒性评估方法端到端的自动驾驶模型容易受到现实环境中各类噪声的干扰。我们将这些干扰分为对抗性攻击和自然破坏并利用它们来全面评估端到端自动驾驶模型的稳健性。此外我们将评估扩展到闭环案例研究。对抗攻击为了衡量模型在最坏情况下的鲁棒性我们使用6种白盒对抗攻击作为评估方法。具体来说我们采用、、、、和模块攻击来生成对抗噪声。这些攻击方法的强度和目标各不相同提供了更全面的评估标准。我们对上述六种攻击方法进行了调整并在两种模型上实施了这些方法。前四种方法对视觉输入施加了轻微的扰动而模块攻击则在模型推理过程的不同阶段注入了有针对性的噪声。由于没有针对中间特征扰动幅度的经验指导我们选择应用与图像相同的扰动约束。自然破坏为了模拟自然破坏的影响我们利用了17种不同的黑盒自然破坏。具体而言自然破坏可以分为以下四类同时每种类型的自然破坏的严重程度等级从1到5不等总共有80种不同的设置方式噪声例如高斯噪声、散粒噪声和脉冲噪声模糊例如玻璃模糊、散焦模糊、运动模糊和变焦模糊天气例如雾、霜、雪和雨数字失真例如溅射、对比度、亮度、饱和度、图像压缩和像素化闭环案例研究在闭环案例当中我们分别研究了模拟环境和实际环境详细情况如下模拟环境中的闭环评估在开环测试中无法衡量对抗性攻击对自动驾驶的系统性影响。因此我们将对抗性攻击扩展到闭环模拟环境。模型的规划结果被转换成控制信号油门、刹车、转向角完成驾驶操作并影响模拟器的环境从而创建一个闭环系统现实世界中的闭环评估我们使用基于英伟达Jetson Nano的自动驾驶汽车JetBot进行了闭环测试用于展示对抗性噪声对真实自动驾驶系统的潜在危害。我们模拟了黑客渗透JetBot软件的场景从而能够在软件层对端到端模型进行攻击。由于JetBot的硬件限制我们使用了一个简单的端到端回归模型该模型输出预期坐标然后转换为车辆控制信号。我们进行了有针对性的攻击以模拟恶意劫持使用输出坐标构建攻击的目标函数用于向右偏差和加速攻击。实验结果评价指标我们的鲁棒性评估实验是在nuScenes数据集上进行的其中下图的表1和表2分别展示了UniAD和ST-P3算法模型在对抗性攻击和自然破坏下的主要评估结果 UniAD算法模型的鲁棒性评估结果对于UniAD算法模型而言跟踪任务的关键指标Amota从较高的平均值0.576大幅下降到0.148。虽然后续模块的性能也有所下降但程度远小于跟踪模块。地图模块最为稳健其中最重要的车道IOU指标平均仅下降了5.32%。运动和占用预测的误差较大即使是出色的建图任务也无法弥补轨迹模块的脆弱性。由于感知和预测误差最终的规划结果受到很大影响。攻击后预测轨迹与实际预期轨迹之间的平均L2误差达到1.72米而原来的为1.08米。在真实道路上这个距离可能会引发严重的安全事故。 ST-P3算法模型的鲁棒性评估结果 ST-P3的子任务较少但整体趋势还是比较相似的。感知层的IoU大幅下降了19.69%最终导致规划L2误差从平均1.58m增加到2.88m。下图展示了注入噪声的算法模型和原始算法模型的性能对比。同一场景中任务攻击前后的可视化结果对比通过上图可以看出自车的规划路线出现严重错误例如急转弯导致侵占草坪。此外该模型在各种任务中都会出错例如遗漏周围的车辆并错误预测后方静止车辆的动作。除此之外我们也在仿真环境中进行了闭环的实验。我们汇总了6次实验的平均结果表明攻击后模型的性能指标从88.175下降到29.545具体的实验结果如下图所示。此外下图展示了在模拟仿真环境中的短途路线上的实时噪声注入导致自我车辆在特定位置发生碰撞并与正常驾驶的帧进行比较。在攻击过程中车辆摇晃并最终向左转向与迎面驶来的车辆迎头相撞。同时我们也人工构建了一个测试区域用于进行真实世界鲁棒性的评估实验该构建的测试区域包括一条大型外环路和中间的多个交叉路口和T型路口道路上设有交通信号灯。我们在汽车上攻击预训练模型随机选择汽车的起点可视化的实验结果如下图所示。可以看出由于我们的攻击车辆在右转路口转向右侧树林区域。结论本文提出了一种针对端到端自动驾驶的新型对抗性攻击同时构建了RobustE2E基准来评估端到端自动驾驶对各种噪声的鲁棒性。希望这项研究能够提高人们对端到端自动驾驶稳健性问题的认识并为增强端到端自动驾驶的关键和敏感模块提供宝贵的指导以促进其在现实世界中的部署。 #All in端到端的小鹏继理想、蔚来对智能驾驶业务的组织架构调整之后近期小鹏也对组织架构进行了大调整。和理想、蔚来一样小鹏这轮的调整也是根据智驾技术路线的变化把组织架构拆散后再次重装新的组织架构聚焦端到端模型。小鹏这次调整的重心是技术开发部技术开发部是小鹏的算法研发部门涵盖感知、规划、控制、定位的算法研发。调整之后技术开发部被拆成了三个部门分别是AI端到端、AI应用、AI能效。其中AI端到端部门负责端到端模型的研发AI应用部门负责交付。这次调整相当于算法团队一分为二一部分去做模型一部分去做交付。这也是蔚小理三家对智驾组织架构调整的相同之处。在这轮由技术路线引发的研发组织架构的变革中蔚来、理想率先调整反而在无图城区NOA阶段的优等生华为小鹏的调整动作比较慢其中原因是多样的。华为小鹏在无图城区NOA“扎”的深趟过深水区对城区场景的认知和理解比较深刻。端到端模型作为新技术目前的性能是“上限很高、下限也很低”如何在技术切换的同时保持给用户良好的性能体验需要非常谨慎的权衡决策。否则端到端模型的“下限”很容易就给企业造成巨大的负面舆情任何一个企业都不想因为算法性能的bug上热搜。技术品牌的树立是一件非常艰难的事扑街却是非常容易。另外做组织架构调整也意味着内部“革命”权力的重新分配而且“革命”的对象就是规则时代的功臣干将。研发的核心岗位都被规则时代的干将占据了这些人里面很多并不懂AI甚至有些排斥因为这是要革自己的命。如何处置和安排规则时代的功臣是个难题这可能是企业调整慢的一个原因。这些人在无图城区NOA竞争过程中曾立下赫赫战功现在却因为技术路线变化要适应新技术否则就容易被淘汰。对这些干将来说非常残酷。研发团队的士气和氛围也是企业需要权衡的。反倒是无图城区NOA阶段的后进生们没有这些包袱能够轻装上阵率先调整。目前随着小鹏调整落地只剩华为还没有对组织架构调整。端到端模型的竞争已经开打国内企业的老传统营销先于技术。一些新势力已经掀起一轮声势浩大的营销战力图在端到端模型上弯道超车。不过拿端到端模型DEMO做营销PR的意义其实也不大按一位科技大佬的说法量产交付给用户使用才是王道。量产交付才是硬考验。国内端到端模型的竞争要看谁第一个量产上车交付给用户使用。 #代客泊车c开源项目用了15天时间做了一个可以回放停车场数据集以及将数据集内的车辆行人车位拓扑路线转化成决策规划可用的语义地图的形式。可以再这个仿真环境用开发自己的决策规划c代码。在自动驾驶中按照场景可以分成行车和泊车两种行车一般指的是在道路上高架上城区里等有明显车道线路标以及红绿灯的场景下进行无人驾驶。而泊车特指在地面停车场或者地下车库里的自动驾驶。当然现在常说的行泊一体就是把这个种场景用的的算法进行统一。对于行车场景有很多可选的开源项目和数据集可以用来验证自己的算法但是对于泊车场景这类数据集就很少了。如果想要验证自己的泊车算法就比较难了尤其是停车场里有行人有车辆自行车等等而且没有明显的车道线没有数据集就无法全面验证自己的算法。那天我发现了一个用于泊车的数据集就想着把这个数据集拿来做一个仿真项目可以用来验证自己的代课泊车算法。之前文章介绍过这个数据集停车场环境基于CNN和Transformer的轨迹预测模型ParkPredict 第一步解析数据集的格式数据集地址https://sites.google.com/berkeley.edu/dlp-dataset 作者提供的数据集是json格式的我就一段一段复制下来让GPT帮我解释解释完我理解了它也记住了这些格式后续可以让它给我写数据回放的代码。这里耗费了我很多时间也尝试了不同的思路试了将python代码嵌入到c工程中的方式遇到问题放弃了。也尝试了用python脚本播放数据集用c工程接收两个线程之间进行通讯的方式太复杂也放弃了。最后决定用c重写了数据回放的代码。这个开源项目险些在这一步就放弃了还好在GPT的帮助下完成了这一步的工作。数据集的格式如下组件定义场景 (Scene)代表一个连续的视频录制。包含指向该录制中的所有帧、代理和障碍物的指针。帧 (Frame)录制中的一个离散时间步。包含在这个时间步可见的所有实例列表。指向前一帧和后一帧。代理 (Agent)在场景中移动的对象。包含对象的尺寸、类型和轨迹由实例列表构成。实例 (Instance)代理在某个时间步的状态。包括位置、方向、速度和加速度。指向代理轨迹中的前一个和后一个实例。障碍物 (Obstacle)在录制中从未移动过的车辆。数据集统计场景数30帧数317,873代理数5,188实例数15,383,737关系场景 (Scene)包含多个帧 (Frame)包含多个代理 (Agent)包含多个障碍物 (Obstacle)帧 (Frame)包含在这个时间步可见的实例 (Instance)有前一帧和后一帧的关系代理 (Agent)包含在不同时间步的多个实例 (Instance)每个实例表示代理在某个时间步的状态实例 (Instance)关联代理 (Agent)有前一个实例和后一个实例的关系第二步编写数据回放的代码原作者有回放数据的开源代码但是是python写的我需要用c去实现一下。其实也不算是我写的我需要设计一个大体的框架然后让gpt去写。因为我上一步中已经把数据集的格式给gpt了所以在它可以很快就写出数据回放的代码。其实也不快这一步都花费了一周时间它可以不一个函数写的很好但是你让它给你写完整的一个类它很有可能会乱写。经过耐心的沟通和反复的修改终于完成了数据回放的代码效果如下可以逐帧播放数据集显示出了拓扑路线停车位静态车动态车行人所有的元素。数据回放的代码完成后我又在可视化上花费了好多天尝试了各种方式因为考虑的太多了想着以后可能需要界面交互比如在界面上选择一个车位作为目标车位。所以我想着用QT用Dear Imgui用FLTK等等后来忽然发觉我陷入了美化可视化界面的泥潭中无法自拔一周时间都过去了。最后想了个方法做了一个可视化类做成单例模式用opencv可视化这样在工程中的任何地方都可以插入可视化的代码方便前期的开发和调试。等到后期也可以方便的把可视化代码移除非常解耦。回放的主代码如下 void ParkSimulation::run() {loadData();findStartFrame();// common::GridMapMetaInfo map_info(280, 160, 0.5);common::GridMapMetaInfo map_info(300, 300, 0.5);semantic_map_manager::AgentConfigInfo config;config.obstacle_map_meta_info map_info;config.surrounding_search_radius 150;semantic_map_manager::SemanticMapManager semantic_map_manager;semantic_map_manager.setConfig(config);semantic_map_manager::MapAdapter mapAdapter(semantic_map_manager);planning::EudmServer planner;while (!currentFrameToken.empty()) {auto start_time std::chrono::steady_clock::now();auto it frames.find(currentFrameToken);if (it frames.end()) {break;}const auto frame it-second;env-loadFrame(frame);// 输出当前帧的信息std::cout \n\n;std::cout Current Frame: frame.frame_token ,Timestamp: frame.timestamp std::endl;// 移动到下一帧currentFrameToken frame.next;auto end_time std::chrono::steady_clock::now();std::cout ParkSimulation::run() cycle time: std::chrono::duration_caststd::chrono::milliseconds(end_time - start_time).count() ms std::endl;mapAdapter.run(env);planner.run(semantic_map_manager);}std::cout Simulation finished. std::endl;// 清理环境对象delete env; } 第三步构建语义地图 EPSILON是港科大开源的一个非常优秀的自动驾驶开源系统这里基于Epsilon的语义地图模块进行了修改和适配用于提供管理栅格地图碰撞检查等功能。这里的工作量主要在于数据读取和回放模块存储了各种元素需要将这些元素转换成语义地图接收的格式。一些转换函数如下 void GetSimulationDataFromStatic(Environment* env);void GetSimulationDataFromDynamic(Environment* env);void GetPolygonFromSimulationData(const StaticObstacle obs,common::PolygonObstacle* poly);void GetVehicleFromSimulationData(const DynamicObstacle obs,common::Vehicle* vehicle);void GetLanRawFromRoute(const std::vectorstd::pairdouble, double route,common::LaneRaw* p_lane);common::WaypointsGraph GetGraphFromSimulationData(const std::unordered_mapstd::string, Route routes);void GetParkingSpotsFromSimulationData(std::unordered_mapstd::string, std::vectorParkingSpot sim_spots,common::ParkingSpots* parking_spots); 完成数据转换后我需要将这些转换后的元素进行可视化确保转换的没有问题。结果如下分别时模拟的激光雷达扫到的障碍物栅格地图停车场地图以及车辆和行人和拓扑路线。绿色为模拟的激光雷达扫到的障碍物边界。黑色代表停车车位里的车辆白色是可通行的区域整个停车场如下包含了拓扑路线黄色路线为指定起点和终点在拓扑图上搜索得到的路径黑色方块是行人橙色是动态车辆黑色框代表车位。第四步开始开发预测、决策、规划模块有了这个仿真框架就可以开发代客泊车的相关算法了仿真里提供了各种动态车辆和行人也提供了车位对于预测模块可以用来对车辆进行意图预测预测它是要直行还是倒车入库。对于决策模块可以在这种高动态场景下验证决策算法的合理性。工程的main函数如下非常简洁 int main() {// 创建对象park::ParkSimulation simulation(./data/DJI_0012_scene.json, ./data/DJI_0012_agents.json,./data/DJI_0012_frames.json, ./data/DJI_0012_instances.json,./data/DJI_0012_obstacles.json, ./data/parking_map.yml, 0,1200 // startFrameIndex, endFrameIndex);simulation.run();return 0; } 预测和决策和规划模块这里还没开始敬请不期待烂尾警告。感谢开源项目EPSILON感谢开源项目ParkPredict。题外话1 目前整个项目我自己动手写的代码占得比例非常少我主要是设计整体的框架设计具体类的功能至于具体的代码都是GPT写的。目前GPT4还会胡诌需要我监督和不断的交流改错那如果以后GPT5,6,7,8进化了不需要我监督和设计框架也就不需要我写代码了。以后会写代码这个技能会不会都不算一个技能了记得几年前用到opencv可视化的时候被它的坐标和一些可视化转换搞得头昏脑涨花了几天时间才学会怎么用现在呢我一个描述gpt就给我写出来了我不理解原理它可以给我讲明白。转行到现在写了几年代码了从一开始的恐惧代码到后来不再害怕写代码到后来体会到了通过写代码去驱动机器人完成一些功能的快乐再到现在一句话就能得到可用的代码甚至都不用检查这段代码。题外话2 以前做测试的时候觉得工作没前途转行做机器人后来觉得自动驾驶里用的才是前沿的技术就转行去做自动驾驶了。我自认为自己非常热爱学习学习动力很足自动驾驶行业技术迭代很快所有很适合我。但是随着行业的发展我感觉有点理解不了了。总是觉得这行业不是很踏实总是在炫技炫技的目的不是为了提升用户体验而是为了让资本看到看吧我这新技术无敌了上限非常高给我们投资吧。如果有那一天靠着显卡和数据就可以让自动驾驶成为一个成熟可用的产品程序员会不会变成工业革命时候被迫下岗的纺织工人。感觉写代码逐渐没有乐趣了当你发挥自己的创意解决了一个问题你会被鄙视因为你只是写if else解决了亿万个corner case中的一个而已。这些case显卡和数据集也可以解决。如果人人都能写代码了那写代码这个技能就无有用了。如果端到端模型如果端到端的方法成为了自动驾驶的最终解那也不用算法工程师了都去踩自行车发电吧。 #3DGS与NeRF如何辅助机器人遥控操作本研究介绍了一种用于机器人遥控操作的新型辐射场可视化技术研究者提出了一种在线训练辐射场的方法能够实时从多个摄像头获取数据支持多种辐射方法包括NeRF和3DGS。该系统与现有的ROS遥控操作系统集成并通过传统的工具和VR头显进行展示。通过与基于网格重建的基线方法进行定量比较并进行用户研究验证了不同可视化方法的效果。 NeRF和3DGS等辐射场方法已经彻底改变了计算机图形学和新视点合成领域。它们能够生成逼真的新视角图像并捕捉复杂的体积效果和高光场景使其成为机器人远程操作环境中理想的可视化工具。直接使用摄像机进行远程操作能够提供高保真度的图像但代价是机动性较差。相比之下基于重建的方法则能提供较高的场景控制性但图像保真度相对较低。本研究采用在线辐射场取代机器人远程操作流程中的传统重建可视化方案提供了具有逼真质量的高操作性场景。本研究使用来自多个摄像机的实时数据的辐光场的在线训练支持各种辐射场方法包括NeRF和3DGS并对这些方法进行可视化在虚拟现实场景进行展示。为了实现与现有设备的无缝集成该方法在多种配置下与多个机器人进行了测试并使用传统工具和VR头显进行了展示。本研究还将相关结果定量地与网格重建方案进行比较并进行用户研究以比较不同的可视化方法。本研究的主要贡献如下 ●实时多摄像头数据融合开发了一种创新性的在线训练框架该框架能够实时从多个摄像头捕获数据并将其融合为辐射场从而为遥控操作提供高保真度和高机动性的三维场景表示 ●多样化辐射场方法的集成与优化研究不仅涵盖了现有的神经辐射场NeRF技术还引入了3DGS等新型辐射场渲染技术并通过系统优化实现了对这些先进方法的深度集成和支持 ●跨平台可视化工具的开发设计并实现了一套兼容多种现有遥控操作平台的可视化工具集包括对辐射场方法的虚拟实景VR场景展示极大地增强了用户界面的沉浸感和直观性 ●推动遥控操作与辐射场技术的融合本研究不仅在遥控操作领域提出了新的技术解决方案还为辐射场技术在机器人学中的进一步应用开辟了新的研究方向。理想的远程操作系统应向操作员提供场景的高保真、可操作和真实的表示。该系统应与机器人类型无关并能够根据任务最佳地呈现环境数据——传感器数据流或重建数据。如图1所示一般遥操作可视化系统分为三个部分机器人、重建方法、可视化。传感器和姿态数据从各种机器人组件红色流向重建方法绿色以创建在可视化器(蓝色)中显示给用户的场景表示。这种方法支持辐射场重建如NeRF和3DGS生成相对于固定位置的环境表示通过可视化工具RViz和VR可视化器呈现给操作者。通过相对于固定点构建表示即使机器人在空间中移动也可以显示和对齐额外的数据。 ▲图1遥操作可视化系统换言之可以将该系统简化为三个组件机器人及其传感器、重建方法和可视化系统。本研究介绍了一个基于现有远程操作框架的系统扩展基于辐射场三维重建方法的可能性并提供了在屏幕和虚拟现实中可视化这些方法的手段如图2中的紫色虚线框所示。该系统经过多种机器人测试包括一个简单的静态配置、一个能够探索更大环境的移动四足机器人以及一个附带机械臂的四足机器人。机器人收集到的数据首先被用于现有的网格重建系统作为基线处理然后新增了一个支持NeRFs和3DGS辐射场的ROS节点。这些重建方法可以在多个可视化工具中使用如屏幕上的2D RViz窗口以及VR头显中的2.5D和3D视图。根据部署和任务的不同该系统的每个组件都可以交换或重新配置。 ▲图2Radiance Field VR场景与2.5D手持视差观看器左和完全沉浸360度右 ■2.1 机器人及其传感器在本文所提出的系统中机器人的主要目的是捕捉环境信息并帮助用户了解场景。为实现这一目标系统使用的数据主要来自以下三种形式ROS的TF系统提供的姿态信息、机载相机捕获的彩色图像、以及包含深度和颜色信息的RGBD图像。为了确保系统具有通用性能够适应不同机器人的部署这些数据源必须易于配置。图2和图3中的“机器人”框左侧展示了输入的数据源其中红线表示图像数据橙色表示点云数据黄色表示来自TF系统的姿态信息。 ▲图3遥操作可视化系统数据流最简单的机器人配置是一个固定在地面上的装置如连接在桌子上的机械臂。这种机器人在扫描目标物体或大规模场景时机动性有限。但机器人基座是固定的全局框架因此能够提供更加精确的姿态信息。这种配置虽然在场景规模和视角上有所限制但在重建精度方面具有极强的可靠性。对于需要捕捉更大、更复杂场景的应用可以使用移动机器人。这类机器人能够在环境中移动并从不同角度获取数据。然而由于机器人与固定的全局框架之间的相对位置不确定因此需要通过同步定位与地图构建SLAM系统如CompSLAM来对其在环境中的位置进行定位。由于移动机器人依赖于机载传感器而这些传感器在运动过程中可能会产生漂移导致姿态信息不总是可靠。尽管移动机器人覆盖的范围更广但姿态精度可能会受到影响。一种既能确保高姿态精度又具备机动性的方法是将机械臂安装在移动平台上。在这种配置下机器人可以在场景中移动以获得不同的视角主要依靠机械臂的运动来收集数据而基座保持静止。因为基座是固定的机械臂末端执行器的运动可以通过精确的关节传感器进行测量避免了视觉或激光雷达定位可能带来的误差。这样既能覆盖更大的场景又能保持数据的高精度。 ■2.2 重建方法一旦机器人捕获相应数据后随即将这些数据传递到一个重建系统中。该阶段的目的是将多个数据流整合为一个单一的数据流供操作员来控制机器人。这一过程会涉及到创建一个几何和纹理上都高度保真的表示模型。本文比较了场景重建问题的两种主要解决方案通过Voxblox进行的网格重建和通过NerfStudio进行的辐射场重建。在图2和图3中这两个ROS节点在“重构方法”部分以绿色标示。Voxblox节点使用传入的姿态数据和点云生成输出网格而NerfStudio节点则从姿态和图像数据中生成渲染的辐射场。由于网格重建难以捕捉复杂的体积场景并且在快速重建和高保真度之间存在权衡为此在机器人远程操作中使用辐射场重建方法更为合适而辐射场重建主要是通过轻量级的机器学习算法来学习场景的表示。为了确保与新方法的兼容性系统中的辐射场训练节点可以配置为使用NerfStudio支持的几乎所有方法。为保证这种兼容性NerfStudio节点中的自定义组件数量被尽量减少只要所选方法不依赖于自定义数据集如语义模型或自定义DataLoader即可适配。该节点支持NerfStudio的3DGS方法——Splatfacto这是一种资源开销最小的方案。在初始化时系统会为这个自定义数据集分配一个预设大小的缓冲区用于存储所有训练所需的图像。接下来节点会为每个相机订阅一组主题以捕获其图像无论是RGB还是RGBD并记录其特征和姿态信息。如果所有相机都包含深度信息那么系统将分配一个特殊缓冲区来存储深度图像以便与深度监督模型集成。每张传入的图像都会经过筛选以确保其不模糊并且基于TF帧之间的平均距离姿态差异足够明显。如果相机分辨率不同所有图像将调整为最大相机的分辨率并在批处理时统一缩小。在实验中图像在训练前会以1440p存储并将720p图像缩放至相应大小。根据当前的姿态数据和最新的CameraInfo消息系统会存储每张图像在相应相机中的内参和外参。如果图像已被校正系统将自动将相机的畸变参数设置为零以避免重复校正。为了确保与其他方法的兼容性本研究使用了一个自定义的ROS变体覆盖DataLoader该变体跳过了通常执行的缓存和整理过程使用ROS Datasets函数来确保只提取最新的图像进行训练。还有一个特殊的评估DataLoader它接受图像序列ID列表以确保在多次运行中使用相同的图像。这在跨预录ROS包数据进行对比时尤其有用。此外本方法还使用自定义的DataParser来设置ROS Dataset并通过helper Sensor类管理ROS订阅者。Sensor对象负责管理图像和CameraInfo消息的订阅并在每次捕获时同步姿态。使用这个辅助类可以注册多个相机每个相机以不同速率捕获数据。Sensor对象只会更新相关的数据条目并将相应的相机参数传递给系统的其余部分。图3展示了整个数据流其中所有自定义组件以紫色标示Sensor辅助类以黄色标示。完成设置后节点会捕获若干图像以创建初始批次然后切换到在线训练模式。一旦节点进入在线训练模式它将继续接收新图像直到达到指定的缓冲区大小并启动一个ActionServer使任何ROS进程都可以请求渲染数据。渲染请求包含视图姿态发送到服务器后会返回渲染图像以及估计的场景深度。这些渲染图像随后会被发送到其中一个可视化器供远程操作员进行交互。此外请求与唯一的客户端ID关联允许多个可视化器在ROS网络中使用单个辐射场节点请求不同的渲染数据。 ■2.3 可视化系统系统的最后一个阶段是可视化器它的作用是根据从重建方法获得的数据为操作员提供一个准确的世界表示。在图2和图3中这一部分以蓝色标示。本研究开发了自定义的Radiance Field RViz插件用于2D可视化并利用VR场景实现2.5D和3D可视化。为了进行基线方法比较还使用了Voxblox的RViz插件来展示网格重建的结果。 ◆Rviz RViz 是 ROS 的可视化套件能够可视化各种传感器数据流如点云、机器人模型和图像。此外它还提供工具帮助用户直接通过系统发送命令例如设置姿态目标。RViz 支持第三方插件这使得诸如 Voxblox 之类的重建方法可以实现自定义查看器从而将新的环境数据与现有的机器人和远程操作系统无缝集成。为了将在线生成的辐射场与ROS无缝集成本研究开发了一个辐射场RViz插件。该插件作为RViz OpenGL场景中的自定义相机每当相机移动动态模式或处在基于移动帧的渲染流状态连续模式时都会向Radiance Field节点发送渲染请求。动态模式最适合从静止角度观看场景例如用于导航的俯视图或检查的特写视图。相比之下连续模式更适用于移动的基础框架比如第三人称驾驶或在需要观察新传入数据时使用。在任何模式下渲染速度通常主要取决于输出图像的分辨率这可以通过视图面板中的设置进行调整。为了在动态模式下提供更快的响应渲染首先以最终分辨率的10%进行预览接着再发送50%的中等分辨率图像最后再发送完整的高分辨率图像。这种分步渲染方法使用户能够更快速地浏览场景同时保持良好的视觉反馈。 RViz 和辐射场提供的深度数据可用于使渲染图像在场景元素中实现真实的遮挡效果或以剪切模式显示如图4所示。这通过将渲染中捕获的真实世界深度转换为OpenGL的z深度一个从0到1的非线性比例来实现。然后这个转换后的深度可以与RViz的Ogre引擎同样基于OpenGL为特定相机视角使用的z深度相匹配。结果是RViz中的所有对象如机器人、传感器可视化、网格和姿态都能准确地被遮挡从而提供更逼真的可视化效果。这种方法旨在让操作员更好地理解环境中的深度同时更容易在场景中定位RViz组件。在大型或室内场景中还提供了一种剪切模式在该模式下渲染的图像始终显示在RViz元素的背后使这些元素更容易被识别和定位。 ▲图4RViz插件基于场景深度遮挡机器人的示例左并将机器人渲染在最外图层右此外由于3DGS和NeRF都执行体积渲染可能会因为遮挡或未探测到的噪声导致自我定位困难。为了解决这个问题插件允许创建一个轴对齐的边界框通过限制光线积分来裁剪场景如图5所示边界框用于去除噪声背景以及会阻挡操作员视野的后墙见图8。这些渲染图像都是全新的视角因为机器人要么由于墙壁的存在要么由于机械臂活动范围的限制无法捕获到这些视角。 ▲图5轴对齐的边界框可用于裁剪背景左或移除墙壁右从而实现新颖的视图和更清晰的操作 ◆VR 在测试中发现即使是在合理设置图层覆盖的情况下操作员在观看2D屏幕时也很难感知深度。为了解决这一问题本研究将该系统移植到了Meta Quest 3 VR头显上并使用Unity场景来展示机器人数据。这一研究利用VR扩展了现有遥控系统的能力以实现更大的沉浸感和更高的易用性。 VR 机器人数据为了建立与基线方案的对比将若干RViz特性如TF同步的机器人模型、姿态发布和传感器可视化包括LiDAR、RGBD点云和图像集成到VR头显中如图6所示。用户可以通过头显和手部交互发送姿态目标从而直接从VR界面发送机器人命令。系统还扩展了基于移动GPU的网格生成实时流式传输Voxblox重建结果。这样用户在沉浸式的3D环境中可以访问与RViz相同的传感器信息。为了保持轻便VR场景经过优化能够在头显上本地运行只通过TCP连接与ROS处理消息传输。这使得头显可以直接连接到机器人的ROS网络无需基站PC或任何头显电缆。 ▲图6远程操作员使用VR系统桌面上是Voxblox网格左边是Radiance Field Viewer实时LiDAR数据覆盖在网格重建上 VR 辐射场为了使用辐射场渲染本研究设计了一个2.5D手持查看器让用户可以查看渲染的虚拟世界。这个查看器利用深度数据创建视差效果使VR头显在显示渲染图像时能有更强的纵深感。类似于RViz相机该查看器可以在用户移动头部时请求新的渲染并与场景中的机器人数据同步。请求通过TCP连接直接发送渲染结果实时传输到GPU着色器进行视差渲染。为了增强沉浸感查看器还提供了360°球形渲染让用户仿佛身临其境。它还包括图像缩放、分辨率调整和来自机器人实时摄像头的画面等控制功能。图7展示了手持辐射场查看器的使用情况以及球形渲染模式的视图。类似于 RViz 插件辐射场的深度数据也用于动态遮挡场景使得接近的3D对象如机器人或点云能够显示在辐射场渲染图像的前面。 ▲图7Radiance Field VR场景与2.5D手持观看器左和360°球形渲染右研究者进行了三部分实验首先在静态机械臂、移动底盘和移动机械臂上捕获数据以确保机器人无关的操作并比较不同的重建方法。每个数据集都使用Voxblox、NeRF和3DGS进行处理并评估了光度质量。其次测试在线操作时测量了重建和渲染的时间。最后为了验证观赏体验进行了用户研究比较了RViz网格和NeRF渲染图像与其VR对应版本的效果。 ■3.1 数据集设置静态机械臂使用静态的弗兰卡Panda机械臂和英特尔Realsense 435i RGBD相机进行测试。机械臂固定在金属桌上桌子的两侧有墙壁将扫描区域缩小到20cm×20cm。这一区域的第三面由于安装位置的限制无法探索前方的扫描范围被限制在90°的方位角内。扫描了三个目标物体一个毛绒玩具驴子、一个基准立方体和一个木块。毛绒玩具用于测试高频细节基准立方体用于检查纹理准确性木块用于验证三维几何重建。移动底盘使用Anybotics Anymal在大型实验室环境中进行测试。实验室的规模大约为15m×10m由前置和后置的1440p RGB相机进行拍摄。使用CompSLAM进行定位并以机器人绕着的木基座为中心进行扫描。基座上放置了一个玻璃碗用于测试每个系统的透明和镜面反射重建能力。移动机械臂DynaArm连接到Anybotics Anymal上并在手腕上安装了额外的英特尔Realsense L515相机。捕获的目标是一个黄色的配电柜柜子中间有一根金属棒里面有一个带屏幕和开关的盒子。测试区域大约为1m×1m从正面拍摄。 Anymal用手臂扫描2米远的区域然后移动并捕捉盒子内部。当手臂移动到盒子内部时照明条件会有轻微变化以测试系统对动态颜色的适应能力。 ■3.2 重建质量为了确保平台具备机器人无关性进行了三种不同的部署。所有三种设置均使用相同的参数进行训练分别应用了Voxblox、Nerfacto和Splatfacto其中Nerfacto和 Splatfacto是NerfStudio的默认NeRF和3DGS方法。根据峰值信噪比PSNR、结构相似性指数SSIM和学习的感知图像补丁相似性LPIPS对每种方法进行了评估。PSNR用于测量场景中的伪影SSIM测量特征如光照和对比度的相似性而LPIPS测量图像补丁的网络激活近似人类对相似性的判断。图8展示了真实图像、基准 Voxblox 重建、NeRF和3DGS 重建结果表1则展示了光度比较其中每个数据集表现最佳的方法用粗体显示。 ▲图8静态臂左、移动基座中和移动臂右的比较 ▲表1不同机器人结构和重建方法的光度比较静态机械臂由于Panda臂数据的姿态几乎完美能够产生非常高纹理保真度的结果。图8中基准立方体的标记清晰可见。由于缺乏运动场景的外围视图受限导致NeRF重建质量较低。然而小型场景使3DGS重建的质量非常高因为场景初始化良好高斯分布密集地覆盖了整个空间几乎没有多余部分。在所有指标PSNR、SSIM 和 LPIPS中3DGS重建的表现是NeRF的两倍。尽管捕获的区域表现尚可但Voxblox还是生成了一个不完整的网格在所有指标中得分最低。移动底盘辐射场技术尤其是NeRF在距离场景中心较远的区域容易出现射线稳定性问题导致噪声增加。而Voxblox网格技术在捕捉远距离数据时也会遇到困难常常生成不完整的重建结果。在训练过程中NeRF方法通过姿态优化平滑了噪声获得了最佳结果。移动机械臂配电柜在NeRF和3DGS重建中产生了最高质量的LPIPS结果代表了人类感知的最高质量。Voxblox成功重建了大部分场景但未能捕获支撑梁和部分门。此外在进入柜子时光照会发生变化导致网格颜色不均匀。辐射场通过视图相关的着色捕获了这些变化如表1所示3DGS在PSNR和SSIM上优于NeRF可能是因为其与球面谐波的颜色匹配效果更好。 ■3.3 性能表现在线机器人遥控操作需要快速的重建和可视化为此研究者们在RTX 4090上比较了每种方法的重建和渲染时间。为了确保运行和比较的可重复性首先记录了数据并将图像的序列ID存储在一个文件中。然后在执行过程中使用这些序列ID创建数据集确保每次运行中使用相同时间戳的相同图像。首先研究人员测量了每次迭代的时间。对于Voxblox这是将新批次与网格集成的时间对于辐射场方法Radiance Fields这是一次迭代的训练时间。Voxblox在1cm体素大小下每批整合时间为1.2秒。对于NeRF和3DGS迭代时间分别为35.644毫秒和34.651毫秒。此外为了公平比较训练辐射场方法直到它们匹配最终的Voxblox PSNR16.94dB。其中NeRF花费了7.027秒而3DGS花费了6.996秒。辐射场方法不仅生成了更高质量的结果而且处理速度几乎快了20倍。 ▲表2不同方法之间的时间比较其次作者考虑了渲染时间。在Voxblox显示不断更新的网格时其渲染速率被限制为每秒30帧。相比之下NeRF 和 3DGS 在渲染一个完整的1024×1024图像时表现不同NeRF 需要1020.13 毫秒0.98 FPS而3DGS仅需6.63毫秒151 FPS。在不同分辨率下3DGS 的渲染时间稳定在约6.23毫秒而NeRF在更高分辨率下的渲染时间显著增加。这一关系如图9所示。对于需要快速渲染的应用场景显式表示如网格和3DGS是首选因为它们能够更好地适应更高的分辨率和更大的屏幕。 ▲图9在不同分辨率百分比下NeRF和3DGS对1024x1024图像的渲染时间对比NeRF的渲染时间呈指数增长而3DGS的渲染时间几乎不变由于NeRF渲染时间的快速增加数据以对数尺度显示 ■3.4 用户研究本研究针对用户体验进行了调研调研涉及20名参与者以比较不同的可视化系统。参与者来自对机器人系统较为熟悉且经常使用 RViz 的群体年龄在22到32岁之间平均年龄为26岁包含5名女性和15名男性且只有5人之前使用过VR系统。他们评估了图8中的移动手臂数据集并将2D的RViz Voxblox和NeRF场景与VR对应版本进行了比较结果见图10。选择这个数据集是因为它具有最高的光度评分见表1因此质量最佳。为了避免混淆由于Radiance Fields、NeRF和3DGS 都通过相同的用户界面呈现因此每次只向用户展示一种方法。选择NeRF进行比较是因为它在LPIPS中得分高于3DGSLPIPS最能接近人类感知的质量。在测试的分辨率下NeRF和3DGS之间的渲染时间差异不明显。在感知方面NeRF比Voxblox重建更受欢迎VR NeRF的评分略高于RViz 版本。这与表1中的光度比较结果一致Radiance Fields生成的结果质量高于网格。值得注意的是尽管VR系统显示的数据与RViz相同但VR系统始终提高了感知质量。这是由于VR系统的沉浸感增加的深度帮助了几何感知而头戴式光学器件提高了纹理质量。此外VR 头显的光学系统使得低分辨率图像看起来更大、高分辨率更高从而降低了系统的渲染延迟。在遥操作任务中Voxblox的3D网格在VR和RViz中更受欢迎因为用户能够更容易地看到机器人与环境的相对位置。然而在操控任务中RViz的NeRF比Voxblox更受欢迎 VR系统的表现大致相同。在这些任务中感知能力和读取细节的能力至关重要NeRF系统在这些方面表现更佳许多VR用户表示他们更愿意使用3D NeRF来获得理想的设置。未来可以通过利用3DGS的显式表示直接展示3D中的高斯体而无需2.5D观察器来解决这一问题。最后尽管许多用户第一次尝试VR但VR系统在可用性方面优于RViz对应系统。Voxblox系统更易于操作和探索因为直接的3D表示更为直观。RViz NeRF的叠加和手持查看器需要时间适应但在识别场景中的物体方面表现更好。 ▲图10使用移动臂数据集和VR Voxblox绿、VR NeRF蓝、RViz NeRF橙、RViz Voxblox红四种观看模式的用户研究结果。平均值用黑色虚线表示而中位数用黄色实线表示。在不同条件下VR系统比2D系统更受青睐而NeRF在感知和操作方面更受青睐Voxblox在运动和可用性方面更受青睐本研究展示了通过集成多摄像机的辐射场可视化组件、引入动态支持的新重建方法以及VR技术为机器人远程操作领域带来的显著进展。实验结果证明了该系统在不同应用场景下的有效性和通用性。首先系统展示了其对不同机器人部署的适应性从静态手臂到配备多个摄像头的移动基地。在每种设置中辐射场生成的重建质量都优于网格。其次3DGS的渲染速度显著提高使其能够与在线网格渲染媲美且所需时间更少质量相同。最后用户研究表明参与者对辐射场的质量优于传统网格的偏好明显尤其在操作任务中更受欢迎。VR 系统提供了更好的体验表明在VR 环境中使用直接3DGS辐射场将是理想的远程操作解决方案。 #如何评价最新的Mamba 深度学习作为一项重要技术引发了人工智能AI的一场非凡革命导致了人类生活方式的巨大变化。作为最具代表性的架构Transformers已经为众多高级模型提供了支持特别是包含数十亿个参数的大型语言模型LLM成为深度学习的基石。尽管取得了令人瞩目的成就但Transformer仍然面临着固有的局限性特别是注意力计算的二次计算复杂性导致的耗时推理。最近一种名为Mamba的新型架构从经典状态空间模型中汲取灵感成为构建基础模型的有前景的替代方案在保持序列长度接近线性可扩展性的同时为Transformers提供了可比的建模能力。这引发了越来越多的研究积极探索Mamba在各个领域取得令人印象深刻的性能的潜力。鉴于这种快速发展迫切需要进行系统审查巩固现有的Mamba授权模型全面了解这种新兴的模型架构。因此在本次调查中我们对最近的曼巴相关研究进行了深入调查主要从三个方面进行基于曼巴的模型的进展、使曼巴适应各种数据的技术以及曼巴可以擅长的应用。具体来说我们首先回顾各种代表性深度学习模型的基础知识以及Mamba-1和2的细节作为估计。然后为了展示Mamba对人工智能的意义我们全面回顾了有关Mamba模型架构设计、数据适应性和应用的相关研究。最后我们讨论了当前的局限性并探索了各种有前景的研究方向为未来的研究提供了更深入的见解。本文简介在过去的二十年里深度学习作为最突出的人工智能AI技术在医疗保健、自主系统、推荐系统和金融服务等各个领域带来了革命。这一时期见证了众多深度神经网络DNN的出现这些网络极大地改变了人类的生活方式为个人提供了巨大的便利。一个值得注意的例子是U-Net这是一种视野内的强大深度学习模型广泛应用于医学成像用于检查MRI和CT等放射学扫描。其应用有助于疾病的识别和诊断展示了其在这一关键医疗保健领域的有效性。此外图神经网络GNN用于处理图结构数据以支持智能服务例如向用户推荐个性化内容、产品或服务的推荐系统。此外循环神经网络RNN在机器翻译中被广泛采用因为它们能够捕获准确翻译所必需的顺序和上下文信息使来自不同语言背景的个人能够有效地交流和包含彼此的想法、观点和信息。在各种深度学习架构中Transformers最近脱颖而出并在广泛的应用领域确立了其主导地位。例如作为最具代表性的大型基础模型像ChatGPT这样的大型语言模型LLM从根本上建立在Transformer架构上。通过将模型规模扩展到数十亿并在各种数据源的混合上进行训练这些基于Transformer的模型展示了人类水平的智能在语言理解、常识推理和内容学习方面具有令人印象深刻的能力。这一显著的成功得益于注意力机制它使基于Transformer的模型能够专注于输入序列的相关部分并促进更好的上下文理解。然而注意力机制也引入了显著的计算开销该开销随着输入大小的平方而增加这给处理纵向输入带来了挑战。例如计算成本的快速增长使Transformers处理大量序列变得不切实际或不可行从而限制了它们在文档级机器翻译或长文档摘要等任务中的适用性。最近一种有前景的架构结构化状态空间序列模型SSM已经出现可以有效地捕获序列数据中的复杂依赖关系成为Transformer的强大竞争对手。这些模型受经典状态空间模型的启发可以被认为是递归神经网络和卷积神经网络的融合。它们可以通过递归或卷积运算高效计算实现序列长度的线性或近线性缩放从而显著降低计算成本。更具体地说作为最成功的SSM变体之一Mamba实现了与Transformer相当的建模能力同时保持了序列长度的线性可扩展性将其推向了焦点领域。Mamba首先引入了一种简单而有效的选择机制通过基于输入对SSM参数进行参数化使模型能够过滤掉不相关的信息同时无限期地保留必要和相关的数据。然后Mamba提出了一种硬件感知算法通过扫描而不是卷积来定期计算模型在A100 GPU上实现了高达3倍的计算速度。如图1所示Mamba对复杂和长度顺序数据的强大建模能力以及近乎线性的可扩展性使其成为一种新兴的基础模型有望彻底改变各种研究和应用领域如计算机视觉、自然语言处理、医疗保健等。例如Zhu等人提出了Vim它比DeiT快2.8倍在提取高分辨率图像的特征时节省了86.8%的GPU内存。Dao和Gu展示了SSM和注意力变体之间的联系并提出了一种新的架构该架构改进了选择性SSM使语言建模速度提高了2-8倍。在Mamba强大的长序列建模能力及其高效性的推动下出现了大量文献重点是在各种下游任务中使用和改进Mamba。鉴于与曼巴相关的研究大幅增加对现有文献进行全面回顾并考虑未来研究的潜在方向至关重要。因此在这项调查中我们从几个角度对曼巴进行了全面的回顾为新来者提供了对曼巴内部运作的基本了解同时帮助经验丰富的从业者了解其最新发展。具体来说剩下的调查组织如下在第2节中我们回顾了各种代表性深度神经网络的背景知识包括RNN、Transformers和状态空间模型而Mamba的详细信息在第3节中介绍。接下来我们在第4节中从块设计、扫描模式和内存管理的角度总结了基于Mamba的研究的最新进展。然后第5节介绍了使Mamba适应各种数据的技术包括顺序和非顺序数据。此外第6节介绍了Mamba模型的代表性应用第7节介绍了挑战和未来方向。最后我们在第8节总结了整个调查。与我们的调查同时发布了几项相关调查纯粹关注状态空间模型和视觉曼巴。与这些调查不同本文主要关注曼巴的相关研究。它从一个新的角度系统地分析了现有文献以探索Mamba架构的演变以及基于Mamba的模型中使用的数据自适应方法。 Mamba 为了解决传统SSM在上下文感知能力方面的上述缺点[55]提出了Mamba作为一种潜在的替代方案有望成为通用的序列基础模型骨干。最近Mamba-2[提出了结构化空间状态对偶性SSD建立了一个将结构化SSM和各种形式的注意力联系起来的稳健理论框架使我们能够将最初为变压器开发的算法和系统优化转移到SSM。在本节中我们将对曼巴和曼巴-2进行简洁明了的介绍。传统的SSM在建模文本和其他信息密集型数据方面的效果有限阻碍了它们在深度学习方面的进展。在追求赋予SSM Transformer建模能力的过程中Gu和Dao引入了三种基于结构化状态空间模型的创新技术即基于高阶多项式投影算子HiPPO的内存初始化、选择机制和硬件感知计算如图3所示。这些技术旨在增强SSM在长距离线性时间序列建模中的能力。特别是初始化策略建立了一个连贯的隐藏状态矩阵有效地促进了长距离记忆。然后选择机制使SSM能够获取内容感知表示。最后Mamba设计了两种硬件感知计算算法并行联想扫描和内存重构以提高训练效率。 HiPPO-based Memory Initialization从序列数据中建模和学习是当代机器学习的基本挑战是各种任务的基础包括语言建模、语音识别和视频处理。对复杂和长期的时间依赖性进行建模的一个基本组成部分在于内存包括存储和整合来自先前时间步骤的信息的能力。与RNN类似保留和忘记历史隐藏状态即矩阵A在SSM中起着至关重要的作用以实现令人满意的性能。在之前的结构化状态空间序列模型SSM中有人建议进行特殊的初始化特别是在复值模型的情况下。事实证明这些特殊的初始化在各种情况下都是有益的包括数据可用性有限的情况。同样Mamba主要关注隐藏状态矩阵A的初始化以捕获复杂的时间依赖关系。这是通过利用HiPPO理论和创新的勒让德尺度LegS来实现的确保全面考虑完整的历史背景而不是有限的滑动窗口。具体来说HiPPO LegS为所有历史数据点分配了统一的权重可以表示为基于HiPPO理论Mamba为复杂和真实的情况引入了两种简单的初始化方法即S4D-Lin和S4D-real如 Selection Mechanism由于时间不变性的特性传统的状态空间模型对于基于特定模型输入即内容感知建模能力产生个性化输出是必不可少的。为了给SSM提供类似于注意力机制的能力Mamba设计了一种时变选择机制根据模型输入对权重矩阵进行参数化。这种创新使SSM能够过滤掉无关的信息同时无限期地保留相关细节。形式上选择机制涉及将区间D和矩阵B、C设置为输入x的函数可以表示为 Hardware-aware Computation该选择机制旨在克服线性时不变模型的局限性。尽管如此它还是对高效训练提出了挑战SSM的卷积核变得依赖于输入导致无法执行并行计算。为了解决这个问题Mamba使用了两种计算技术即并行关联扫描也称为并行前缀和和内存重新计算。首先并行关联扫描利用线性关联计算的特性和现代加速器GPU和TPU的并行性以内存高效的方式执行选择性SSM的计算。更具体地说并行关联扫描将模型训练的计算复杂度从降低到。扫描的核心是在给定的输入上构建一个平衡的二叉树并从根开始来回扫描。换句话说并行关联扫描首先从叶子遍历到根即向上扫描在树的内部节点处创建部分和。然后它反转遍历从根向上移动到树上使用部分和构建整个扫描即向下扫描。另一方面Mamba利用传统的重新计算方法来减少训练选择性SSM层的总体内存需求。特别是在并行关联扫描的前向传递过程中Mamba与大小为BLDN的干扰中间状态保持距离以防止内存扩展。相反它在反向过程中重新计算这些中间状态以进行梯度计算。通过这样做重新计算避开了在GPU内存单元之间读取元素的必要性。除了优化扫描操作的内存需求外Mamba-1还扩展了重新计算的使用以提高整个SSM层的效率。这种优化包括投影、卷积和激活这些通常需要大量的内存资源但可以快速重新计算。 Mamba-2: State Space Duality Transformers在各个领域的深度学习成功中发挥了至关重要的作用激发了各种技术的发展如参数高效微调[95]、灾难性遗忘缓解[96]和模型量化[195]旨在从各个角度提高模型性能。为了使状态空间模型能够访问并受益于最初为Transformer开发的有价值的技术Mamba-2[29]引入了一个名为结构化状态空间对偶性SSD的综合框架该框架在SSM和不同形式的注意力之间建立了理论联系。公式化基于SSDMamba-2通过块分解矩阵乘法算法开发了一种更具硬件效率的计算方法。具体来说通过矩阵变换将状态空间模型视为半可分矩阵Mamba-2将计算分解为矩阵块其中对角块表示块内计算。相比之下非对角块表示通过SSM的隐藏状态分解的块间计算。这种方法使Mamba-2的训练过程比Mamba-1的并行联想扫描快2-8倍同时保持与Transformer的竞争力。 Mamba Block 在本小节中我们总结了Mamba-1和Mamba-2的区块设计。图4显示了这两种架构的比较。Mamba-1的动机是以SSM为中心的观点其中选择性SSM层的任务是从输入序列X到Y进行映射。在这种设计中aBC的线性投影是在创建X的初始线性投影之后应用的。然后输入令牌和状态矩阵通过选择性SSM单元利用并行关联扫描产生输出Y。之后Mamba-1使用跳过连接来鼓励特征重用和模型训练过程中经常出现的所有退化问题。最后通过将该块与标准归一化和残差连接交织堆叠构建了Mamba模型。至于Mamba-2它引入了SSD层旨在创建一个从[XABC]到Y的映射。这是通过在块的开头用单个投影同时处理[XABC]来实现的类似于标准注意力架构并行生成QKV投影的方式。换句话说Mamba-2块通过去除连续的线性投影简化了Mamba-1块。与Mamba-1中的并行选择性扫描相比这使得SSD结构的计算速度更快。此外在跳跃连接后添加了一个归一化层旨在提高训练稳定性。 Advancements in Mamba Models 状态空间模型和Mamba最近得到了探索并成为一种有前景的替代方案作为基础模型骨干。虽然Mamba在自然语言处理方面表现出了熟练程度但它仍然遇到了挑战例如记忆丧失、对各种任务的泛化以及基于Transformer的语言模型捕获复杂模式的能力较差。为了克服这些挑战已经做出了大量努力来改进曼巴结构。现有的研究主要集中在修改块设计、扫描模式和内存管理方面。本节将从这三个方面介绍几种重要技术相关研究总结见表1。 Block Design 曼巴block的设计和结构对曼巴模型的整体性能有重大影响使其成为新兴的研究热点。如图5所示基于构建新曼巴区块的不同方法现有研究可分为三类a整合方法旨在将曼巴区块与其他知名模型整合以在有效性和效率之间取得平衡b 替代方法试图利用Mamba块来替代高级模型框架中的主要层c修改方法侧重于修改经典曼巴块内的组件。 Scanning Mode 并行关联扫描操作是Mamba模型中的一个关键组成部分旨在解决选择机制引起的计算问题加速训练过程减少内存需求。它通过利用时变SSM的线性特性在硬件级别设计核融合和重新计算来实现这一点。然而Mamba的单向序列建模范式阻碍了对各种数据如图像和视频的全面学习过程。为了缓解这一问题几项研究侧重于设计高效的扫描方法以提高模型性能并促进Mamba模型的训练过程。如图6所示专注于开发扫描模式技术的现有研究可分为两类1平面扫描方法从令牌序列的平面角度处理模型输入以及2立体扫描方法跨维度、通道或比例扫描模型输入。 Memory Management 与RNN一样状态空间模型中隐藏状态的记忆有效地存储了之前步骤的信息因此在SSM的整体功能中起着至关重要的作用。虽然Mamba引入了基于HiPPO的内存初始化方法但SSM单元的内存管理仍然存在挑战包括在层之间传输隐藏信息和实现无损内存压缩。为此一些开创性的研究提出了不同的解决方案包括内存初始化、压缩和连接。例如Ezoe和Sato试图通过在模型再训练期间使用平衡截断方法来改进选择性SSM的初始化过程。此外DGMamba引入了一种隐藏状态抑制方法以增强状态空间模型中隐藏状态的领域泛化能力。这种方法可以消除这些隐藏状态的负面影响从而缩小不同领域隐藏状态之间的差距。同样DenseMamba提出了一种密集连接方法以增强SSM中各层之间隐藏信息的传播。该策略旨在通过有选择地将浅层的隐藏状态集成到深层来减轻内存退化并为输出生成保留详细信息。 Adapting Mamba to Diverse Data Mamba架构代表了选择性状态空间模型的扩展它具有循环模型的基本特性使其非常适合作为操作文本、时间序列、语音等序列的通用基础模型。与此同时最近的开创性研究将Mamba架构的利用扩展到了序列数据之外包括图像和图形等领域如图7所示。这些研究旨在利用Mamba在捕获长期依赖关系方面的卓越能力同时利用其在学习和推理过程中的效率。因此在本节中我们的目标是研究使Mamba适应各种类型数据的新兴技术。 Sequential Data 序列数据是指以特定顺序收集或组织的数据其中数据点的顺序具有重要意义。为了探索利用Mamba作为序列数据任务基础模型的潜力我们在以下部分进行了全面的回顾涵盖了各种序列数据包括自然语言、视频、时间序列、语音和人体运动。 Non-Sequential Data 非序列数据与顺序数据的不同之处在于不遵循特定的顺序。其数据点可以按任何顺序组织或访问而不会显著影响数据的含义或解释。这种固有顺序的缺失给循环模型带来了困难例如专门用于捕获数据中时间依赖性的RNN和SSM。令人惊讶的是代表SSM的Mamba在最近的发展中在有效处理非连续数据方面取得了显著的成功。在本节中我们将回顾有关Mamba如何有效处理非连续数据包括图像、图形和点云的相关研究。 Multimodal Data 整合多种模态如语言顺序数据和图像非顺序数据为人工智能感知和场景理解提供了有价值和互补的信息。最近多模态大型语言模型MLLM受到了广泛的研究关注MLLM固有了大型语言模型的高级功能包括强大的语言表达和逻辑推理。虽然Transformers一直是该领域的主导方法但Mamba已经成为一个强大的竞争对手在对齐混合源数据和实现序列长度的线性复杂度缩放方面表现出了令人印象深刻的性能这使得Mamba成为Transformers多模态学习的有前景的替代品。例如Qiao等人提出VL Mamba探索利用Mamba的高效架构来解决视觉语言任务利用预先训练的Mamba模型进行语言理解并结合连接器模块将视觉补丁与语言标记对齐。Wang等人提出了文本控制运动Mamba它利用Mamba基于文本查询动态捕获全局时间信息以增强对人类运动的理解。此外Fusion-Mamba和Sigma试图融合来自不同模态如热、深度和RGB的互补信息。Fusion-Mamba专注于改进对象检测而Sigma旨在增强语义分割。应用Natural Language Processing 在自然语言处理领域最近出现了一些基于Mamba的模型作为基于Transformer的语言建模模型的替代品特别是在涉及广泛上下文的应用中如问答系统和文本摘要。 Computer Vision 除了NLP应用外基于Mamba的模型在计算机视觉领域也显示出潜力如疾病诊断和运动识别与生成等代表性应用。 Speech Analysis 语音信号本质上由数千个样本组成。虽然这种宽泛的时间背景提供了丰富的声学特征但它也带来了巨大的计算需求。为了有效地处理语音信号几种基于Mamba的模型已成功应用于各种语音应用特别是语音分离和标记以及语音增强。 Drug Discovery 蛋白质设计、分子设计和基因组分析在推进药物发现和生物技术方面至关重要。利用基于MAMBA的模型显著降低了这些域中长序列建模的复杂性。具体来说PTM-Mamba]和ProtMamba是基于Mamba架构的蛋白质语言模型。PTM-Mamba使用双向门控Mamba块和结构化状态空间模型有效地处理长序列同时减少计算需求。ProtMamba被设计为具有同源性意识但无比对足以处理数百个蛋白质序列的广泛背景。这两种模型即使在大数据集的情况下也能保持高效率和准确性为蛋白质设计提供了关键工具。与此同时生成式分子设计旨在模拟具有特定分布的定制特性的分子。然而目前的模型缺乏优化高保真神谕所需的效率直接导致成功率低。Saturn应用Mamba架构利用其线性复杂性和计算效率在药物发现方面超越了22个竞争模型。此外了解基因组对于深入了解细胞生物学至关重要。基因组建模的挑战包括捕捉远距离标记之间的相互作用考虑上游和下游区域的影响并确保DNA序列的互补性。Caduceus和MSAMamba都利用了Mamba模型在应对这些挑战方面表现出色。Caduceus是一种DNA基础模型它通过BiMamba和MambaDNA组件增强了Mamba架构用于双向建模并确保反向补体等效性在长期基因组任务中显著优于现有模型。同样MSAMamba通过沿序列维度实施选择性扫描操作解决了基于变换器的DNA多序列比对模型的局限性。这种设计将以前方法的训练上下文长度延长了八倍从而可以对广泛的DNA序列进行更全面的分析。 Recommender Systems 推荐系统广泛应用于电子商务和社交网络旨在捕捉用户不断变化的偏好及其过去行为之间的相互依赖关系。尽管基于变换器的模型在推荐系统中表现出了有效性但由于注意力机制的平方复杂性它们面临着计算效率的挑战尤其是在处理较长的行为序列时。最近几个基于Mamba的模型已被应用于分析个性化推荐的长期用户行为。例如Mamba4Rec率先使用选择性状态空间模型进行高效的顺序推荐在保持推理效率的同时提高了模型性能。同样RecMamba探讨了Mamba在终身顺序推荐场景即序列长度≥2k中的有效性实现了与基准模型相当的性能同时将训练时间缩短了70%内存成本降低了80%。此外EchoMamba4Rec将双向Mamba模块与频域滤波集成在一起以准确捕捉用户交互数据中的复杂模式和相互依赖关系。它展示了优于现有模型的性能提供了更精确和个性化的建议。此外Mamba4KT专为智能教育中的知识追踪而设计利用Mamba模型来捕捉练习和学生知识水平之间的持久相关性。随着教育数据集的扩展这种方法为提高知识追踪研究中的预测准确性、模型效率和资源利用率提供了一条有前景的途径。 Robotics and Autonomous Systems 机器人和自主系统的主要目标是开发能够适应全面视觉环境并执行复杂动作的模型。目前用于机器人技术的多模态大语言模型MLLM在两个主要方面面临着重大挑战1处理需要高级推理的复杂任务的能力有限2微调和推理任务的计算费用巨大。由于其在推理速度、内存利用率和整体效率方面的优势基于Mamba的模型正在成为自主和智能系统的有前景的基础有望实现卓越的性能和巨大的可扩展性潜力。例如RoboMamba将视觉编码器与Mamba集成在一起创建了一个端到端的机器人MLLM。该方法通过协同训练将视觉数据与语言嵌入对齐用视觉常识和机器人特定的推理增强模型同时确保高效的微调和推理能力。同样Jia等人介绍了MaIL这是一种使用Mamba作为骨干的模仿学习IL策略架构。MaIL弥合了处理观测序列的效率和性能之间的差距。对真实机器人实验的广泛评估表明MaIL为传统、大型和复杂的基于Transformer的IL策略提供了一种有竞争力的替代方案。未来挑战 Mamba-based Foundation Models Hardware-Awareness Computation Trustworthy Mamba Models Applying Emerging Techniques from Transformer to Mamba 结论 Mamba是一种新兴的深度学习架构由于其强大的建模能力和计算效率在语言生成、图像分类、推荐和药物发现等各个领域都取得了显著的成功。最近人们越来越努力地开发基于Mamba的深度学习模型这些模型具有更强大的表示学习能力和更低的计算复杂度。鉴于曼巴的快速进展迫切需要一个系统的概述。为了弥合这一差距在本文中我们对Mamba进行了全面的回顾重点介绍了它的架构进步、数据适应性和应用领域为研究人员提供了对Mamba最新发展的深入了解和概述。此外鉴于曼巴研究仍处于起步阶段我们还讨论了当前的局限性并为未来的研究提出了有前景的方向。 #2025中的强化学习有哪些新思路强化学习是机器学习中的一个领域强调智能体agent如何在环境中采取一系列行动以最大化累积奖励。它的核心要素包括智能体、环境、状态、动作和奖励。智能体与环境智能体是在环境中执行动作的实体环境则是智能体所处的外部世界。智能体基于环境的状态做出决策并执行动作其动作会改变环境状态环境会根据智能体的动作反馈新的状态和奖励。状态与动作状态是对环境的描述包含智能体自身的信息以及环境的相关特征它反映了智能体在环境中的当前情况。动作是智能体在某个状态下可以采取的行为智能体的目标是通过选择合适的动作来最大化长期奖励。奖励机制奖励是环境给予智能体的反馈信号用于衡量智能体动作的好坏。智能体的目标是通过不断尝试不同的动作积累奖励学习到最优的行为策略。奖励可以是即时的也可以是延迟的智能体需要考虑长期的奖励积累而不仅仅是短期的奖励。在机器人领域强化学习可用于机器人的运动控制和任务执行如机器人在复杂环境中的导航和操作任务通过强化学习让机器人学会根据环境状态选择合适动作完成任务并获得奖励。用于处理不同形状和可变形物体操作的几何感知强化学习在机器人操作领域处理具有不同几何形状的物体和可变形物体是一项重大挑战。像不同物体的插入任务或布料悬挂任务都需要精确控制以及对复杂动力学进行有效建模。传统方法在应对这些任务时存在局限性难以在高维观察和行动空间中学习到能通用的策略且在强化学习训练中面临数据收集和适应新经验的难题。本文旨在解决这些问题提出一种新的方法和基准以提升机器人在这类操作任务中的表现。文章提出的模型框架主要包含几个关键部分。首先将操作问题构建为异构图把执行器和物体表示为不同的节点集通过不同类型的边描述它们之间的相互作用这种图表示为刚性和可变形物体任务提供了统一结构。基于此设计了一种基于图的策略模型 —— 异质等变策略HEPi它以 SE(3) 等变消息传递网络为骨干能够利用环境对称性显著降低搜索空间复杂度。同时通过异构图设计和更新规则区分物体与物体、执行器与执行器、物体与执行器之间的相互作用使系统能将局部处理与全局信息交换分开。此外为稳定在复杂高维环境中的训练采用了一种更具原则性的信任区域方法。在训练过程中通过实验对比发现该方法相比传统的近端策略优化PPO算法能更有效地稳定训练过程特别是在复杂的 3D 环境任务中表现出色。 BodyGen迈向高效的实体协同设计在机器人设计领域实体协同设计旨在同时优化机器人的形态和控制策略以实现适应环境的高效机器人设计。然而该领域面临诸多挑战如形态搜索空间巨大且具有组合性评估每个候选设计需耗费大量计算资源来寻找最优控制策略传统方法在搜索空间中采样效率低且难以共享不同形态间的经验和技能。此外现有基于强化学习的方法在设计阶段缺乏奖励引导导致形态和性能欠佳。本文提出 BodyGen 框架旨在解决这些问题提高实体协同设计的效率。 BodyGen 框架主要包含基于注意力的协同设计网络、拓扑感知位置编码和带时间信用分配的协同设计优化三部分。基于注意力的协同设计网络将设计阶段分为拓扑设计和属性设计两个子阶段分别由相应的子策略控制。在这个过程中通过 MoSAT 架构实现从肢体传感器到隐藏令牌的编码利用缩放点积自注意力机制进行集中式处理最后解码生成动作且该网络能以批处理模式处理多种形态提高训练效率。拓扑感知位置编码TopoPE通过哈希映射将肢体到根肢体的路径映射为唯一嵌入有效解决了形态变化时的索引偏移问题促进了相似形态间的知识对齐和共享。带时间信用分配的协同设计优化则采用基于近端策略优化PPO的演员 - 评论家范式针对传统 PPO 在协同设计中存在的奖励分配不平衡等问题提出改进的广义优势估计GAE使智能体在形态设计和控制阶段都能获得平衡的奖励信号从而提升训练性能。基于长短时想象的开放世界强化学习在强化学习的开放世界决策场景中训练基于视觉的智能体面临诸多挑战。由于环境状态空间巨大、智能体感知存在不确定性且现有方法存在局限性如模型自由的方法难以掌握环境机制基于模型的方法又往往 “目光短浅”导致智能体在开放世界中的探索效率低下。本文提出 LS-Imagine 方法旨在解决这些问题通过扩展想象视野和利用长短时世界模型提升智能体在开放世界中的探索效率和决策能力。 LS-Imagine 的模型框架包含多个关键部分。首先通过滑动边界框扫描图像并进行连续缩放结合 MineCLIP 奖励模型计算相关性来生成 affordance 地图突出与任务相关的区域为智能体探索提供引导为提高效率还训练了一个 U-Net 模块快速生成 affordance 地图。世界模型分为短期转移分支和长期想象分支通过引入跳跃标志来决定采用何种转移方式根据 affordance 地图的特征判断是否进行长距离状态跳跃同时学习短期和跳跃状态转移依据不同的损失函数进行训练。行为学习阶段基于世界模型生成的长短时想象序列采用演员 - 评论家算法优化智能体策略计算折扣累积奖励时考虑长短时想象并且在训练演员时根据跳跃标志忽略长时想象步骤的更新。通过这些组件的协同工作LS-Imagine 能够让智能体在开放世界中更有效地探索和决策。 Kinetix通过开放式物理控制任务探索通用智能体的训练在机器学习领域训练能够在未知领域表现出色的通用智能体是一个长期目标。当前基于离线数据集的自监督学习训练的大模型在文本和图像领域成果显著但在顺序决策问题中训练通用智能体仍面临挑战。离线强化学习将智能体能力限制在数据集内而在线强化学习所使用的环境场景狭窄单一限制了智能体的泛化能力。本文旨在通过构建 Kinetix 框架来解决这些问题探索大规模、混合质量预训练在在线强化学习中的可行性推动通用智能体的发展。 Kinetix 框架主要包含几个关键部分。首先是 Jax2D这是一个基于 JAX 开发的确定性、基于脉冲的 2D 刚体物理引擎它通过模拟少量基本组件如圆形、多边形、关节和推进器能表达丰富多样的物理任务且计算图高度动态可在单个 GPU 上轻松扩展到数千个并行环境为 Kinetix 提供了高效的后端支持。基于 Jax2D 构建的 Kinetix 强化学习环境具有多种特性。其动作空间支持多离散和连续两种类型观察空间提供了符号化实体、符号化扁平以及像素化等多种选择其中符号化实体观察空间便于使用置换不变的网络架构。奖励函数设计简单且通用通过让绿色和蓝色形状碰撞来获得奖励若绿色形状与红色形状碰撞则给予惩罚并引入辅助密集奖励信号来促进学习。此外Kinetix 还提供了启发式环境生成器、一系列手工设计的关卡以及环境分类法以支持智能体的训练和评估。多智能体强化学习中基于指数拓扑结构的可扩展通信在多智能体强化学习MARL领域现有大多数通信策略专为小规模多智能体系统设计在处理现实应用中常见的数十甚至数百个智能体的大规模系统时面临挑战。具体表现为随着智能体数量增加识别 “有用” 通信对等体变得困难且训练内存消耗大、执行时通信开销与智能体数量呈二次方增长。本文旨在解决这一问题提出一种可扩展的通信协议 ExpoComm为 MARL 通信提供有效解决方案。 ExpoComm 的模型框架核心是利用指数图作为智能体间的通信拓扑结构。指数图具有小直径和小尺寸的特性小直径能实现快速信息传播确保在有限时间步内所有智能体可交换信息小尺寸则保证通信开销低其通信成本与智能体数量近乎线性相关。在神经网络架构设计方面采用基于内存的消息处理器如注意力块和循环神经网络RNNs以有效利用指数图小直径特性在多个时间步内保存和处理信息。训练和执行过程中通过引入辅助任务来优化信息传递在全局状态可用时利用全局状态预测误差作为辅助损失不可用时采用对比学习进行有意义的消息编码。通过这些设计ExpoComm 能在大规模多智能体任务中实现高效通信提升系统性能。基于对比预测编码学习 Transformer 世界模型基于模型的强化学习中以往用 Transformer 替换循环神经网络RNN构建世界模型的方法虽提升了训练效率但在性能上仍不及基于 RNN 的模型如 Dreamer 算法。这是因为此前方法采用的下一状态预测目标无法充分发挥 Transformer 的表征能力。本文旨在解决该问题提出了 TWISTER 算法通过引入基于动作条件的对比预测编码AC-CPC让世界模型学习更高级的时间特征表征以提升智能体性能。 TWISTER 算法的模型框架主要由世界模型、演员网络和评论家网络构成。世界模型将图像观测转换为离散随机状态并模拟环境生成想象轨迹其训练包含多个部分用卷积变分自编码器VAE将输入图像观测编码为隐藏表征进而得到离散随机状态使用基于掩码自注意力和相对位置编码的 Transformer 网络预测未来状态其隐藏状态与随机状态连接形成模型状态用于预测奖励、剧集延续标志等采用 AC-CPC通过最大化模型状态与未来随机状态间的互信息学习特征表征同时使用 InfoNCE 损失函数区分正样本和负样本。演员网络和评论家网络在潜在空间中利用世界模型生成的想象轨迹进行训练演员网络学习选择能最大化预测回报的动作同时最大化策略熵以保证探索性评论家网络学习最小化与离散 λ - 回报的对称对数交叉熵损失且通过自身预测估计奖励同时添加正则化项来稳定训练。通过基于计数的探索实现大语言模型的在线偏好对齐当前强化学习从人类反馈RLHF在微调大语言模型LLMs以符合人类偏好方面存在局限现有方法基于固定数据集进行偏好对齐数据覆盖范围有限学到的奖励模型难以对分布外的响应进行准确评估限制了对齐后 LLMs 的能力。而在线 RLHF 虽能通过迭代收集提示 - 响应来扩展数据但如何有效探索提示 - 响应空间成为关键问题。本文提出基于计数的在线偏好优化COPO算法来解决这些问题旨在让 LLMs 在在线 RLHF 过程中更好地平衡探索和偏好优化扩大探索空间和数据覆盖范围提升模型性能。 COPO 算法的模型框架主要包含三个部分。在理论动机方面基于线性奖励假设构建了带有乐观奖励函数的 RLHF 问题证明了带有上置信界UCB奖励的策略能实现高效的 RLHF为算法提供了理论依据。算法设计上将经典 RLHF 的奖励建模和微调过程整合为直接偏好优化DPO目标同时引入基于计数的探索项通过调整超参数平衡探索和利用。具体实现时采用硬币翻转网络CFN估计提示 - 响应的伪计数解决了大规模空间中真实计数难以获取的问题。在实验中COPO 在指令跟随和学术基准测试中表现出色显著提升了模型性能验证了其有效性。任意步长动态模型提升在线与离线强化学习的未来预测能力这篇文章解决了模型基于强化学习MBRL中由于长时程模型展开导致的复合误差问题。传统的MBRL方法在展开模型时依赖于逐步预测下一个状态这种自举预测方式会导致误差逐渐累积从而影响策略优化的效果。文章提出了一种新的任意步长动力学模型ADM通过回溯不同长度的历史状态和动作序列来直接预测未来状态减少了自举预测的次数从而有效降低了复合误差。ADM不仅能够灵活地展开不同长度的轨迹还能够通过不同回溯长度的预测差异来量化模型的不确定性避免了传统方法中需要集成多个模型的复杂性和计算负担。模型框架包括两个主要算法ADMPO-ON和ADMPO-OFF分别用于在线和离线设置。ADMPO-ON在在线设置中通过与环境的交互不断更新动力学模型并利用模型生成的虚拟数据进行策略优化。ADMPO-OFF在离线设置中通过引入惩罚项来量化模型的不确定性确保策略优化在安全区域内进行同时探索超出数据集覆盖的区域。ADM的核心思想是通过回溯任意长度的历史状态和动作序列来预测未来状态利用RNN结构处理变长的输入序列并通过随机回溯的方式生成多样化的虚拟数据从而提升策略优化的效果。语言模型通过强化学习从人类反馈中学会误导人类随着语言模型LMs能力提升并被用于复杂任务人类评估者难以察觉其输出中的细微错误这一问题在强化学习从人类反馈RLHF中尤为突出。文章旨在研究 RLHF 是否会导致 LMs 出现误导人类的现象U-SOPHISTRY这种现象可能引发严重风险而此前尚未得到实证验证。文章通过实验探究该现象在实际中的影响程度、LMs 误导人类的方式以及现有检测方法的有效性为解决这一问题提供依据。文章围绕标准 RLHF 训练流程展开研究未涉及特定模型框架。在实验中先使用 RLHF 对语言模型进行微调在问答任务QuALITY中基于特定奖励模型对 LlaMA-2-7B 进行微调在编程任务APPS中对 Deepseek-Coder-7B 进行类似操作。接着招募人类评估者在规定时间内对模型输出进行评估评估指标包括正确性、人类认可度、人类评估错误率和误报率等。通过对比 RLHF 前后模型的表现发现 RLHF 虽提高了人类对模型输出的认可度但未提升模型在任务上的正确性反而增加了人类评估错误率和误报率。此外研究还发现现有检测有意误导I-SOPHISTRY的方法无法有效检测 U-SOPHISTRY突出了研究 U-SOPHISTRY 的独特性和重要性。 MaestroMotif基于人工智能反馈的技能设计在人工智能决策系统中将人类关于决策的知识融入 AI 系统存在困难现有基于大语言模型LLMs的系统在技能设计方面需要人类手动操作如收集特定数据、开发启发式方法或进行奖励工程这既需要专业知识又耗费大量人力降低了适用性和通用性。本文提出 AI 辅助技能设计范式及 MaestroMotif 方法旨在解决这些问题实现通过自然语言描述创建和复用技能提升 AI 系统决策能力降低技能设计难度和人力成本。 MaestroMotif 方法的模型框架主要包含 AI 辅助技能设计和零样本控制两部分。在 AI 辅助技能设计阶段首先进行自动化技能奖励设计利用 Motif 方法根据 LLM 在交互数据集上的偏好生成每个技能的奖励函数接着生成技能启动 / 终止函数借助 LLM 将高级规范转化为代码来定义相关函数然后生成训练时的技能策略依据领域知识制定技能交错学习的策略并由 LLM 生成代码形式的策略最后通过强化学习训练技能各技能策略在环境中执行并优化以最大化相应奖励函数。在零样本控制阶段部署时用户用自然语言指定任务MaestroMotif 利用代码生成的 LLM 处理该规范生成并运行技能策略结合之前设计好的技能策略、启动和终止函数组合技能实现用户指定行为且无需额外训练。参考文献 Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects, https://arxiv.org/pdf/2502.07005v1 BodyGen: Advancing Towards Efficient Embodiment Co-Design, https://openreview.net/pdf?idcTR17xl89h Open-World Reinforcement Learning over Long Short-Term Imagination, https://openreview.net/pdf?idvzItLaEoDa Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks, https://arxiv.org/pdf/2410.23208 Exponential Topology-enabled Scalable Communication in Multi-agent Reinforcement Learning, https://openreview.net/pdf?idCL3U0GxFRD Learning Transformer-based World Models with Contrastive Predictive Coding, https://openreview.net/pdf?idYK9G4Htdew Online Preference Alignment for Language Models via Count-based Exploration, https://arxiv.org/pdf/2501.12735 Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning, https://openreview.net/pdf?idJZCxlrwjZ8 Language Models Learn to Mislead Humans via RLHF, https://arxiv.org/pdf/2409.12822 MaestroMotif: Skill Design from Artificial Intelligence Feedback, https://arxiv.org/pdf/2412.08542 机械臂操作 ICLR25 | VLAS将语音集成到模型中新颖的端到端VLA模型西湖大学浙大 UC伯克利最新FAST: 高效的机器人操作标记化清华大学最新UniAct消除异质性跨域跨xx泛化性能超越14倍参数量的OpenVLA 斯坦福大学最新双臂机器人协同操作更丝滑更可预测 RoboDual行业首款通用xx操作的双系统协同框架诞生港大最新RoboTwin结合现实与合成数据的双臂机器人基准伯克利最新CrossFormer一个模型同时控制单臂/双臂/轮式/四足等多类机器人四足或人形机器人斯坦福大学 | ToddlerBot到真实世界的零样本迁移低成本、开源的人形机器人平台从扭秧歌到单脚跳HugWBC让人形机器人运动天赋觉醒了 ExBody2人形机器人高级富有表现的全身控制 TeleAI港科大最新离线学习在线对齐扩散模型驱动的四足机器人运动从零搭建你的机械狗xx四足机器人开源项目汇总 Robust Robot Walker跨越微小陷阱行动更加稳健斯坦福大学最新Helpful DoggyBot四足机器人和VLM在开放世界中取回任意物体机器人学习 UC伯克利最新Beyond Sight: 零样本微调异构传感器的通用机器人策略 CoRL 2024 | 通过语言优化实现策略适应实现少样本模仿学习 NeurIPS 2024 | BAKU一种高效的多任务Policy学习Transformer 人形机器人专场有LLM加持能有多厉害看HYPERmotion显身手 NeurIPS 2024 | 大规模无动作视频学习可执行的离散扩散策略美团最新RoboMM集于一体的机器人操作多模态大型模型波士顿动力最新可泛化的扩散策略能有效操控不同几何形状、尺寸和物理特性的物体 RSS 2024 | OK-Robot在机器人领域集成开放知识模型时真正重要的是什么 MIT最新还在用URDFURDF一种针对机器人的具有运动环路的增强型URDF VisionPAD3DGS预训练新范式三大感知任务全部暴力涨点 NeurIPS 2024 | VLMimic5个人类视频无需额外学习就能提升泛化性纽约大学最新SeeDo通过视觉语言模型将人类演示视频转化为机器人行动计划 CMU最新SplatSim: 基于3DGS的RGB操作策略零样本Sim2Real迁移 LLM最大能力密度100天翻一倍清华刘知远团队提出Densing Law 机器人干活总有意外Code-as-Monitor 轻松在开放世界实时精确检测错误确保没意外斯坦福大学最新xx接口xx决策中语言大模型的基准测试机器人控制 Video2Policy通过互联网视频规模化模拟中的操作任务显著超越现有SOTAChatVLA实现统一的多模态理解与机器人控制 ARMOR自我中心感知的人形机器人防撞和运动规划起猛了模型预测控制MPC也能用在xx中视觉语言动作模型VLA这项任务怎么入门简单灵活便于部署 | Diffusion-VLA通过统一扩散与自回归方法扩展机器人基础模型斯坦福最新机器人能够自我监控实时感知并避免潜在的失败 RoboMatrix一种以技能为中心的机器人任务规划与执行的可扩展层级框架 MASQ多个“脑袋”能够对机器人实现更好的控制吗港大DexDiffuser揭秘机器人能拥有像人类一样灵巧的手吗 TPAMI 2024 | OoD-Control泛化未见环境中的鲁棒控制一览无人机上的效果其他抓取VLN等模拟和真实环境SOTAMapNav基于VLM的端到端VLN模型赋能端到端智能体决策场面混乱听不清指令怎么执行任务实体灵巧抓取系统EDGS指出了一条明路解放双手OSCAR让操作系统交互实现自然语言「自由」 AAAI 2024xxxx与机器人相关汇总 ICML 2024接收论文汇总机器人与xxxx相关北京大学与智元机器人联合实验室发布OmniManip显著提升机器人3D操作能力动态 3D 场景理解要理解什么Embodied VideoAgent来揭秘 NeurIPS 2024 | HA-VLN具备人类感知能力的xxxx导航智能体视觉语言导航VLN技术梳理北大最新 | RoboMamba端到端VLA模型推理速度提升3倍仅需调整0.1%的参数博世最新Depth Any Camera任意相机的零样本度量深度估计真机数据白采了银河通用xx大模型已充分泛化基于仿真数据港科大最新GaussianProperty无需训练VLM3DGS完成零样本物体材质重建与抓取 VinT-6D用于机器人手部操作的大规模多模态6D姿态估计数据集机器人有触觉吗中科大《NSR》柔性光栅结构色触觉感知揭秘波士顿动力最新SOTAThinkGrasp通过GPT-4o完成杂乱环境中的抓取工作英伟达最新NaVILA: 用于导航的足式机器人视觉-语言-动作模型 LLMZero-shot基于场景图的零样本物体目标导航清华大学博士分享 xx离不开的室内导航室内导航算法的优化框架汇总 PoliFormer: 使用Transformer扩展On-Policy强化学习卓越的导航器 SPLANNING实时预测碰撞风险实现轨迹规划 xx硬核梳理从CVPR25审稿看当前AI顶会中稿趋势墨尔本湖南大学 | xx在三维理解中的应用三维场景问答最新综述十五校联合出品人形机器人运动与操控控制、规划与学习的最新突破与挑战最新综述 | 大型视觉语言模型的基准评估、应用与挑战综述扩散模型也能推理时Scaling谢赛宁团队研究可能带来文生图新范式扩散策略算法归纳整理优势与挑战全球xx2024进展回顾北大王鹤老师组 | 对xx的思路研究全面梳理视觉语言模型对齐方法对比学习、自回归、注意力机制、强化学习等你真的知道什么是xx吗一文带你了解基础模型如何更好应用在xx中美的集团最新研究成果揭秘关于xxVision-Language-Action的一些思考生成理解一体多模态大模型的思考 xx仿真×自动驾驶视频模型ForxxVideo Prediction Policy论文思考分析 VLM-AD通过视觉语言模型监督实现端到端自动驾驶性能爆拉30%DreamDrive时空一致下的生成重建大一统真机数据白采了银河通用xx大模型已充分泛化基于仿真数据高度逼真3D场景UNREALZOO扩展xx的高真实感虚拟世界 MMLab最新FreeSim一种用于自动驾驶的相机仿真方法麻省理工学院GENSIM: 通过大型语言模型生成机器人仿真任务 EmbodiedCity清华发布首个真实开放环境xx平台与测试集华盛顿大学 | Manipulate-Anything操控一切! 使用VLM实现真实世界机器人自动化东京大学最新CoVLA用于自动驾驶的综合视觉-语言-动作数据集 ECCV 2024 Oral | DVLO具有双向结构对齐功能的融合网络助力视觉/激光雷达里程计新突破自动驾驶CornerCase变小Case看生成式显神通 #BEV-LIO 效果这么好结合BEV视图的带回环新颖紧耦合框架稀疏点云的挑战近年来LiDAR-惯性里程计LIO方法极大地提高了同时定位与建图SLAM的效率和精度。像FAST-LIO2这样的技术展现出了卓越的性能使得LiDAR和惯性传感器的融合成为一种广泛应用的里程计方案。然而LiDAR SLAM系统中点云的稀疏性带来了挑战。与具有结构化像素网格的图像数据不同LiDAR点云在三维空间中的不规则和稀疏分布使得提取稳定的关键点和独特的特征变得复杂这可能导致定位精度的降低。尽管一些方法通过将视觉信息与LiDAR数据融合来解决这些问题但它们需要额外的传感器、精确的外参标定和时间同步且在低光照条件下表现不佳。一些研究通过将点云投影到视距图像上来提升性能如MD-SLAM它利用从视距图像生成的多线索图像金字塔编码表面法线和强度信息进行姿态图优化。虽然基于视距图像的方法由于点云旋转与水平图像平移等价能够对视角变化表现出强鲁棒性但它们由于球面投影的原因存在尺度畸变的问题这限制了定位精度。 BEV表示提供了一种有前景的替代方案通过将LiDAR点云投影到结构化的二维图像中来进行表示。该方法在回环闭合检测中显示出了很大的潜力因为BEV能够保持尺度一致性和空间关系且通过卷积神经网络CNN进行鲁棒的特征提取。与视距图像不同BEV避免了尺度畸变并且能跨不同LiDAR类型广泛应用特别适用于全局定位和回环闭合检测。然而现有的基于BEV的方法主要聚焦于全局任务如位置识别和回环检测而在与实时里程计框架的紧密集成方面有所欠缺。这限制了它们充分发挥BEV在LiDAR里程计和其扩展到强鲁棒回环闭合检测中的潜力。本文介绍的BEV-LIO(LC)[1]是一种利用BEV图像将几何配准与重投影误差最小化紧密结合并通过BEV图像特征实现鲁棒回环闭合检测的LIO框架见图1。项目链接https://github.com/HxCa1/BEV-LIO-LC 主要贡献通过解析雅可比推导将BEV特征重投影误差与几何配准结合建立了一个紧密耦合的iEKF框架从而提高了前端里程计的精度。提出了一种回环闭合算法利用基于KD树索引的关键帧数据库和全局描述符进行高效候选检索。检测到回环闭合后首先通过BEV图像匹配进行RANSAC粗对齐然后通过ICP对几何测量进行精细化。优化后的变换被集成到因子图中与里程计因子一起优化进一步提高了全局一致性。大量实验结果表明BEV-LIO(LC)在各种环境和不同类型LiDAR下表现优异超越了现有的先进方法。具体方法 BEV-LIO(LC) 基于 FAST-LIO2 中提出的紧密耦合的 iEKF 框架进行构建用于点到平面配准。尽管 COIN-LIO 在 FAST-LIO2 的基础上通过光度误差最小化进行了扩展但 BEV-LIO 引入了一种新颖的方法通过 BEV 图像匹配来实现重投影误差最小化。由于 FAST-LIO2 已被广泛研究我们将重点介绍 BEV-LIO 和 BEV-LIO-LC 的组件。正如图 2 所示我们的方法从运动预测和点云去畸变开始以纠正 LiDAR 测量值。去畸变后的点云随后被投影到 BEV 图像中通过归一化点密度进行处理。我们采用旋转等变和不变网络REIN来从 BEV 图像中提取独特的局部和全局描述符。局部描述符与关键帧进行匹配用于构建重投影误差测量当前帧与关键帧之间的对齐度。全局描述符用于回环闭合检测通过实时构建的关键帧数据库进行查询。最终重投影残差被集成到 iEKF 框架中以优化位姿估计。符号定义我们将世界坐标系表示为 LiDAR 坐标系表示为 IMU 坐标系表示为。LiDAR 坐标系到 IMU 坐标系的变换表示为。第帧的机器人状态表示为其中和分别表示陀螺仪和加速度计的偏差。每个 LiDAR 扫描可以表示为一个点集其中是第个 LiDAR 点是点的总数。 IMU 预测与点云去畸变我们根据 FAST-LIO2 的方法采用卡尔曼滤波器的预测步骤通过积分 IMU 测量值从到传播状态。类似地我们计算出在最新时间戳下去畸变的点记为计算公式如下然后去畸变后的点集可以表示为。 BEV 图像投影模型根据现有的 3 自由度定位工作我们假设地面车辆在局部区域内沿粗糙的平面移动。基于这一假设我们将 LiDAR 扫描正交投影到 BEV 图像上优化包括x、y、偏航角的 3 自由度位姿估计。我们通过归一化点密度来构建 BEV 图像。对于一个扫描我们首先使用体素网格滤波器对点云进行下采样叶子大小为米。然后我们将地面平面离散化为一个 2D 卡尔特坐标网格其中分辨率为米。考虑一个以坐标原点为中心的矩形窗口点在图像中的投影可以表示为每个网格单元存储下采样后的点云的点数表示在中的分布。BEV 强度定义为其中表示归一化因子设置为点云密度的最大值。特征提取与匹配特征提取我们采用 REIN 来生成旋转等变的局部描述符用于前端里程计以及视角不变的全局描述符用于后端回环闭合检测。给定一个 BEV 图像旋转等变模块输出一个特征图其中分别表示高度、宽度和特征通道数。局部描述符主要用于帧间匹配从而计算重投影残差。为了便于回环闭合检测这些局部描述符通过 REIN 中的 NetVLAD 聚合生成一个全局描述符其中是 NetVLAD 中的聚类数。BEV 图像特征匹配我们首先从 BEV 图像中提取 FAST 关键点以实现快速准确的检测。如图 3 和 4 所示这些关键点具有较强的重复性通常对应于环境中的垂直结构如立面、杆、路标。然后给每个关键点分配一个通过 REIN 插值得到的局部描述符。利用这些局部描述符和关键点我们在 BEV 图像对之间进行特征匹配并使用 RANSAC 优化特征匹配从而构建重投影误差模型。重投影残差与卡尔曼更新我们通过匹配的特征最小化帧间重投影误差。误差通过将当前帧中的匹配特征投影到上一帧来计算。已知 BEV 图像中的特征点和对应的是同一空间点的投影我们计算重投影误差表示为 3D 点的投影位置与其观察位置之间的差异。误差计算公式为利用这些重投影误差我们通过卡尔曼滤波器对状态进行优化。回环闭合我们的后端采用类似 LIO-SAM 的因子图框架通过以下管道集成回环闭合约束关键帧数据库构建数据库逐步存储包含以下内容的关键帧元组其中是去畸变的点云是全局位姿是从提取的 NetVLAD 全局描述符。回环检测使用 KD 树索引全局描述符在回环检测时高效地检索候选关键帧。通过 BEV 图像进行粗对齐通过特征匹配计算粗略变换并使用 RANSAC 进行估计。ICP 精细化使用 ICP 对 BEV 图像匹配的粗对齐结果进行精细化提高精度和稳定性。因子图构建将优化后的变换集成到因子图中作为回环闭合因子从而在因子图中优化位姿纠正漂移保持全局一致性。实验效果总结一下 BEV-LIO(LC)是一种结合了BEV图像表示的LiDAR数据与几何配准的LIO框架用于前端里程计并通过BEV图像特征和因子图优化集成回环闭合到后端。通过结合BEV图像匹配的重投影误差和几何配准我们的框架通过iEKF紧密耦合这些残差从而显著提高了里程计的准确性和可靠性。对于回环闭合后端系统采用基于KD树索引的BEV描述符数据库进行高效检测。检测到回环闭合后通过RANSAC计算的粗略变换初始化ICP过程进一步精化变换最终通过因子图与里程计因子结合改善定位的全局一致性。大量实验结果验证了BEV-LIO(LC)在不同场景和不同LiDAR类型下的竞争性定位精度优于现有的先进方法。未来工作将集中在消除对CNN特征提取的依赖以进一步提升系统的实时性能。参考 [1] BEV-LIO(LC): BEV Image Assisted LiDAR-Inertial Odometry with Loop Closure #52万的小米SU7 Ultra 雷军把所有人都干懵了 52.99万起小米SU7 Ultra量产车开卖小米SU7 Ultra凭什么值52.99万准中国首富雷军亲自解析了科技豪华和性能。科技端到端智驾出厂即搭载支持「车位到车位」站上第一梯队。豪华让雷总感慨“经常买跑车的朋友都知道这一套没有200万出不了门。” 性能屠榜中国赛车场上赛打破保时捷纪录后雷总继续约战保时捷纽北见。小米SU7 Ultra的智能驾驶雷军认为智驾是新能源竞争的制高点因此小米SU7 Ultra出厂即搭载端到端智驾这是最前沿的技术范式。支持车位到车位车子可以自己寻找车位找到车位后自动泊入此外SU7 Ultra还升级了安全功能“误踩油门不加速” 或许是对自家智驾很自信雷总还配备了智驾保障保障金额最高300万雷军还透露了智驾背后的基础设施其中高机动智驾算力可达11.45EFLOPS。如果只看数字的话基本是国内TOP1但是前面还有个定语尚不清楚什么意思。此外不到1年的时间沉淀了超1000万Clips优质场景片段。雷军总结认为小米已经跻身智驾第一阵营接下来的目标是站稳。智能驾驶只是小米重注AI的冰山一角。在发布会上雷军还透露2025年要投入超300亿砸研发其中近1/4押注AI也就是75亿元。 SU7 Ultra运动豪华雷军认为过往的豪华车有很多像迈巴赫是老钱风属于行政豪华。而小米选择的是运动豪华。雷军表示这款车可以不用改装直接下赛道因为标配了很多赛道配置纽北调校底盘系统碳陶瓷制动盘Akebono制动卡钳前六后四活塞 21寸倍耐力 P ZERO5轮胎。强大性能来自搭载三电机两个是小米自研的V8s超级电机一个是小米和汇川联合研发的V6s。零百加速1.98秒最大时速350km/h快速高铁。此前在上赛打破了保时捷纪录此外还有小米赛道大师软件增加了可玩性车头配备大前铲U型风刀。电池包还做了防弹涂层。前备箱105L车侧有按钮可以电动开启。支持选装碳纤维双风道前舱盖售价4.2万元整车配备了大量的碳纤维配置以及24K镀金碳纤维车标。雷军现场指着PPT感慨经常买超跑的朋友应该都知道这一套下去没有两百万出不了门。打开车门虽然这是一辆零百1.98秒的性能怪兽但心有猛虎内有蔷薇有三挡亮度和色温皆可调。座椅有三种颜色带侧翼支撑还带座椅按摩该功能是雷总亲自定义的 SU7 Ultra量产车共有5款配色此前门店展出的都是闪电黄上市前预热时亮相的还有太空银鹦鹉绿以及发布会上正式亮相的珍珠白曜石黑售价52.99万元送5年免费保养小订用户还有如下权益此前多次提到的碳纤维和固定式大尾翼都免费送。如果觉得固定大尾翼太扎眼可以选电动尾翼加上车漆和内饰颜色免费送。还有Ultra Club年费3999元首批只有2000个会员配备专属赛道服务可以选装价值10万元的竞速套装雷军认为相比保时捷近200万元的Taycan Turbo GT毫不逊色。此外还有一款纽北限量版售价81.49万元。年销量1万的目标稳吗小米已官宣10分钟大定破6900台。小米SU7 Ultra是小米首次冲击豪华市场让小米股价突破历史新高一度将雷总送上首富。 One More Thing SU7 Ultra让小米股价持续走高发布会前一度涨至58.7港元对比11个月前小米SU7上市当天收盘时的14.94港元翻了近4倍。什么概念呢假设你在SU7上市当天拿买Max的钱重仓了小米今天就有希望提走1辆Ultra1辆Max1根铁丝儿把两辆车串起来开。股价走高雷总身价也随之大涨。根据此前披露信息雷总在小米持股比例约为24.12%以此计算雷军身价超3180亿元随后股价迅速回落。股价波动后“雷军喜提1小时首富”登顶热搜引发热议据说雷总本人也关注到了。有报道称雷总通过武汉大学校友群回应了“成为首富”称其为“假新闻”。虽然与首富失之交臂但考虑到小米汽车业务仍在增长期雷总八成以后会坐稳首富。有米粉已经送上祝福了。你说呢 #RL-OGM-Parking 秦通组新作自动泊车中混合强化学习规划器论文链接https://arxiv.org/pdf/2502.18846 摘要本文介绍了RL-OGM-Parking自动泊车中基于激光雷达占用栅格地图的混合强化学习规划器。自动泊车已经成为自动驾驶研发中的关键应用。泊车操作往往受到有限空间和复杂环境的影响需要准确感知和精确执行。传统基于规则的泊车算法难以适应多样化且不可预测的条件而基于学习的算法在各种场景中缺乏一致且稳定的性能。因此需要一种混合方法将基于规则方法的稳定性和基于学习方法的泛化能力相结合。最近基于强化学习RL的策略在规划任务中展现出强大的能力。然而模拟到现实sim-to-real的迁移差距严重阻碍了在现实世界中部署。为了解决这些问题本文采用了一种混合策略它由基于规则的Reeds-SheepRS规划器和基于学习的强化学习RL规划器组成。此外本文还采用一种基于激光雷达的实时占用栅格地图OGM表示来缩小模拟到现实的差距从而使得混合策略可以无缝应用于现实世界系统中。本文在仿真环境和现实世界场景中进行了大量的实验结果表明所提出的方法优于纯基于规则和基于学习的方法。现实世界实验进一步验证了所提出方法的可行性和效率。主要贡献本文的贡献总结如下 1本文提出了一种混合强化学习规划器它将激光雷达占用栅格地图OGM作为训练和推理阶段的输入。OGM表示通过对齐模拟和现实世界的感知输入有效地缩小了模拟到现实的差距 2本文在实车上部署了混合强化学习规划器以进行测试并且验证了在各种现实世界场景中的泊车能力、可行性和泛化能力为强化学习在自动泊车中的应用提供了有效的解决方案。论文图片和表格总结本文提出了一种用于自动泊车的混合强化学习规划器它利用实时占用栅格地图OGM进行感知。混合模型结合了基于规则的Reeds-SheepRS规划器和基于学习的强化学习RL规划器它将OGMs作为训练和推理阶段的输入。该方法有效地解决了模拟到现实的迁移差距从而在现实世界场景中实现了精确且高效的泊车操作。本文在一系列仿真和现实世界泊车场景中评估了所提出的方法展现了其在处理复杂泊车环境方面的出色能力。本文未来工作将着重于端到端模型和改进模拟器上以提高泛化性和泊车性能。本文认为本项工作将为推进自动驾驶领域的发展提供见解和实践经验。 #xx思维链—让机器人学会思考机器人控制策略难以训练数据之外进行泛化。最近关于视觉-语言-动作模型Vision-Language-Action models简称VLA的研究表明将大型互联网预训练的视觉-语言模型作为学习型机器人策略的核心可以显著提升其鲁棒性和泛化能力。在其他领域中大型视觉-语言模型最令人兴奋的能力之一是它们能够通过迭代推理解决复杂问题。这种能力是否可以引入机器人领域使策略能够在行动之前通过对给定任务的推理来提升性能呢由于标准VLA可用的训练样本相对简单因此直接使用“思维链”Chain-of-Thought简称CoT风格的提示效果并不理想。此外像在常规CoT中常见的那样仅进行关于子任务的纯语义推理对于需要将推理建立在感官观察和机器人状态之上的机器人策略来说是不够的。为此UC Berkeley团队提出了xx思维链推理Embodied Chain-of-Thought Reasoning简称ECoT在预测机器人动作之前训练VLAs对计划、子任务、运动以及视觉基础特征如目标边界框和末端执行器位置进行多步推理。设计了一个用于在大型机器人数据集上生成ECoT合成训练数据的pipeline。实验结果证明ECoT在具有挑战性的泛化任务中将当前最强的开源VLA策略OpenVLA的绝对成功率提高了28%而无需额外的机器人训练数据。此外ECoT还使人类更容易通过自然语言解释策略的失败并纠正其行为。方法 ECOT的核心有两部分xx思维链推理过程分解和训练数据自动标注。此外文中还提出了两种提高实时性的方法。 xx思维链推理过程图1 ECOT推理步骤在设计ECoT的推理步骤时目标有两个希望模型能够推理出当前任务所需的子任务并确定下一步需要执行的内容希望模型在预测机器人动作之前逐步将这种推理与场景和机器人状态的低级特征相结合。在图1中展示了训练视觉语言动作模型VLA执行的ECoT推理步骤的一个示例。从左到右模型首先被训练重新表述任务指令TASK并预测一个用于完成指令任务的计划PLAN。接下来模型需要推理出当前步骤应执行的子任务SUBTASK这需要理解场景和机器人的当前状态。然后模型预测一个更接近机器人低级动作的语言指令例如“向左移动”或“向上移动”MOVE。最后要求模型预测精确的、基于空间的特征来描述场景从而迫使模型仔细关注输入图像的所有元素——具体来说就是机器人末端执行器的像素位置GRIPPER以及场景中所有物体的名称和边界框像素坐标OBJECTS。尽管选择的推理任务及其顺序与我们对任务逐步解决方案的直觉高度一致但并没有穷尽所有可能的推理任务。测试替代任务及其顺序并找到自动确定合理推理链的方法将是未来研究的重要方向。训练数据自动标注若想获取高质量推理链最直接的方式是人工标注数据。然而这种方法对于包含数百万个单独转换的大型机器人学习数据集来说是不切实际的。因此提出利用预训练的视觉和/或语言基础模型自动生成ECoT训练数据类似于自然语言处理中的合成数据生成。图2 数据生成流程的概述如图2所示。对于给定的图像-指令对首先提示Prismatic-7B视觉语言模型VLM生成场景的详细描述。然后将原始指令与生成的描述拼接并输入到Grounding DINO中这是一个开放词汇对象检测器。它会检测所有相关对象实例及其边界框并将它们与输入文本中的相应语言片段关联起来。根据提供的置信度分数对预测结果进行筛选仅保留边界框置信度大于0.3且文本置信度大于0.2的检测结果用于作为OBJECT特征。接下来生成MOVE中的每步低级动作原语例如“向左移动”“向上移动”。按照Belkhale等人的方法利用机器人的本体感知来确定接下来4个时间步的运动方向假设摄像头固定并将其转换为729种模板化运动原语之一所有原语的列表见附录B。使用OWLv2和SAM检测训练图像中的2D末端执行器位置GRIPPER并将其与从机器人状态中提取的3D位置配对通过RANSAC拟合投影矩阵的稳健估计。然后使用机器人末端执行器位置的2D投影进行训练。该过程独立地对每条轨迹重复进行无需假设固定的摄像头参数。为了生成最终的推理链将每个episode的任务指令、场景描述和每步运动原语输入到Gemini 1.0中提示其根据任务指令和观察到的运动原语生成子任务的高级计划以及每步的当前子任务。同时还要求其简要解释每步中的原始运动和所选子任务这些内容将包含在ECoT训练数据中。数据生成流程在完整的Bridge v2数据集上运行该数据集包含超过250万个step整个过程耗时7天。实时推理策略推理速度是ECoT策略面临的一个关键挑战。模型需要预测额外的推理token显著增加了耗时。每个时间步需要预测的token数量从OpenVLA的7个增加到ECoT的350个。基于LLM的特性一种加速推理的解决方案是对于多个步骤保持推理链的部分内容不变如高层次的计划或当前子任务。关键是对于基于Transformer的策略如OpenVLA来说编码之前预测的token比生成新标记要快得多。进一步给出了两种策略 1同步执行但每N步预测一次高层次的推理 2异步执行其中一个ECoT策略实例不断更新高层次的推理链而第二个策略实例则使用最新的推理链来预测低层次的推理步骤和机器人动作。此外可以结合现有的提高大语言模型和视觉-语言模型吞吐量throughput的方法比如优化的计算内核和推测解码。实验实验从以下几个角度展开 1xx思维链推理是否提升了VLA策略的表现 2xx思维链推理是否更容易解释和纠正策略失败 3xx思维链的推理速度优化任务成功率远超baselines 成功案例和失败案例能够利用自然语言提示和校正在不同机械臂上泛化加速效果总结提出了一种训练视觉语言动作VLA策略以执行思维链推理的方法可以在无需收集额外机器人训练数据的情况下显著提升其性能。该方法没有简单照搬语言建模中的思维链CoT方法而是通过添加与场景和机器人状态紧密结合的推理步骤的重要性例如涉及目标边界框、机器人的末端执行器或低级机器人运动。该方法仍存在一些局限性。首先模型没有根据当前的任务调整其推理链的结构它只能按照预定义的固定顺序执行所有推理步骤。更有效的策略应该是根据机器人和场景状态仅执行部分推理步骤未来的工作可以探索直接优化模型以选择最佳的推理步骤。此外将ECoT训练扩展到OXE数据集的更大子集将有助于将ECoT能力迁移到更多机器人上。最后推理速度仍然是一个关键瓶颈未来需要进一步优化以实现更高效的推理。 #2024年度智能车十大人物 2024谁在引领智能车发展有这样一群人他们作为企业家、创业者在产品创新、技术进步、行业发展上做出了卓越贡献成为行业领军人。他们不是繁荣璀璨的中国智能车江湖的全部但在广泛征集、专业推荐、以及智能车参考垂直社群的万人票选后实力所至、魅力所向、民心所属。 2024年度十大智能车人物他们就是 (以姓氏拼音首字母排序) 雷军·首战封神年度封面人物首发爆款月销两万。三年造车一战封神。热搜天王重新定义车圈营销。征战纽北最速四门打破纪录。打通人车家站上新起点在车圈点燃「小米时刻」。 2024小米SU7之夜雷总飞升雷神。曹旭东·隐形冠军最早洞察端到端的AI明星、最多定点的智驾隐形冠军。天才构建初速度交付证明加速度。智驾是起点数据是飞轮Robotaxi是终点。 Momenta双线并行有路就有自动驾驶。韩旭·境界无双诗人教授科学家首席执行官…… 他的标签有很多但远不及文远方案落地的车。 L4底座下WePilot联手博世赋能奇瑞升维。 Robotaxi第一股Uber加持出海无人驾驶。 2024 IPO一个接一个他的境界独一无二。李想·AI理想信仰端到端All in投智驾。爆款车型缔造者改写智驾梯队格局率先全量推送「车位到车位」。他推动智驾飞升并非只为销量创造「硅基家人」才是最终理想。吴会肖·最美CTO 亲自带队冲刺智驾交付打造高端爆款临危受命救智舱于卡顿转车机之口碑。新晋铁娘子最美CTO。保定生长城长懂车懂技术一人一车一城。王晓刚·AGI上车他是当世中国被引次数最高的计算机科学家。力推一段式端到端上车将Best Paper成果落地。从理论到实践从学术到技术。自动驾驶是路指向AGI珠峰。余凯·征程与共他是最早认识到深度学习价值的创业者。也是最早入局自动驾驶创业的科学家。创业九年有芯有智软硬兼长。 IPO现场地平线之上国产智驾生态组团登场。尹同跃·智变纪元他是中国汽车的先行者也是出海冠军的掌门人。扎根安徽深耕国内Carry全球。 27载初心不变自研燃油车三大件率先探索新能源。如今科技飞轮加持带领奇瑞迎来智能车「新纪元」。朱华荣·引望长安率先入股华为车BU为长安冲高引望。征召行业大牛投千人自研智驾。从「拓儿车」到启源他「迎头赶上尽我智能」。带领百年长安焕发智能车新机驶向“深蓝”未来。长安在重庆稳坐车圈第一城。张兴海·顶峰相见携手于低谷相见在顶峰。三次创业每一次都是新跨越。四年合作每一年都是新台阶。鸿蒙初辟无人问问界夺魁局面开。他在智能车时代的眼光和气魄敢叫赛力斯换BBA。特别存在余承东·非凡大师他用智驾进车圈“遥遥领先”。他带鸿蒙入出行“强得飞起”。 BBA垄断豪华溢价强弩之末。四界一步一登台拿回定价权。科技有华为造车看淮军他才是无冕的非凡大师。 #xxx

查看全文

http://www.sczhlp.com/news/161816/