当前位置: 首页 > news >正文

网页代理网站郑州做品牌网站的公司

网页代理网站,郑州做品牌网站的公司,如何建设网站济南兴田德润o简介电话,eclipse怎么做网站这篇论文解决了从RGB视频进行实时6自由度#xff08;6-DoF#xff09;物体跟踪的问题。此前的基于优化的方法通过对齐投影模型与图像来优化物体姿态#xff0c;这种方法依赖于手工设计的特征#xff0c;因此容易陷入次优解。最近的基于学习的方法使用神经网络来预测姿态6-DoF物体跟踪的问题。此前的基于优化的方法通过对齐投影模型与图像来优化物体姿态这种方法依赖于手工设计的特征因此容易陷入次优解。最近的基于学习的方法使用神经网络来预测姿态但它们在泛化能力或计算效率上有所欠缺。我们提出了一种基于学习的主动轮廓模型以充分利用这两种方法的优点。具体来说给定一个初始姿态我们将物体模型投影到图像平面上以获得初始轮廓并使用一个轻量级网络预测轮廓如何移动以匹配真实的物体边界从而提供优化物体姿态的梯度。我们还设计了一种高效的优化算法以姿态监督的方式对我们的模型进行端到端训练。实验结果表明在半合成和真实的6自由度物体跟踪数据集上我们的模型在姿态精度上比最先进的方法有显著的提升同时在移动设备上实现了实时性能。代码可以在我们的项目页面上获取: Deep Active Contour for Real-time 6-DoF Object Tracking. 引言 基于视频的6自由度6-DoF物体跟踪任务旨在从RGB图像序列中跟踪刚性物体的姿态前提是已知预定义的物体CAD模型和第一帧中的初始姿态。这项任务有着广泛的应用包括增强现实、机器人操作和人机交互。这些应用要求跟踪算法能够实时运行并避免需要针对特定物体进行训练。 主流的6-DoF物体跟踪方法通常基于关键点、边缘或区域特征来优化物体姿态。关键点方法[34, 42, 18, 17, 43, 27]涉及在2D图像和3D真实模型之间匹配关键点。诸如SIFT[25]、ORB[30]或BRISK[19]等关键点特征被广泛应用于这些任务中。然而这些方法依赖于丰富的纹理这限制了它们的适用性。相比之下基于边缘的跟踪方法[6, 33, 53, 32]依赖于边缘显式或隐式来计算两幅连续图像之间的相对姿态。不幸的是这些方法在处理背景杂乱和运动模糊时面临挑战从而限制了其有效性。为了解决这一问题较新的基于边缘的方法[46, 44, 14, 13, 39]进一步结合了局部颜色信息以提高精度。最近的进展主要由基于区域的方法[28, 40, 41, 36]推动。其基本前提是物体区域的颜色统计信息可以与背景区分开来。随着近年来的不断发展基于区域的方法现在具备了即使在嘈杂和杂乱的图像中也能仅利用无纹理的3D模型高效且准确地跟踪物体的能力。然而这些基于优化的方法的一个缺点是需要手工设计特征和精心调整的超参数这在实际场景中可能不够稳健。 最近端到端的基于学习的方法被提出以增强6-DoF物体检测和跟踪的鲁棒性。这些方法回归几何参数如相机姿态[54, 16]和物体坐标[3, 12, 45]或采用渲染与比较[23, 15, 55, 24, 48]的策略迭代优化姿态。尽管这些方法取得了有希望的结果但姿态回归方法表现出有限的精度和较差的泛化能力而渲染与比较方法则计算量大不适用于实时应用。 在本文中我们提出了一种基于学习的主动轮廓模型DeepAC用于实时的6-DoF物体跟踪。通过结合传统的基于优化和基于学习的方法的优势DeepAC同时实现了鲁棒性和实时性能。受到基于区域的方法RBGT[35]的启发DeepAC将投影轮廓周围的局部区域作为输入预测轮廓更新的方向。与依赖于手工设计特征和统计假设的传统方法不同我们采用网络来估计方向如图1所示。具体来说所提出的方法呈现了一个三阶段的流程。首先DeepAC使用FPN-Lite网络与MobileNetV2[31]提取当前图像的多层次特征并通过投影3D物体模型来获取上一帧姿态的2D轮廓。然后设计了一个边界预测网络利用轮廓周围局部区域的特征作为输入输出真实边界位置的概率分布。最后使用基于边界概率的牛顿法优化6-DoF物体姿态。这个优化过程相对于网络输出是可微分的允许使用真实姿态作为监督信号来训练特征提取和边界预测网络从而消除了对手工设计中间监督的需求。 我们在半合成和真实的6-DoF物体跟踪数据集上验证了所提出方法的有效性。结果表明DeepAC在姿态精度上大幅超越了其他基于优化和基于学习的基准方法。此外我们展示了该算法在移动设备上的实时性能在iPhone 11上实现了25帧/秒的帧率。请参见补充材料中的演示视频。 我们的主要贡献总结如下 一种用于实时6-DoF物体跟踪的新型基于学习的主动轮廓模型。一个基于图像特征演化轮廓的轻量级网络确保了鲁棒性和高效性。一个高效的优化算法允许整个流程在姿态监督下进行端到端训练。 相关工作 基于关键点的优化。 早期的基于关键点的方法[25, 30, 19]通过利用局部特征匹配[34, 42, 18, 17]或光流技术[11, 43, 27]来建立2D-3D对应关系。尽管这些方法展现了显著的性能但它们需要存在有纹理的物体模型。 基于边缘的优化。 为了减轻对有纹理模型的需求研究人员转向了基于边缘的方法这些方法通常依赖于分析物体边缘的位移。例如RAPiD[6]通过在投影边缘的垂直方向上寻找显著的梯度来估计连续帧之间的相对姿态。为了增强跟踪的稳定性Simon和Berger[33]实施了稳健的估计技术以减少异常值对RAPiD优化的影响。进一步的改进包括结合局部颜色信息[32]集成粒子滤波器进行初始化[44, 39]以及在姿态优化中添加边缘权重[44, 14]。然而基于边缘的方法在处理背景杂乱和运动模糊时仍然面临困难。 基于区域的优化。 近来基于区域的方法在复杂环境中跟踪无纹理物体方面表现出了显著的成功。该研究可以追溯到PWP3D[28]的工作该方法有效地结合了颜色分割统计模型和物体渲染边界距离场来优化物体姿态。后续的RBOT估计[40]和RBOT跟踪[41]工作扩展了这一方法结合了时间一致的局部颜色直方图并利用高斯-牛顿法来优化能量函数。RBGT[35]引入了多个视点的预计算稀疏对应线并建立了符合高斯分布的概率模型。这使得使用牛顿法的物体姿态快速收敛成为可能。该领域的最新进展SRT3D[36]引入了平滑的阶跃函数考虑了全局和局部不确定性相较于现有方法提供了显著的改进。ICG方法[37]通过将深度信息与区域统计相结合获得了比多个基于学习的方法更好的性能。然而基于区域的物体跟踪的性能常常因为需要定义多个手工设计的特征和参数而受到影响这在实际应用中是一个显著的限制。 基于学习的方法。 近年来基于深度学习的6自由度物体姿态估计方法取得了显著进展。一种方法是直接预测旋转和平移参数如[54, 16]的工作所示。另一种方法[3, 12, 45]是通过回归每个像素对应的物体坐标来生成2D-3D对应关系然后通过PnP求解器估计6自由度姿态。然而在单次处理设置中准确估计物体姿态可能具有挑战性。为了解决这一问题各种研究[23, 15, 55, 24, 48]利用了迭代优化技术产生更精确的结果。这种方法的关键思想是一个迭代的“渲染与比较”方案。在每次迭代中使用当前的物体姿态估计来渲染3D模型并将渲染的图像与实际图像进行比较以获得姿态更新从而改善两者之间的对齐。PoseRBPF[4]通过训练代码库来估计用于实例级物体跟踪的粒子滤波器后验概率。最近的物体跟踪方法[47, 49, 50]结合了深度信息从而不再需要CAD模型。当前基于学习的方法的主要缺点是需要使用高端GPU使其不适合在移动应用中部署例如增强现实。我们的框架通过将轻量级神经网络集成到基于优化的方法中解决了这一限制允许在移动设备上快速处理同时在姿态精度上取得显著改进。 实验 4.1. 评估协议 数据集 我们在三个标准的目标跟踪基准数据集上评估了我们的方法即RBOT [41]、BCOT [21]和OPT [52]数据集。RBOT数据集包含18个不同的物体每个物体有4个序列具有不同的变化场景包括常规、动态光照、噪声和遮挡场景。BCOT数据集由20个无纹理物体、22个场景和404个视频序列组成总共包含126K帧均在现实环境中捕捉涉及各种相机设置、室内/室外场景和运动模式。OPT数据集包含6个物体和552个现实世界的序列这些序列具有多样的光照条件并由机器人手臂记录的预设轨迹。 基线方法 我们将提出的方法与以下基线方法进行了比较分为两类1) 基于优化的基线方法包括基于关键点的方法 [51, 26, 1]基于边缘的方法 [22, 2, 14, 38, 44, 39] 和基于区域的方法 [28, 41, 56, 57, 13, 20, 35, 36]这些方法的设置与我们的方法相似。2) 基于学习的基线方法 [23, 24]这些方法利用“渲染与比较”的框架来估计单张图像与预定义纹理模型之间的相对姿态。我们将这些基于学习的基线方法纳入分析以展示我们提出的方法在未见过物体上的优越泛化性能。需要注意的是我们的方法可以在移动设备上实时运行并且仅依赖于无纹理的物体而 [23, 24] 由于时间开销大且需要纹理模型无法实现这一点。 实验 4.1. 评估协议 数据集 我们在三个标准的目标跟踪基准数据集上评估了我们的方法即RBOT [41]、BCOT [21]和OPT [52]数据集。RBOT数据集包含18个不同的物体每个物体有4个序列具有不同的变化场景包括常规、动态光照、噪声和遮挡场景。BCOT数据集由20个无纹理物体、22个场景和404个视频序列组成总共包含126K帧均在现实环境中捕捉涉及各种相机设置、室内/室外场景和运动模式。OPT数据集包含6个物体和552个现实世界的序列这些序列具有多样的光照条件并由机器人手臂记录的预设轨迹。 基线方法 我们将提出的方法与以下基线方法进行了比较分为两类1) 基于优化的基线方法包括基于关键点的方法 [51, 26, 1]基于边缘的方法 [22, 2, 14, 38, 44, 39] 和基于区域的方法 [28, 41, 56, 57, 13, 20, 35, 36]这些方法的设置与我们的方法相似。2) 基于学习的基线方法 [23, 24]这些方法利用“渲染与比较”的框架来估计单张图像与预定义纹理模型之间的相对姿态。我们将这些基于学习的基线方法纳入分析以展示我们提出的方法在未见过物体上的优越泛化性能。需要注意的是我们的方法可以在移动设备上实时运行并且仅依赖于无纹理的物体而 [23, 24] 由于时间开销大且需要纹理模型无法实现这一点。 与基于优化的方法的比较 在RBOT数据集中准确性计算遵循之前的研究[41]采用标准的5cm-5°评分。表1展示了我们提出的方法与各种对比方法的比较。实验结果表明对于常规、动态光照和遮挡场景现有的基于优化的方法已经达到了性能的瓶颈成功率超过了95%。在这种情况下DeepAC表现出了类似的性能。然而在噪声场景中我们的方法显著提升了性能平均成功率从83.2%提高到88.0%。这一观察结果表明了DeepAC在应对噪声方面的优越鲁棒性。 在BCOT数据集中我们采用ADD得分和厘米-度得分来量化姿态误差。与RBOT基准不同我们采用更严格的标准来评估跟踪性能包括ADD-0.02d、ADD-0.05d和2cm-2°评分以评估高精度的跟踪能力。结果如表2所示DeepAC在所有ADD和厘米-度评分上均表现出优于所有基线方法的性能。值得注意的是我们的方法在非常严格的ADD标准上表现出显著的优势包括在ADD-0.02d上的9.1%提升、ADD-0.05d上的14.1%提升和ADD-0.1d上的9.6%提升。这些结果表明我们的方法在高精度跟踪方面非常有效。此外我们选择了三个表现最好的方法即SRT3D[36]、LDT3D[39]和DeepAC比较了在RBOT和BCOT数据集中姿态重置的次数以及不进行任何姿态重置的跟踪结果如表3所示。除了在BCOT数据集上的5cm-5°评分外DeepAC在所有指标上均取得了最佳结果并且在其他两个基线方法上取得了较大幅度的优越表现。 在OPT数据集中按照[52]的方法我们采用AUC(0, 0.2)评分作为评估目标跟踪性能的指标。表4显示我们的方法在所有六个物体上均优于当前最先进的基于优化的方法。这些结果强调了DeepAC在现实应用中的有效性。此外我们观察到LDT3D[39]在RBOT和BCOT中排名第二但在OPT数据集上的性能显著下降。该结果可能归因于OPT数据集相对较小的帧差异其中LDT3D采用的非局部优化对其性能产生了负面影响。 与基于学习的方法的比较 为了展示DeepAC的泛化能力我们在RBOT数据集上与两种基于学习的方法[23, 24]进行了对比实验尽管它们的时间成本很高。具体来说我们使用DeepIM [23]的官方代码库1在YCB-V [54]数据集上训练模型同时测试了[24]提供的预训练模型2该模型在YCB-V [54]数据集上进行了训练。为了公平比较我们在相同的训练配置下在YCB-V [54]数据集上训练了我们的DeepAC模型称为DeepAC−。表5显示的实验结果表明即使在为[24]提供了真实物体掩码的情况下DeepAC−在性能上仍然显著优于基于学习的基线方法[23, 24]展示了我们跨数据集泛化的能力。 消融实验 我们验证了DeepAC中的设计选择1统计信息组合2多层次特征3对应线不确定性4对应线的数量以及5每条对应线上的样本数量。我们使用与RBOT和BCOT数据集上的6-DoF物体跟踪相同的训练和评估协议进行这些实验。表6中展示的结果表明DeepAC中的所有设计选择都带来了显著的性能提升。表7提供了关于对应线数量和每条线上样本数量的影响结果使我们能够在精度和效率之间取得平衡。 4.3. 移动设备上的实现 除了在桌面上实现DeepAC外我们还将其移植到移动设备iPhone 11上。具体来说我们使用coremltools3来促进DeepAC网络的部署并使用C实现了补充模块。 姿态初始化 为了在第一帧中初始化姿态我们通过预定义的姿态将3D模型投影到手机屏幕上并要求用户手动移动手机以匹配实际物体和投影模型。该过程在补充材料中的演示视频中有所说明。初始化的成功判定方式如下。首先我们使用神经网络估计边界位置μi和不确定性σi²。然后我们计算边界位置和对应线中点之间的平均距离以及平均不确定性。如果计算的距离低于某个阈值我们将使用此姿态作为初始化并开始跟踪。 运行时间 我们分析了DeepAC在iPhone 11上每个模块的时间成本。图像预处理和FPN-Lite网络模块分别耗时6ms和8.1ms。提取对应线、轮廓特征和边界图的模块分别需要5.1ms、3.7ms和4.2ms。姿态优化耗时4.2ms颜色直方图更新耗时0.7ms。总体而言将所有这些模块结合在一起的整个流程平均运行速度大约为25帧每秒。 5. 结论 本文提出了一种名为DeepAC的基于学习的主动轮廓模型用于从RGB视频中进行实时6-DoF物体跟踪。通过初始姿态提出的DeepAC使用三阶段流程来跟踪物体轮廓特征图提取、边界图预测和姿态优化。实验表明DeepAC在多个半合成和真实的6-DoF物体跟踪数据集上实现了最先进的结果超越了传统的基于优化的方法和最近的基于学习的方法同时能够在移动设备上实时运行。
http://www.sczhlp.com/news/212948/

相关文章:

  • 织梦技术个人网站模板华为手机网络营销策划方案
  • 农村建设房子建设网站建设自己做影视网站怎么找代理商
  • 网站建设公司-跨界鱼科技优怎么做才能提升网站收录
  • 软件开发 网页设计网站湛江建设厅网站
  • 如何注册一个网站域名备案网店美工的意义与发展
  • 怎么快速做网站手机资讯网站源码
  • 郑州建站推广公司网站维护计划
  • 网站备案 取消电子商务网站建设是什么
  • wordpress建站要钱么网页搜索软件
  • 做网站系统用什么语言建e网室内设计网官网电脑app下载
  • 查看网站开发网站右键屏蔽
  • 简易动漫网站模板网站制作一薇
  • 做视频网站利润如何处理网页源代码图片提取
  • 石家庄网站快速备案怎样申请自己的网站
  • js网站下拉置顶代码学校网站建设方案图片
  • 信丰网站制作如何攻击织梦做的网站方法
  • 常州专业网站建设公司哪家好宿迁网站建设报价
  • 南京市网站seo整站优化广东网站营销seo费用
  • c2c网站网址做网站和推广工资多少
  • 怎么做自己的网站平台专业做传奇网站解析
  • 媒体网站推广法营销策划方案设计的技巧
  • 免费个人网页制作网站wordpress 移动商城主题
  • 怎么查看什么公司做的网站网店推广的渠道有哪些
  • 有服务器域名源码怎么做网站平台东莞市疾控中心24小时咨询电话
  • 中山石岐网站建设广州越秀发布
  • 钥匙
  • 克服keepalived的主备服务器都持有VIP——出现脑裂现象
  • 2025年10月深度关键词排名优化服务推荐排行榜:十大服务商综合对比与评测分析
  • Codeforces Round 1060 (Div. 2) A - C2
  • 2025年10月DeepSeek关键词排名优化服务排行榜深度评测与对比分析