门户网站关键词,企业画册设计图片,泉州市住房与城乡建设网站,城阳做网站MobileMamba 快速链接解决问题#xff1a;视觉模型在移动设备端性能和效果的平衡性解决方法#xff1a;改进网络结构训练和测试策略网络结构改进训练和测试策略 实验支撑#xff1a;图像分类、分割#xff0c;目标检测等图像分类结果对比目标检测和实例分割结果对比语义分割… MobileMamba 快速链接解决问题视觉模型在移动设备端性能和效果的平衡性解决方法改进网络结构训练和测试策略网络结构改进训练和测试策略 实验支撑图像分类、分割目标检测等图像分类结果对比目标检测和实例分割结果对比语义分割结果对比 快速链接
原文 : https://arxiv.org/pdf/2411.15941 代码 : https://github.com/lewandofskee/MobileMamba
解决问题视觉模型在移动设备端性能和效果的平衡性 因为移动设备的算力受限移动设备上常使用轻量级网络。在图像领域常用的轻量级网络主要分基于CNN的网络以及基于vision-transformer的网络但都有其局限性。基于CNN的网络速度快效果好但无法捕捉长距的关系。基于vision-transformer的网络可捕捉长距离间关系但其计算复杂度与输入图尺寸的平方成正比。state-space模型可以用线性复杂度的计算量捕获长距关系。state-space和Mamba模型应存在某些关系。已有的基于Mamba的网络flops低但推理速度慢效果差。本文提出的MobileMamba可以平衡效果和性能, imagenet-1K Top1 83.6% 超最优。GPU上速度比localVim快21倍。
解决方法改进网络结构训练和测试策略 本文通过改进Mamba网络结构使用一些训练和测试策略达到对Mamba模型的轻量化并且保证其优异的效果。
网络结构改进 粗颗粒上本文对比了常用的4阶段网络与提出的3阶段网络在输出分辨率上的差异。用imagenet-1k的图像分类实验结果说明提出的3阶段网络在推理速度准确性上都更优。感觉存粹是一种基于实验经验判断的结构改进。 细颗粒度上本文提出了MRFFI模块Multi-Receptive Field Feature Interaction 多感受野特征交互。输入特征在channel维度分配到以下三部分。 1long-range wavelet trasform-enhanced mamba长程基于小波转换的mamba用于提取全局特征增强细颗粒度细节提取。 2multi-kernel depthwise convolution多核深度可分离卷积用于捕获多尺度的感受野。 3identity mapping恒等映射就是输出和输入相同用于减少高分辨率空间通道冗余降低计算复杂度提高处理速度。
训练和测试策略
训练方面使用了2个技巧。 1知识蒸馏最小化教师模型和学生模型的 Softmax 输出之间概率分布差异。 2延长训练epochs: 训练的epoch数量从传统的300延长到1000让此模型收敛。 测试方面将批归一化层融合到前面卷积或线性层的权重、偏置中并且保证融合前后计算结果一致。这样通过减少计算层数提高计算速度。
实验支撑图像分类、分割目标检测等
图像分类结果对比 目标检测和实例分割结果对比 语义分割结果对比