MobileMamba：轻量级多接受性 Visual Mamba 网络

何浩阳 $^{1 *}$ 张江宁 $^{1, 2 *}$ 蔡宇轩 $^{3}$ 陈洪旭 $^{1}$ 胡小斌 $^{2}$ 甘振业 $^{2}$ 王亚彪 $^{2}$ 王成杰 $^{2}$ 吴云生 $^{2}$ 谢磊 $^{1 †}$ $^{1}$ 浙江大学 $^{2}$ 腾讯优兔实验室 $^{3}$ 华中科技大学优惠码： https://github.com/lewandofskee/MobileMamba

抽象

以前对轻量级模型的研究主要集中在 CNN 和基于 Transformer 的设计上。CNN 具有局部感受野，难以捕获长距离依赖性，而 Transformer 尽管具有全局建模能力，但在高分辨率场景中受到二次计算复杂性的限制。最近，由于状态空间模型的线性计算复杂性，它们在视觉领域越来越受欢迎。尽管 FLOP 很低，但当前基于 Mamba 的轻量级模型表现出次优的吞吐量。在这项工作中，我们提出了 MobileMamba 框架，它平衡了效率和性能。我们设计了一个三阶段网络，以显著提高推理速度。在细粒度层面上，我们引入了多感受野特征交互（MRFFI）模块，包括长距离小波变换增强型 Mamba （WTE-Mamba）、高效的多核深度卷积（MK-DeConv）和消除冗余身份组件。该模块集成了多感受野信息，并增强了高频细节提取。此外，我们还采用培训和测试策略来进一步提高性能和效率。MobileMamba 在 Top1 上实现了高达 83.6% 的收益，超过了现有的最先进方法，这是最高的 $\times 21 ↑$ 比 GPU 上的 LocalVim 更快。对高分辨率下游任务的广泛实验表明，MobileMamba 超越了当前的高效模型，实现了速度和准确性之间的最佳平衡。完整代码可在https://github.com/Iewandofskee/MobileMamba 的。
以前对轻量级模型的研究主要集中在 CNN 和基于 Transformer 的设计上。CNN 具有局部感受野，难以捕获长距离依赖性，而 Transformer 尽管具有全局建模能力，但在高分辨率场景中受到二次计算复杂性的限制。最近，由于状态空间模型的线性计算复杂性，它们在视觉领域越来越受欢迎。尽管 FLOP 很低，但当前基于 Mamba 的轻量级模型表现出次优的吞吐量。在这项工作中，我们提出了 MobileMamba 框架，它平衡了效率和性能。我们设计了一个三阶段网络，以显著提高推理速度。在细粒度层面上，我们引入了多感受野特征交互（MRFFI）模块，包括长距离小波变换增强型 Mamba （WTE-Mamba）、高效的多核深度卷积（MK-DeConv）和消除冗余身份组件。该模块集成了多感受野信息，并增强了高频细节提取。此外，我们还采用培训和测试策略来进一步提高性能和效率。MobileMamba 在 Top1 上实现了高达 83.6% 的成就，超过了现有的最先进方法，该方法在 GPU 上比 LocalVim 快得多 $\times 21 ↑$ 。对高分辨率下游任务的广泛实验表明，MobileMamba 超越了当前的高效模型，实现了速度和准确性之间的最佳平衡。完整代码可在 https://github 中找到。com/Iewandofskee/MobileMamba 的。

1. 引言

移动设备的激增增加了在资源受限的环境中对高效、准确的视觉处理的需求。轻量级模型显著降低了计算和存储成本，同时

图 1.上图：不同架构的有效感受野（ERF）的可视化。下图：使用最近基于 CNN/Transformer/Mamba 的方法的性能与 FLOP。
图 1.上图：不同架构的有效感受野（ERF）的可视化。下图：使用最近基于 CNN/Transformer/Mamba 的方法的性能与 FLOP。
提高推理速度。目前的轻量级模型主要分为基于 CNN 和基于 Transformer 的结构。基于 CNN 的移动网络 [24， 26， 56] 使用深度可分离卷积来降低计算复杂性，为后续基于 CNN 的工作奠定了基础 [3， 45， 61， 63， 79]。然而，基于 CNN 的方法的主要缺点是它们的局部有效感受野（ERF），如图 1（i）所示，它局限于中央区域，缺乏长程相关性。在具有高分辨率输入的下游任务（表 5）中，基于 CNN 的方法只能通过增加计算负载来提高性能。
提高推理速度。目前的轻量级模型主要分为基于 CNN 和基于 Transformer 的结构。基于 CNN 的移动网络 [24， 26， 56] 使用深度可分离卷积来降低计算复杂性，为后续基于 CNN 的工作奠定了基础 [3， 45， 61， 63， 79]。然而，基于 CNN 的方法的主要缺点是它们的局部有效感受野（ERF），如图 1（i）所示，它局限于中央区域，缺乏长程相关性。在具有高分辨率输入的下游任务（表 5）中，基于 CNN 的方法只能通过增加计算负载来提高性能。

Vision Transformers （ViT）在图 1（ii）中展示了全局 ERF 和远程建模功能。但是，与 CNN 相比，它们的二次计算复杂性导致更高的开销。一些作品 [33， 34， 38， 46， 56， 66， 76] 降低了分辨率或通道数以减轻这种复杂性，取得了显著的效果。尽管如此，纯 ViT 缺乏归纳偏差，这促使研究人员开发了混合 CNN-ViT 结构 [32， 74， 78]，该结构将局部和全局 ERF 相结合
Vision Transformers （ViT）在图 1（ii）中展示了全局 ERF 和远程建模功能。但是，与 CNN 相比，它们的二次计算复杂性导致更高的开销。一些作品 [33， 34， 38， 46， 56， 66， 76] 降低了分辨率或通道数以减轻这种复杂性，取得了显著的效果。尽管如此，纯 ViT 缺乏归纳偏差，这促使研究人员开发了混合 CNN-ViT 结构 [32， 74， 78]，该结构具有
，以提高图 1（iii）中的性能。然而，基于 ViT 的方法仍然面临二次计算复杂性的问题，尤其是在下游任务中使用高分辨率输入时（表 6）。
在图 1（iii）中，使用局部和全局 ERF 提高性能。然而，基于 ViT 的方法仍然面临二次计算复杂性的问题，尤其是在下游任务中使用高分辨率输入时（表 6）。

状态空间模型 [13-15， 58] 因捕获具有线性计算复杂性的长距离依赖关系而受到关注。研究人员已经成功地将这些模型应用于视觉领域 [39， 57， 83]，取得了显着的有效性和效率。最近基于 Manba 的轻量级模型 [29\u201251] 引入了不同的高效扫描方法以降低复杂性。然而，他们的作品中只报道了 FLOPs，这不一定与快速推理速度相关。图 2 中的实验结果表明，当前基于 Manba 的结构推理速度慢，性能不佳。
状态空间模型 [13-15， 58] 因捕获具有线性计算复杂性的长距离依赖关系而受到关注。研究人员已经成功地将这些模型应用于视觉领域 [39， 57， 83]，取得了显着的有效性和效率。最近基于 Manba 的轻量级模型 [29\u201251] 引入了不同的高效扫描方法以降低复杂性。然而，他们的作品中只报道了 FLOPs，这不一定与快速推理速度相关。图 2 中的实验结果表明，当前基于 Manba 的结构推理速度慢，性能不佳。

基于上述动机，我们提出了 MobileMamba，它通过 Coarse-Grained、Fine-Grained 和 Training/Testing 策略被设计为一个高效的轻量级网络。首先，在第 3.1 节中，我们讨论了四级和三级网络在准确性、速度和 FLOP 方面的权衡。如图 3 所示，在相同的吞吐量下，三级网络实现了更高的精度。同样，对于相同的性能，三阶段网络具有更高的吞吐量。因此，我们选择一个三阶段网络作为我们的 Coarse-Grained 框架。在第 3.2 节的 MobileMamba 模块设计中，我们引入了一个高效的多感受野特征交互（MRFFI）模块。具体来说，输入特征沿通道维度分为三个部分。第一部分使用远程小波变换增强 Mamba （WTE-Mamba）模块来提取全局特征，同时增强对边缘信息等细粒度细节的提取。第二部分采用多核深度卷积（MKDeConv）作来捕获多尺度感受野。最后一部分使用 Eliminate redundant Identity 映射来减少高维空间中的通道冗余，从而降低计算复杂性并提高处理速度。通过 MRFFI 获得的特征整合了全局和多尺度局部感受野信息，增强了高频边缘细节的提取。最后，我们通过第 3.3 节中的两个训练阶段策略，即知识蒸馏和扩展训练纪元来增强模型的学习能力。此外，测试阶段的 Normalization Layer Fusion 策略可以提高模型的推理速度。
基于上述动机，我们提出了 MobileMamba，它通过 Coarse-Grained、Fine-Grained 和 Training/Testing 策略被设计为一个高效的轻量级网络。首先，在第 3.1 节中，我们讨论了四级和三级网络在准确性、速度和 FLOP 方面的权衡。如图 3 所示，在相同的吞吐量下，三级网络实现了更高的精度。同样，对于相同的性能，三阶段网络具有更高的吞吐量。因此，我们选择一个三阶段网络作为我们的 Coarse-Grained 框架。在第 3.2 节的 MobileMamba 模块设计中，我们引入了一个高效的多感受野特征交互（MRFFI）模块。具体来说，输入特征沿通道维度分为三个部分。第一部分使用远程小波变换增强 Mamba （WTE-Mamba）模块来提取全局特征，同时增强对边缘信息等细粒度细节的提取。第二部分采用多核深度卷积（MKDeConv）作来捕获多尺度感受野。最后一部分使用 Eliminate redundant Identity 映射来减少高维空间中的通道冗余，从而降低计算复杂性并提高处理速度。通过 MRFFI 获得的特征整合了全局和多尺度局部感受野信息，增强了高频边缘细节的提取。最后，我们通过第 3.3 节中的两个训练阶段策略，即知识蒸馏和扩展训练纪元来增强模型的学习能力。此外，测试阶段的 Normalization Layer Fusion 策略可以提高模型的推理速度。

在图 1（iv）中，我们的方法利用了全局 ERF，而多核局部卷积作有助于提取相邻信息。与图 1 底部的 SoTA 方法的比较表明，MobileMamba

^{†}

（使用训练策略）在 ImageNet1 K [10] 上实现了 76.9/78.9/80.7/82.2/83.3/83.6 的 Top1 精度，适用于从 200M 到 4G FLOPs 的模型，超过了现有的基于 CNN、ViT 和 Mamba 的方法。与图 2 中基于 Mamba 的高效方法相比，MobileMamba 将 Top-1 提高了

+ 0.7 ↑

虽然

\times 21 ↑

比 LocalVim 快 [30] 倍，并且提高了

+ 2.0 ↑

虽然

\times 3.3 ↑

次

图 2.基于 Mamba 的方法的准确性与速度。比 EfficientVMamba [51] 更快。与现有的基于 Manba 的轻量级模型设计相比，这具有显著优势。对下游任务的广泛实验进一步验证了我们方法的有效性。在 Mask RCNN [22] 上，MobileMamba 改进了

m A P^{b}

由

+ 1.3 ↑, m A P^{m}

由

+ 1.0 ↑

和 throughput 的

+ 56 % ↑

与 EMO 相比 [78]。在 RetinaNet [35] 上，它改善了

m A P^{b}

由

+ 2.1 ↑

和 throughput 的

\times 4.3 ↑

与 EfficientVMamba 相比 [51]。在 SSDLite [25] 上，它通过提高分辨率实现了 24.0/29.5 的 mAP。在 DeepLabv3 [5]、语义 FPN [31] 和 PSPNet [80] 上，它实现了高达 37.4/42.5/36.9 的 mIoU，而 FLOP 更少。与基于 CNN 的 MobileNetv2 [56] 和基于 ViT 的 MobileViTv2 [47] 相比，我们的方法实现了

+ 7.2 ↑

和

+ 0.4 ↑

，分别以高分辨率

512 \times 512

输入下游任务，同时只需要

8.5 %

和

11.2 %

PSPNet 的 FLOPs [80]。

总而言之，我们的贡献如下：

我们提出了一个轻量级的三阶段 MobileMamba 框架，它在性能和效率之间实现了良好的平衡。MobileMamba 的有效性和效率已在分类任务以及三个高分辨率输入下游任务中得到验证。
我们设计了一个高效的多感受场特征交互（MRFFI）模块，以更大的 ERF 增强多尺度感知能力，并改进对细粒度高频边缘信息的提取。
MobileMamba 通过对一系列不同 FLOP 大小的模型采用训练和测试策略，显著提高了性能和效率。

2.1. 轻量级可视化模型

研究最广泛的轻量级视觉网络可分为基于 CNN 和基于 Vision Transformer （ViT）的结构。基于 CNN 的 MobileNets [24， 26， 56] 从标准卷积过渡到深度可分离卷积，显著降低了计算复杂性。GhostNets [18， 40， 63] 在一半的通道上用廉价的作取代了原来的卷积。此外，许多基于 CNN 的作品 [3， 44， 61， 62， 79] 在移动设备上表现出优异的性能和效率。这些方法的主要局限性是它们的局部感受野。相比之下，ViT 具有全局感受野和捕获远程依赖性的能力。然而，与 CNN 相比，它们的二次计算复杂性导致更高的计算成本。因此，轻量级视觉 Transformer 旨在保留其全局感受野，同时减少计算开销。EfficientViT [38] 设计了一个三阶段网络，并提出了 Cascaded Group Attention，以显著提高推理速度。SHViT [76] 引入了单头自注意力，只选择少数通道使用 ViT，同时通过 Identity 直接连接其余通道，大大提高了运营效率。此外，许多混合方法 [33， 34， 46， 47， 50， 65， 66， 78] 取得了出色的性能。

2.2. 状态空间模型

受控制系统启发的状态空间模型（SSM） [13， 15-17， 58] 可以看作是线性时不变系统映射输入

x (t) \in R^{L}

输出

y (t) \in R^{L}

通过 Hidden State

h (t) \in R^{M} : h^{'} (t) = A h (t) + B x (t), y (t) =

C h (t)

哪里

A \in R^{M \times M}, B \in R^{M \times 1}

和

C \in R^{1 \times M}

Mamba [14] 对时间刻度使用零阶保持

Δ

转换连续

A

和

B

到离散

\overset{―}{A}

和

\overset{―}{B}

\overset{―}{A} = \exp (Δ A), \overset{―}{B} = (Δ A)^{- 1} (\exp (Δ A) - I) \cdot Δ B

离散系统为：

h_{t} = \overset{―}{A} h_{t - 1} + \overset{―}{B} x_{t}, y_{t} = C h_{t}

.从全局卷积的角度来看：

\overset{―}{K} = (C \overset{―}{B}, C \overset{―}{A B}, \dots, C {\overset{―}{A}}^{L - 1} \overset{―}{B}), y = x * \overset{―}{K}

哪里

*

是卷积，

L

是序列长度，而

\overset{―}{K} \in

R^{L}

是 SSM 内核。用于视觉的 SSM。SSM [13， 15， 58] 因其在捕获远程依赖关系方面的高效计算复杂性而引起了广泛关注。Mamba [14] 引入了 S6 模块，实现了简单的结构，在长序列建模中具有优异的效率。由于这一优势，许多作品已将其应用于视觉任务 [19， 20， 39， 43， 54， 72， 83]。Vim [83] 提出了一种双向 Mamba 块，展示了它在高分辨率下相对于 ViT 的速度和内存优势。VMamba [39] 引入了 Cross-Scan 来增强建模功能。EfficientVMamba [51] 提出了 Efficient Scan，通过跳过采样来提高扫描效率。LocalVim [29] 提出了本地窗口扫描来增强本地信息获取。尽管设计多种多样，但没有一个基于 Manba 的轻量级网络能超越现有的 CNN 和 ViT 方法。本文探讨了基于 Manba 的轻量级视觉网络，以实现更好的性能、更低的计算复杂性和更快的推理速度。

图 3.粗粒度设计。（A）说明了常用的四级网络的结构，其中前两级可以配置为（1）纯基于 CNN 的结构或（2） MobileMamba 结构。（B）描述了本研究中采用的三阶段网络结构。下表显示了不同结构的模型参数以及同等吞吐量下的 ImageNet-1K Top-1 和 Top-5。

3. 方法学

3.1. MobileMamba 的粗粒度设计

在本节中，我们设计了高效的 MobileMamba 结构，其中包括一个三阶段网络，如图 3（B）所示。大多数现有的网络 [3， 33， 74] 都遵循图 3（A）中描述的四阶段框架。具体来说，在四阶段网络中，第一次缩减采样会减少输入图像

H \times W \times 3

自

\frac{H}{4} \times \frac{W}{4} \times C_{1}

，最终输出的特征图为

\frac{H}{32} \times \frac{W}{32} \times C_{4}

.相比之下，三阶段网络将输入图像减少到

\frac{H}{16} \times \frac{W}{16} \times C_{1}

在第一次下采样期间，最终输出的特征图为

\frac{H}{64} \times \frac{W}{64} \times C_{4}

.由于四阶段网络中的特征图大小较大，因此需要更多的计算，因此运行速度较慢。下面的表图 3 比较了 ImageNet-1K [10] 数据集上对类似吞吐量条件下的三阶段网络和各种四阶段网络的分类结果。在前两个实验中，四阶段网络的前两个阶段采用纯 CNN 架构设计，提高了推理速度。第三个实验在网络的所有四个阶段中使用 MobileMamba 区块。结果表明，尽管前两个阶段纯 CNN 结构的四阶段网络显示出更高的推理速度和性能，但三阶段网络实现了更快的推理，Top-1 和 Top-5 精度均提高了

+ 0.4 ↑

.最终，我们选择三阶段网络结构来提高推理速度并改善分类结果。

*同等贡献。
$^{†}$ 通讯作者。