摘要

我们介绍了分段任意事物（SA, Segment Anything）项目：一个新的图像分割任务、模型和数据集。在数据收集循环中使用我们的高效模型，我们建立了迄今为止（迄今为止）最大的分割数据集，在11M许可和尊重隐私的图像上有超过10亿个面具。该模型的设计和训练是及时的，因此它可以转移零镜头到新的图像分布和任务。我们评估了它在许多任务上的能力，发现它的零样本性能令人印象深刻——通常与之前的完全监督结果竞争，甚至更好。

Segment Anything Model

接下来，我们将描述用于快速分割的分段任何东西模型（SAM, Segment Anything Model）。

图4：分段任何东西模型（SAM)概述。重量级图像编码器输出图像嵌入，然后可以通过各种输入提示有效地查询，以平摊的实时速度产生对象掩模。对于对应于多个对象的模糊提示，SAM可以输出多个有效的掩码和相关的置信度分数。

SAM有三个组件，如图4所示：图像编码器、灵活的提示编码器和快速掩码解码器。我们建立在转换视觉模型[14,33,20,62]上，对（摊销）实时性能进行特定的权衡。我们在这里高级描述这些组件，在a中详细说明。

图像编码器

一般来说，图像编码器可以是任何输出C×H×W图像嵌入的网络。基于可伸缩性和强大的预训练，我们使用MAE [47]预训练视觉transformer（ViT）[33]，具有最小的适应来处理高分辨率输入，特别是ViT-H/16，有14×14窗口注意和4个等间隔的[62]块。图像编码器的输出是输入图像的16×缩小嵌入。由于我们的运行时目标是实时处理每个提示，因此我们可以提供大量的图像编码器片段，因为它们每幅图像只计算一次，而不是每个提示计算一次。根据标准的实践（例如，[40]），我们使用了1024×1024的输入分辨率，这是通过重新缩放图像和填充较短的边而获得的。因此，图像嵌入值为64×64。为了减少信道维度，在[62]之后，我们使用1×1卷积得到256个通道，然后使用3×3卷积得到256个通道。每个卷积之后都是一个层的归一化[4]。

提示编码器

稀疏提示被映射到256维的向量嵌入如下。

一个点被表示为该点的位置的位置编码[95]和两个学习嵌入之一的总和，这表明该点是在前景中还是在背景中。

盒子由嵌入对表示： (1)其左上角的位置编码与表示“左上角”的学习嵌入求和，(2)相同的结构，但使用学习嵌入表示“右下角”。最后，为了表示自由形式的文本，我们使用CLIP [82]的文本编码器（任何文本编码器都是可能的）。我们将在本部分的其余部分中关注几何提示，并在D.5中深入讨论文本提示。

密集的提示（即掩码）与图像具有空间对应关系。我们以比输入图像低4×的分辨率输入掩模，然后使用两个2×2，步幅-2卷积分别与输出通道4和16缩小额外的4×。最后的1×1卷积将通道维度映射到256。每一层通过GELU激活[50]和层归一化分开。然后，将按元素的方式添加图像嵌入和掩码。如果没有掩码提示，则在每个图像嵌入位置添加一个表示“无掩码”的学习嵌入。

轻量级掩码器

该模块有效地将图像嵌入和一组提示嵌入映射到一个输出掩码。为了结合这些输入，我们从transformer分割模型[14,20]中获得灵感，并修改了一个标准的transformer解码器[103]。在应用我们的解码器之前，我们首先在提示嵌入集中嵌入一个学习到的输出tokens嵌入，该嵌入将用于解码器的输出，类似于[33]中的[类]tokens。为简单起见，我们将这些嵌入（不包括图像嵌入）统称为“标记”。

我们的解码器设计如图14所示。

图14：轻量级掩码解码器的细节。一个两层解码器通过交叉注意来更新图像嵌入和提示标记。然后对图像嵌入进行升级，利用更新后的输出标记来动态预测掩模。（为了图形清晰度，没有说明：在每个注意层，位置编码被添加到图像嵌入中，整个原始提示tokens（包括位置编码）被重新添加到tokens查询和键中。）

每个解码器层执行4个步骤：(1)对标记的自我注意，(2)从标记（作为查询）交叉注意到图像嵌入，(3)点级MLP更新每个标记，以及(4)从图像嵌入（作为查询）交叉注意到标记。这最后一步将使用提示信息更新图像嵌入。在交叉注意过程中，将图像嵌入视为一组64225个6维向量。每个自我/交叉注意和MLP都有一个残差连接[49]、层归一化和退出[93]为0.1。下一个解码器层从上一层中获取更新的tokens和更新的图像嵌入。我们使用了一个两层解码器。

为了确保解码器能够访问关键的几何信息，当位置编码参与注意层时，它们将被添加到图像嵌入中。此外，整个原始提示标记（包括它们的位置编码）都会被重新添加到更新后的标记中。这允许强烈地依赖于提示tokens的几何位置和类型。

在运行解码器后，我们用两个转置卷积对更新后的图像嵌入上采样，即4×（现在它相对于输入图像缩小了4×）。然后，tokens再次关注图像嵌入，我们将更新后的输出tokens嵌入传递给一个小的3层MLP，该MLP输出一个与升级图像嵌入的通道维数相匹配的向量。最后，我们预测了一个在升级的图像嵌入和MLP的输出之间具有空间点级乘积的掩模。

该transformer使用的嵌入尺寸为256。Transformer MLP块有一个很大的内部尺寸为2048，但MLP只应用于有相对较少（很少大于20）的提示tokens。在交叉注意层中，我们有一个64×64的图像嵌入，为了提高计算效率，我们将查询、键和值的通道维数降低两倍到128。所有的注意力层都使用8个头。用于升级输出图像嵌入的转置卷积为2×2，步幅为2，输出通道尺寸分别为64和32，并具有GELU激活。它们被层归一化分开。

SAM-Adapter

《SAM Fails to Segment Anything? – SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation,and More》

该文指出号称可以“分割一切”的SAM模型虽然在自然图像的通用分割任务中取得了优异的效果，但在许多特殊图像的特定分割任务上表现差强人意，如水下目标分割、阴影分割、伪装对象分割等。作者认为这是由于SAM主要在常见的自然图像中进行训练，其特征提取器不能很好的适应特殊图像。因此作者提出一种轻量化的适配器模块（Adaptor），对SAM的编码器得到的特征图进行适应性调整。编码器的输入为特定任务信息，该文采用了图块嵌入特征和高频成分特征，将两种特征相加后经过两个MLP层得到适配器模块的输出，并将该输出与对应SAM编码器的Transformer层输出相加，并传递至下一层。训练过程中SAM编码器的参数保持不变，解码器部分使用SAM的参数进行初始化，然后利用特定数据集进行微调。

如上图所示，该模型使用了SAM的图像编码器和掩模解码器，其中图像编码器冻结了参数，解码器是参与梯度回传的。这样可以有效利用SAM已经预训练好的分割能力，同时解码器更新参数以改装下游任务。另外引入了Adaptor模块，用于引入特殊任务的知识，辅助适配器模型。Adaptor的网络结构由两层MLP层构成，其输入的知识可以是微处理器的，对于文中的任务，其输入可以是纹理信息或者是频率信息等。各种信息用下面的权重来均衡。

该文提出的Adaptor模块包括所使用的两个特定任务信息——图块嵌入特征和高频成分特征，都是来源于另一篇论文《Explicit Visual Prompting for Low-Level Structure Segmentations》（EVP）。图块嵌入特征就是将图片划分成若干个图块，利用ViT将其映射为一个 $ C_{seg} $ 维的特征；高频成分特征，则是将图片进行快速傅里叶变换，并保留其中的高频成分，再进行反变换得到高频成分对应的时域图，最后经过一个线性映射层得到一个特征向量。

实验表明，在多个任务中SAM-Adapter均取得了远超SAM的表现，甚至由于各自领域的其他优秀算法，作为SAM的一种改进思路还是有值得借鉴和学习的地方。然而，整篇论文的思路几乎完全照搬了EVP，只是将模型从SegFormer换成了SAM，其他并没有明显改变。但在实验章节的算法效果对比中却回避了EVP，尤其是有些结果还不如EVP，这就很让人质疑其原创性和先进性。