Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection

约 2564 字大约 9 分钟

2025-12-28

Wei Luo1* ，Yunkang Cao2* ，Haiming Yao1* ，Xiaotian Zhang1，Jianan Lou1，Yuqi Cheng2 ，Weiming Shen2 ，Wenyong Yu2†
1清华大学
2华中科技大学

摘要

异常检测（AD）是工业检测的核心技术，但现有方法通常依赖于将测试图像与训练集中的正常参考图像进行“比对”。然而，外观和位置的差异往往使这些参考图像与测试图像的对齐变得复杂，从而限制了检测精度。我们发现大多数异常表现为局部变化，这意味着即使在异常图像中，仍存在有价值的正常信息。我们认为这些信息具有实用价值，且可能与异常特征更契合，因为异常特征和正常信息都源自同一图像。因此，我们提出了一种新型方法INP-Former，该方法直接从测试图像中提取内在正常原型（INPs），而非依赖训练集中的外部正常性。具体而言，我们引入了INP提取器，通过线性组合正常标记来表征INPs。进一步提出INP一致性损失，确保INPs能真实反映测试图像的正常性。这些INPs随后引导INP引导解码器仅重建正常标记，将重建误差作为异常分数。此外，我们还提出软挖掘损失，优先处理训练中难以优化的样本。INP-Former在MVTec-AD、VisA和Real-IAD等单类、多类及少样本异常检测任务中均取得顶尖性能，成为异常检测领域通用且多功能的解决方案。值得注意的是，INP-Former还表现出一定的零样本适应性（zero-shot AD）能力。

代码可在以下网址获取：https://github.com/luow23/INP-Former

1.引言

无监督图像异常检测（AD）[3,39]旨在通过仅从正常样本中学习来识别图像中的异常模式并定位异常区域。该技术已在工业缺陷检测[2,47]和医学疾病筛查[19]中得到广泛应用。近年来，为满足现实需求，出现了多种专门任务，从传统的单类异常检测[28,34]到更先进的少样本异常检测[17,22]以及多类异常检测[14,40,42]。
尽管不同任务中正常样本的构成存在差异，但其核心原理始终如一：通过训练数据建模正态性，并评估测试图像是否符合这种学习到的正态分布。然而，当训练数据与测试图像的正态性存在偏差时，这种方法的局限性便显现出来。例如，基于原型的方法[34]通过提取具有代表性的正态原型来捕捉训练样本的正态特征。在少样本异常检测中，类内方差可能导致原型对齐不良[17]，如图1(a)所示，不同外观和位置的榛子样本就存在这种现象。虽然增加样本量能缓解这一问题，但需要付出生成更多原型和降低推理效率的代价。当涉及多类样本时（即多类异常检测），某一类的原型可能与另一类的异常样本相似——例如图1(b)中榛子的正常背景与电缆异常样本的相似性，这会导致误分类问题。

图1. 内在正常原型（INPs）的动机。
(a) 来自少量正常样本的预存原型可能无法代表所有正常模式。
(b) 来自某一类别的预存原型可能与另一类别的异常样本相似。
(c) 提取的INPs简洁且与测试图像高度匹配，从而缓解了(a)和(b)中的问题。

已有诸多研究致力于提取与测试图像更匹配的法线特征。例如，部分研究[13,17,45]提出通过几何变换实现同一类别内法线的空间对齐。然而，对于榛子这类存在空间位置之外变异的物体，空间对齐效果并不理想。其他方法[27,40,41]尝试将训练集中的法线特征拆分为更小的特定部分，再将测试图像与对应法线部分进行比对，但由于类别内差异的存在，仍可能无法实现完美对齐。
我们并未试图从训练集中提取更多对齐的正态性特征，而是提出通过利用测试图像本身的正态性特征作为原型来解决正态性错位问题，这类原型我们称之为“内在正态原型（INPs，Intrinsic Normal Prototypes）”。如图1(c)所示，异常测试图像中的正态区域可作为INPs，通过与这些原型对比即可轻松检测异常。相较于从训练数据中学习到的原型，INPs能为异常区域提供更简洁且对齐良好的特征样本，因为它们通常与测试图像中异常区域共享相同的几何背景和相似外观。基于此，我们探索了不同异常检测（AD）场景中INPs的分布情况，并评估了其提升AD性能的潜力。
尽管先前的研究[1]尝试利用INP进行异常检测，但其采用手工设计的聚合特征作为原型，导致该方法仅适用于零样本纹理异常检测。相比之下，我们提出了一种可学习的INP提取器，能够提取具有可适应性形状的正常特征作为INP。同时，我们引入了INP相干性损失函数，确保提取的INP能连贯地表征测试图像中的正常区域，避免捕捉异常区域。然而，有限的离散INP集合难以建模某些弱表征的正常区域，导致背景噪声（图4(c)）。为解决这一问题，我们提出了一种INP引导解码器，将INP整合到基于重建的框架中。该解码器通过组合离散INP，既能准确重建所有正常区域，又能有效抑制异常区域的重建，其重建误差即作为异常分数。此外，我们还引入了软挖掘损失函数，重点关注难以重建的正常区域（即困难样本），从而提升整体重建质量并增强异常检测性能。
我们提出的INP-Former方法主要利用视觉变换器（ViTs）进行信息点（INP）提取和基于INP的重构。在MVTecAD[2]、VisA[47]和Real-IAD[37]等数据集上的大量实验表明，该方法在多类别、单类别及少样本对抗性数据（AD）任务中均展现出卓越性能，确立了其作为通用AD解决方案的地位。如第4.3.2节所示，INP-Former通过提取精炼的INP优化了计算复杂度——例如仅需六个INP即可有效表征图像。此外，第4.4.2节实验表明，该方法具有强大的泛化能力，甚至能为未见过的类别提取INP，实现零样本对抗性数据能力。
综上所述，我们的主要贡献包括：

我们证明单张图像即可包含内在法线原型（INPs），为异常检测提供简洁且对齐的法线特征。
我们提出INP提取器，并将INPs整合至基于重建的异常检测框架中，采用INP引导解码器。
我们引入INP相干损失以提取代表性INPs，并采用软挖掘损失以提升重建质量。

方法：INP-Former

为充分发挥INP在异常检测中的优势，我们提出如图2(a)所示的INP-Former模型。该模型通过动态从单张图像中提取INP，并利用这些特征指导特征重建过程，其中重建误差作为异常评分。具体而言，该模型包含四个关键模块：固定预训练的编码器Q、INP提取器E、瓶颈层B以及INP引导解码器D。

图2. 我们INP-Former框架在通用异常检测中的架构概述。
(a) 该模型由预训练编码器、INP提取器、瓶颈层和INP引导解码器组成。INP提取器能动态从单张图像中提取内在正常原型，INP引导解码器则利用这些原型有效抑制异常特征。(b) INP提取器的详细架构。(c) INP引导解码器各层的详细架构。(d) INP引导注意力机制与自注意力机制的计算复杂度对比。需要特别说明的是，“编码阶段的补丁标记”和“解码阶段的补丁标记”分别指代编码和解码过程中使用的补丁标记。

输入图像I ∈ R H×W×3首先经过预训练编码器Q处理，提取多尺度潜在特征fQ = {fQ1 ，... ，fQL|fQl ∈ R N×C ，N = HW k²}，其中k表示下采样因子。随后，INP提取器E从预训练特征中提取M个INP P = {p1 ，... ，pM|p1 ∈ R C }，通过INP相干性损失确保提取的INP在测试时始终代表正常特征。瓶颈层B随后融合多尺度潜在特征，生成融合输出FB = B(fQ)。经过瓶颈层后，提取的INP被用于引导解码器D生成仅包含正常模式的重建输出fD = {fD1 ，... ，fDL|fDl ∈ R N×C }，因此fQ与fD之间的重建误差可作为异常分数。