密集嵌入作为分割提示

​  虽然通过强大特征提取器的提取的特征具有语义,且图像篡改检测输入反语义的,在嵌入空间中距离更近的两个像素更有可能属于同一类别,这可能来自于特征的相似性也有可能来自语义的相似性。

image-20250821215307034

图1:label0是篡改图像,label1是ground-Truth图像,label2是一致性图像,label3是聚类的图像,

​  可以看出,通过观察一致性图像可以得出两个重要结论。首先,同类像素对的亲和力通常高于异类像素对(一致性图==1)。当两个像素的亲和力超过0.2(即图2中两条曲线的交叉点)时,它们更可能属于同一类别。这一发现启发我们:在ViT嵌入空间中,通过分析像素间的亲和力关系,可以作为判断标签空间内像素关联性的关键线索,从而为语义分割模型的学习提供有效依据。其次,不同类别的像素仍然可能具有较高的亲和性,这使得前面提到的提示噪声。处理噪声对于有效的自监督学习至关重要