Circle Loss A Unified Perspective of Pair Similarity Optimization
摘要
本文提出了一种关于深度特征学习的对相似度优化的视点,旨在使类内相似度最大化,类间相似度最小。我们发现了大多数的损失函数,包括triplet损失和softmax交叉熵损失,将
1.介绍
本文对两种基本的深度特征学习范式进行了相似性优化分析,即从具有类级标签的数据和具有成对标签的数据中进行学习。前者采用分类损失函数(例如,软最大交叉熵损失[25,16,36])来优化样本和权向量之间的相似性。后者利用一个度量损失函数(例如,三联体损失[9,22])来优化样本之间的相似性。在我们的解释中,这两种学习方法之间没有内在的区别。它们都寻求最小化类间相似度
从这个角度来看,我们发现许多流行的损失函数(例如,triplet损失[9,22],softmax交叉熵损失及其变体[25,16,36,29,32,2])具有相似的优化模式。它们都将
- 缺乏进行优化的灵活性。在
和 上的惩罚强度被限制为相等。给定指定的损失函数,关于 和 的梯度具有相同的振幅(详见第2节)。在某些角落的情况下,例如, 很小,并且 已经接近0(图1(a)中的“a”),它继续以较大的梯度惩罚 。它是低效的和非理性的。

图1:流行的还原优化方式
(a)还原
(b)
在
- 模糊的收敛状态。优化
通常会导致 (m为边际)的决策边界。这个决策边界允许模糊性(例如,图1(a)中的“ ”和“ ”)来收敛。例如,有 ,而 有 。它们都获得了边际m = 0.3。但是,通过相互比较,我们发现 和 之间的差距只有0.1。因此,模糊收敛影响了特征空间的可分性。
有了这些见解,我们就有了一种直觉,即不同的相似性得分应该有不同的惩罚强度。如果一个相似度得分偏离最优值,它应该受到很强的惩罚。否则,如果一个相似度得分已经接近最优值,那么它就应该进行轻微的优化。为此,我们首先将
由于简单,Circle损失本质上从以下三个方面重塑了深度特征学习的特征:
首先,这是一个统一的损失函数。从统一相似对优化的角度出发,我们提出了两种基本学习范式的类级标签和成对标签学习。
第二,灵活的优化。在训练过程中,反向传播到
第三,有明确的收敛状态。在圆形决策边界上,Circle损失倾向于指定的收敛状态(图1(b)中的“T”),如第3.3节所示。相应地,它建立了一个明确的优化目标,有利于可分性。
本文的主要贡献总结如下:
- 我们提出了Circle损失,一个简单的损失函数的深度特征学习。通过在监督下对每个相似度得分进行重新加权,有利于优化灵活、确定收敛目标的深度特征学习。
- 我们提出的Circle损失与兼容性的类级标签和成对的标签。略有修改下,Circle损失将退化为triplet损失或softmax交叉熵损失。
- 我们对各种深度特征学习任务进行了广泛的实验,如人脸识别、人的再识别、汽车图像检索等。在所有这些任务中,我们证明了Circle损失的优越性与性能与现有的技术相当。
2.统一的视角
深度特征学习的目的是最大化类内相似性
为此,使用类级标签学习和使用成对标签学习是两种基本范式。它们通常被认为是分开的,彼此之间的w.r.t与损失函数显著不同。给定类级标签,第一个基本上学习将每个训练样本分类为目标类,例如分类损失。L2-Softmax[21],Large-margin
Softmax[15],Angular
Softmax[16],NormFace[30],AMSoftmax[29],CosFace[32],ArcFace[2]。这些方法也被称为基于代理的学习,因为它们优化了样本和代表每个类的一组代理之间的相似性。相比之下,给定成对标签,第二个直接学习特征空间中的成对相似性(即样本之间的相似性),因此不需要代理,例如,约束损失[5,1],三联体损失[9,22],提升结构损失[19],n对损失[24],直方图损失[27],角损失[33],基于边际损失[38],多相似性损失[34]等。
本文从单一的角度来看待这两种学习方法,不偏好基于代理的相似性或基于成对的相似性。给定特征空间中的一个样本x,假设有K个类内相似度得分,L个类间相似度得分。我们将这些相似度得分分别表示为
为了最小化每个
等式1是直观的。它遍历每一个相似度对来减少
给定类级标签,我们计算了分类层中
具体来说,我们通过:
给定成对的标签,在小批量中,我们计算x和其他特征之间的相似性得分。具体来说,
梯度分析。等式2和等式3显示了triplet损失,Softmax损失及其几个变体可以被解释为等式1的特定情况。换句话说,它们都在优化

图2:损失函数的梯度。(a)triplet的损失。(b)
AM-Softmax损失。(c)提出的Circle损失。triplet损失和AM-Softmax损失都缺乏优化的灵活性。
在只有一个
- 首先,在损失达到其决策边界之前(梯度消失之前),相对于
和 的梯度是相同的。状态A具有 ,表示良好的类内紧致性。然而,A相对于 仍然有较大的梯度。它导致了在优化过程中缺乏灵活性。 - 第二,梯度在收敛前保持(大致)不变,并在收敛时发生突然的下降。状态B更接近决策边界,并且比A优化得更好。然而,损失函数(triplet损失和AMSoftmax损失)对A和B施加近似相等的惩罚。这是缺乏灵活性的另一个证据。
- 第三,决策边界(白色虚线)平行于
。该边界上任意两点(如图1中的 和 )的相似间隙等于m,因此具有相同的困难。换句话说,损失函数最小化 在 或 的收敛性上不偏不倚,并且容易出现模糊收敛。关于这个问题的实验证据,请参见第4.6节。
这些问题源于最小化
3.一个新的损失函数
3.1.自定速度的加权
我们考虑通过允许每个相似度评分根据当前优化状态以自己的速度学习来增强优化灵活性。我们首先忽略了等式1中的边际项m,并通过以下方式将统一损失函数转换为提出的Circle损失: $$$$ 其中[·]+为“零截止”操作,以确保
讨论。在监督下重新调整余弦相似度是现代分类损失[21,30,29,32,39,40]中常见的做法。传统上,所有的相似性得分都具有相同的尺度因子
3.2.类内和类间的边际
在损失函数优化
基本上,等式6中的Circle损失期望
等式7显示了决策边界为圆形,如图1
(b)。所示圆的中心在
在等式中有五个超参数,即等式5的
因此,只有两个超参数,即尺度因子
3.3.Circle损失的优点
Circle损失相对于
和
其中
在二值分类的小场景下(或只有一个
和 的平衡优化。我们曾提及过,损失函数最小化 在 和 上总是具有相等的梯度,这是不灵活的。相比之下,Circle损失展现出动态的惩罚强度。在指定的相似对 中,如果 比 更好(如图2(c)中的 ),Circle损失赋予 的梯度更大(反之亦然),从而更优先的降低 。平衡优化的实验证据详见第4.6节。- 逐渐减弱的梯度。在训练开始时,相似性得分偏离最佳值很远,并获得较大的梯度(如图2(c)中的“A”)。随着训练逐渐接近收敛,相似度得分上的梯度相应衰减(如图2(c)中的“B”),进行了温和的优化。第4.5节的实验结果表明,学习效果对
的各种设置都是鲁棒性的(在等式6中),我们将其归因于自动衰减的梯度。 - 一个(更)明确的收敛目标。Circle损失具有循环决策边界,有利于
的收敛而不是 的收敛(图1)。这是因为 与决策边界上的所有其他点相比, 和 之间的差距最小。换句话说, 在 和 之间的差距较大,而且本身就更难维持。相比之下,最小化 的损失具有一个齐次的决策边界,即决策边界上的每一个点到达决策边界都具有相同的困难。在实验中,我们观察到,Circle损失导致收敛后的相似度分布更为集中,详见章节4.6和图5。
4.实验
我们综合评估了两种基本学习方法下的有效性:给定类级标签学习和给定成对的标签学习。对于前一种方法,我们在人脸识别(4.2节)和人的再识别(4.3节)任务上评估了我们的方法。对于后一种方法,我们使用细粒度的图像检索数据集(第4.4节),它们相对较小,鼓励使用成对标签进行学习。我们证明了Circle损失在这两种情况下都是有效的。第4.5节分析了这两个超参数的影响,即等式6中的尺度因子