一个关于深度聚类的总结:从先验的角度来看

四川大学计算机科学学院,成都,中国四川

摘要

​  由于神经网络具有强大的特征提取能力,深度聚类在分析高维和复杂的真实世界数据方面取得了巨大的成功。深度聚类方法的性能受到网络结构和学习目标等各种因素的影响。然而,正如本调查中所指出的,深度聚类的本质是对先验知识的整合和利用,这在很大程度上被现有的工作忽略了。从开创性基于数据结构假设的深度聚类方法到最近基于数据增强不变性的对比聚类方法,深度聚类的发展本质上对应于先验知识的演化。在本调查中,我们通过将深度聚类方法分为六种先验知识类型,提供了一个全面的回顾。我们发现,总的来说,先前的创新遵循两个趋势,即,i)从采矿到建设,以及ii)从内部到外部。此外,我们在五个广泛使用的数据集上提供了一个基准,并分析了具有不同先验的方法的性能。通过提供一个新的先验知识视角,我们希望这次调查能够提供一些新的见解,并启发未来在深度聚类社区的研究。