通过解脱改进k-Means聚类

学习数据集类邻域结构改进聚类

一篇与文章“利用解耦内部表示改进k-Means聚类”的附带文章，由A.F. Agarap和A.P. Azcarraga在2020年国际联合神经网络会议(IJCNN)上进行演讲。

背景

聚类是一种无监督学习任务，它以一种方式将一组对象分组，使得同一组内的对象之间的相似性高于其他组。这是一个广泛研究的任务，因为它的应用包括但不限于在数据分析和可视化、异常检测、序列分析和自然语言处理中的使用。

与其他机器学习方法一样，聚类算法在特征表示的选择上非常依赖。在我们的工作中，我们通过解耦来改善特征表示的质量。

我们将解耦定义为类别不同数据点之间的距离与类别相似数据点之间的距离有多远。这类似于在Frosst等人(2019)中对该术语的处理方式。因此，在表示学习期间最大化解耦意味着最小化类别相似数据点之间的距离。

通过这样做，它将保留数据集中示例的类成员资格，即数据点在特征空间中以其类别或标签的函数所居住的方式。如果保留了类成员资格，那么我们就会得到一个特征表示空间，在该空间中最近邻分类器或聚类算法会表现良好。

聚类

聚类是一种机器学习任务，它查找数据点的分组，其中同一组内的点在相对于不同组中的点之间共享更多的相似性。

与其他机器学习算法一样，聚类算法的成功依赖于特征表示的选择。对于使用的数据集，一个表示可能比另一个表示更好。然而，在深度学习中，情况并非如此，因为特征表示是作为神经网络的一项隐式任务学习的。

深度聚类

因此，最近的作品，如2016年的“深嵌入聚类”(DEC)和“变分深嵌入”(VADE)，以及2018年的“ClusterGAN”，利用了神经网络的特征表示学习能力。

Figure from DEC (Xie et al., 2016). The network structure of DEC. — 来自DEC(Xie等人，2016)的图。DEC的网络结构。

我们不会在本文中详细讨论它们，但这些作品之间的基本思想是相同的，即使用深度神经网络同时学习特征表示和聚类分配。这个方法被称为深度聚类。

动机

在聚类之前，我们能保持数据点在数据集中的类成员资格吗？

尽管深度聚类方法学习了与特征表示一起的聚类分配，但它们并没有明确设定保留数据集的类邻域结构。这是我们进行研究的动机，也就是说，我们是否能够保留数据集的类邻域结构，然后在深度网络的学习表示上执行聚类。

在2019年，提出了Not Too Deep（N2D）聚类方法，其中他们学习了数据集的潜在码表示，并进一步使用t-SNE、Isomap和UMAP等技术搜索潜在流形。得到的流形是数据集的聚类友好表示。因此，在流形学习之后，他们使用了学习到的流形作为聚类的数据集特征。使用这种方法，他们能够获得良好的聚类性能。与深度聚类算法相比，N2D是一种相对较简单的方法，我们提出了类似的方法。

学习解耦表示

我们还使用自编码器网络来学习数据集的潜在码表示，并将表示用于聚类。我们在如何学习更适合聚类的表示方面有所不同。我们提出了一种解耦自编码器网络的学习表示的方式，而不是使用流形学习技术。

作者绘制的图。类相似数据点之间的距离被最小化，从而增强了类不同数据点的分离能力。

为了解耦学到的表示，我们使用了软最近邻损失（SNNL），它衡量了类相似数据点的纠缠程度。这个损失函数在神经网络的每个隐藏层中最小化了类相似数据点之间的距离。Frosst、Papernot和Hinton在2019年的论文中使用了SNNL来进行判别和生成任务。

作者绘制的图。我们从Neelakantan等人的2015年论文中获得了指数，但它可以是任何值。

在我们的工作中，我们将SNNL用于聚类，并引入了使用退火温度而不是固定温度的方法。我们的退火温度是关于训练周期数的倒数，用τ表示。

作者的图。将软最近邻损失与退火温度和固定温度进行比较。我们从高斯分布中随机抽取和标记了300个数据点，并使用软最近邻损失对它们进行了梯度下降。左侧的图显示了标记点的初始状态。我们可以看到在从第20个周期到第50个周期的潜在码中，聚类的分离效果更好，类更加孤立。我们在论文中展示了在基准数据集上的解耦表示。</figcaption></figure><p>通过对高斯分布的300个数据点进行梯度下降的随机采样和标记，我们可以看到在使用我们的模拟退火温度进行SNNL时，与固定温度相比，我们找到了更快的解缠同步。正如我们所看到的，即使在第20个纪元，使用模拟退火温度时，类似的数据点在聚类在一起或纠缠时更多，而使用固定温度时，则通过SNNL值也在数值上得到了证明。</p><h2 id= — 图像由作者提供。

通过解脱改进k-Means聚类

学习数据集类邻域结构改进聚类

背景

聚类

深度聚类

动机

学习解耦表示

基于解缠表示的聚类

聚类性能

可视化解缠表示

在较少标注示例上的训练

结论

参考文献