解码复杂的 AI 模型：普渡大学研究人员将深度学习预测转化为拓扑地图

复杂预测模型的高度参数化特性使得对预测策略进行描述和解释困难。研究人员引入了一种使用拓扑数据分析（TDA）的新方法来解决这个问题。这些模型，包括机器学习、神经网络和人工智能模型，已经成为各个科学领域中的标准工具，但由于它们的广泛参数化而通常难以解释。

普渡大学的研究人员意识到需要一种将这些复杂模型转化为更易于理解的格式的工具。他们利用TDA构建Reeb网络，提供了一种拓扑视图，有助于预测策略的解释。该方法已应用于各个领域，展示了它在大型数据集上的可扩展性。

所提出的Reeb网络本质上是拓扑结构的离散化，以便可视化预测景观。Reeb网络中的每个节点代表预测空间的本地简化，计算为具有类似预测的数据点的聚类。节点基于共享数据点连接，揭示了预测与训练数据之间的有用关系。

这种方法的一个显著应用是在检测训练数据中的标签错误。Reeb网络在识别模糊区域或预测边界方面表现出良好的效果，指导进一步对潜在错误的研究。该方法还在理解图像分类中的泛化和观察与BRCA1基因中的致病突变相关的预测方面展示了实用性。

与tSNE和UMAP等广泛使用的可视化技术进行了比较，突出了Reeb网络提供有关预测之间边界和训练数据与预测之间关系的更多信息。

构建Reeb网络需要具备一组具有未知标签的数据点、数据点之间已知的关系以及每个预测值的实值指南等前提条件。研究人员采用了一种称为GTDA（基于图的TDA）的递归分裂和合并过程，从原始数据点和图中构建了Reeb网络。经过对ImageNet中的130万图像的分析验证了该方法的可扩展性。

在实际应用中，Reeb网络框架应用于根据亚马逊评论预测产品类型的图神经网络。它揭示了产品类别中的关键模糊性，强调了预测准确性的限制，并提出了需要改进标签的建议。将该框架应用于在Imagenet数据集上预训练的ResNet50模型时，也获得了类似的见解，提供了图像的视觉分类和揭示了真相标签错误的分类。

研究人员还展示了将Reeb网络应用于理解与恶性基因突变相关的预测，特别是BRCA1基因。网络突出了DNA序列中的局部组成部分及其与次级结构的映射，有助于解释。

总之，研究人员预计拓扑检查技术，如Reeb网络，将在将复杂预测模型转化为可操作的人类级洞察力方面起到关键作用。该方法从标签错误到蛋白质结构方面的问题，表明其广泛的适用性和作为预测模型的早期诊断工具的潜力。