计算机视觉的战场：选择你的冠军

哪个是最好的计算机视觉模型？哪个是最适合特定任务的？

迁移学习改变了计算机视觉，但仍然存在许多未解之谜。例如，什么是最好的架构？哪个对于某个任务最好？每篇文章都声称自己是最先进的，但真的吗？在这里，一项研究基于实证数据给出了回答，对于每个人工智能从业者都是实际问题的答案。

在计算机视觉的主导范式中，系统由主干（特征提取网络）和任务特定的头部组成。主干可以生成用于目标检测和定位的特征数组，也可以生成用于分类或图像检索等任务的简单向量。

理论上，主干可以训练成任务特定的，但通常情况下，它会在大量图像上进行训练，然后最多对任务特定的数据集进行微调。

这种方法被称为迁移学习，迄今为止一直占据主导地位，因为具有许多优点：它在许多任务中实现了最先进的效果。它减少了所需的任务特定数据量。预训练数据集包含来自不同领域的图像，因此使得该方法对下游任务更健壮。

在早期的系统中，模型是在ImageNet上进行训练，然后对特定任务领域进行微调（如ResNet或VGG）。然而，如今有许多数据集和架构可供选择。因此，有三个主要因素影响最终结果：架构、预训练算法和预训练数据集。

由于选择太多，如何选择最佳的呢？