哪个是最好的计算机视觉模型?哪个是最适合特定任务的?
迁移学习改变了计算机视觉,但仍然存在许多未解之谜。例如,什么是最好的架构?哪个对于某个任务最好?每篇文章都声称自己是最先进的,但真的吗?在这里,一项研究基于实证数据给出了回答,对于每个人工智能从业者都是实际问题的答案。
计算机视觉范式
在计算机视觉的主导范式中,系统由主干(特征提取网络)和任务特定的头部组成。主干可以生成用于目标检测和定位的特征数组,也可以生成用于分类或图像检索等任务的简单向量。
理论上,主干可以训练成任务特定的,但通常情况下,它会在大量图像上进行训练,然后最多对任务特定的数据集进行微调。

这种方法被称为迁移学习,迄今为止一直占据主导地位,因为具有许多优点:它在许多任务中实现了最先进的效果。它减少了所需的任务特定数据量。预训练数据集包含来自不同领域的图像,因此使得该方法对下游任务更健壮。
在早期的系统中,模型是在ImageNet上进行训练,然后对特定任务领域进行微调(如ResNet或VGG)。然而,如今有许多数据集和架构可供选择。因此,有三个主要因素影响最终结果:架构、预训练算法和预训练数据集。
由于选择太多,如何选择最佳的呢?