Press "Enter" to skip to content

初学者的形象分类

2014年的VGG和ResNet架构

来自unsplash的图片-作者修改

图像分类是我在Interview Kickstart上教授的第一个主题,该课程旨在帮助专业人员在顶级科技公司中获得就业机会。我在那里的一次讲座准备期间写了这篇文章。所以如果您对这个主题不熟悉,这篇直观的解释也可能对您有所帮助。

在本文中,我们将探讨VGG和ResNet模型;这两个模型都是卷积神经网络(CNN)在计算机视觉领域发展中具有里程碑意义和影响力的重要作品。 VGG [2]是牛津大学的一个研究团队于2014年提出的,而ResNet [3]则由微软研究人员在2015年提出。

让我们开始吧。

什么是VGG?

VGG代表Visual Geometry Group,是牛津大学的一个研究团队。在2014年,他们设计了一个用于图像分类任务的深度卷积神经网络架构,并以自己的名字命名它,即VGG。[2]

VGG网络架构

该网络有几种配置,它们都具有相同的架构,只是层数不同。最著名的是VGG16和VGG19。VGG19比VGG16更深,并且性能更好。为了简单起见,我们将重点放在VGG16上。

VGG16的架构如下图所示。我们可以看到它有16层;13个卷积层和3个全连接层

VGG16架构-图像由作者提供

这是一个非常简单的架构;它由6个块组成,其中前5个块包含卷积层和最大池化层,第6个块只包含全连接层。

所有卷积层都使用3×3的过滤器,步长为1,所有最大池化层都是2×2的,步长为2,因此它们减半了输入特征图的宽度和高度。这被称为下采样,因为它减小了输出特征图的大小。

请注意,卷积层从64个滤波器开始,并在每次池化后加倍,直到达到512个滤波器。所有卷积层都使用“same”填充来保持…

Leave a Reply

Your email address will not be published. Required fields are marked *