到1还是到0：图像分类中的像素攻击

探索对抗性机器学习的领域

Unsplash上的the blowup的照片 — 照片由the blowup提供，来自Unsplash

你好！

今年，我参加了AI Village @ DEFCON 31的第一次CTF（夺旗战）比赛，这次经历令人着迷。特别是那些涉及像素攻击的挑战，引起了我的注意，也是本文的主要焦点。虽然我最初打算分享在比赛中进行的一个简化版本的像素攻击，但本文的目标还是深入探讨加强机器学习模型以更好地抵御像素攻击的策略，就像比赛中遇到的那些攻击一样。

在我们深入理论之前，让我们通过一个引人入胜的场景来铺垫一下。

想象一下：我们的公司，MM Vigilant，致力于开发一款前沿的物体检测产品。这个理念很简单但革命性——客户拍摄所需物品的照片，然后在几天后送到他们的门前。作为幕后的杰出数据科学家，你已经打造了一款极佳的基于图像的物体分类模型。分类结果无可挑剔，模型评估指标一流，相关利益方个个满意。模型上线，客户欣喜若狂——直到一波抱怨浪潮涌来。

经过调查，发现有人在图片到达分类器之前对其进行了干扰。具体而言，每一张时钟的图片都被恶作剧地分类为镜子。结果呢？希望买的是时钟的人却收到了一面意外的镜子。这可真是出乎意料的转折，不是吗？

我们在MM Vigilant的利益相关者对这个错误既担忧又好奇，他们想知道这个问题是如何发生的，更重要的是可以采取什么措施来预防它。

我们刚才探索的场景是一个假设的情况——尽管图像篡改是一种非常可能的情况，特别是如果模型存在漏洞。

那么让我们仔细看一下图像分类中的一个这样的篡改…