注释可能是非常昂贵的
您是一名机器学习工程师,或者只是一个热衷于从现实世界的海量无标签数据中提取见解的热情学习者吗?如果是的,了解如何有效利用无标签数据至关重要。
在我作为数据科学家的旅程开始时,我实际上一直在使用像Kaggle这样的公共数据集进行实验,这些数据集得到了很好的组织,并且大多数时间,数据集都有标签。
当99%的大公司使用原始数据来训练他们的机器学习模型时,我有了一个重大的领悟。原始数据缺乏适当的结构和标签,使其成为未开发潜力的金矿。
公司并不直接使用这些原始数据来训练模型,而是通过雇佣人员对原始数据进行注释。
注释:标记数据。
例如:-您希望在电视上检测到Lionel Messi,因此您需要使用许多带有边界框的Messi图像来训练模型。这个边界框是模型知道Messi在图像中的特定位置的标签。
为什么无标签数据可能很昂贵?
很多人可能会认为,“我只会使用有标签的数据”,那可能在未来几年内是正确的。我的意思是,在未来,您需要为自己准备好使用无标签数据来训练模型。
谈到昂贵的方面,将无标签数据转化为有标签数据是一个价值数十亿美元的行业。
数据标注的昂贵原因:
- 需要领域专业知识来完美标记关键数据,例如:
- 1. 医学图像
- 2. 自动驾驶汽车
- 数据的速度和数量将会增加,因此需要更多的人来进行标注。