Press "Enter" to skip to content

揭秘机器学习

揭秘机器学习 四海 第1张

 

传统与转型:回顾与展望

 

传统上,计算机通常遵循一组明确的指令。例如,如果您想让计算机执行一个简单的任务,如相加两个数字,您必须详细说明每个步骤。然而,随着我们的数据变得更加复杂,这种手动给每种情况提供指令的方法已经不足够。

这就是机器学习作为一种改变游戏规则的出现。我们希望计算机像我们从经验中学习一样从示例中学习。想象一下,通过向孩子展示几次如何骑自行车,然后让他摔倒、摸索和自学。这就是机器学习的理念。这种创新不仅改变了行业,而且已经成为当今世界中不可或缺的必需品。

 

学习基础知识

 

现在我们对“机器学习”这个术语有了基本的理解,让我们熟悉一些基本术语:

 

数据

 

数据是机器学习的生命线。它指的是计算机用于学习的信息。这些信息可以是数字、图片或任何计算机可以理解的东西。它进一步分为两类:

  • 训练数据:这些数据是我们用来教计算机的示例。
  • 测试数据:在学习之后,我们使用一些新的、未见过的数据来测试计算机的性能,这些数据被称为测试数据。

 

标签和特征

 

想象一下,您正在教一个孩子如何区分不同的动物。动物的名称(狗、猫等)是标签,而帮助您识别这些动物的特征(腿的数量、毛发等)是特征。

 

模型

 

它是机器学习过程的结果。它是数据中的模式和关系的数学表示。就像在探索一个新地方后制作一张地图。

 

机器学习的类型

 

机器学习有四种主要类型:

 

监督式机器学习

 

它也被称为有导向学习。我们向机器学习算法提供带有标签的数据集,其中正确的输出已经知道。根据这些示例,它学习数据中的隐藏模式,并可以预测或正确分类新数据。监督学习中的常见类别有:

  • 分类:将事物分为不同的类别,例如将图片分类为猫或狗,将邮件分类为垃圾邮件或非垃圾邮件等。
  • 回归:它涉及预测数值,例如房屋价格、您的绩点或销售数量,基于某些特征。

 

无监督式机器学习

 

在这里,计算机提供了没有先前提示的无标签数据,并自行探索隐藏的模式。只需想象您被交付了一盒没有图片的拼图碎片,您的任务是将相似的图片分组以形成完整的图片。聚类是无监督学习中最常见的类型,其中将类似的数据点分组成一组。例如,我们可以使用聚类来将类似的社交媒体帖子分组,用户可以关注自己感兴趣的子主题。

 

半监督式机器学习

 

半监督学习包含有标签和无标签数据集的混合,其中有标签的数据集作为在数据中识别模式的指导点。例如,您向厨师提供一份主要配料清单,但没有提供完整的食谱。因此,尽管他们没有食谱,但有一些可能帮助他们入门的提示。

 

强化学习

 

强化学习也被称为通过实践学习。它与环境进行交互,并以奖励作为其行为的惩罚。随着时间的推移,它学会最大化奖励并表现良好。想象一下,你正在训练一只小狗,当它表现良好时,你通过奖励他给予积极反馈,而以不给予奖励的形式给予消极反馈。随着时间的推移,小狗学会了导致奖励的行为,也学会了不导致奖励的行为。

 

高级机器学习过程

 

机器学习,就像烹饪艺术一样,具有将原始的、不同的元素转化为深刻洞察的魔力。就像一个熟练的厨师巧妙地将各种食材组合在一起制作出美味的菜肴一样。下面是执行机器学习任务的六个基本步骤:   揭秘机器学习 四海 第2张

 

1. 数据收集

 

数据是一种重要资源,其质量非常重要。多样化、更相关的数据会产生更好的结果。你可以将其视为厨师从不同的市场收集各种食材。

 

2. 数据预处理

 

我们的大部分数据不是以期望的形式存在的。就像在烹饪之前洗涤、切割和准备食材一样,数据预处理涉及对数据进行清洗和组织,以供学习过程使用。你可能会遇到一些常见的问题,如缺失数据、异常值、格式不正确等。

 

3. 选择算法

 

类似于为特定菜肴选择食谱,你根据要解决的问题选择算法。这个选择也可能受到你拥有的数据类型的影响。

 

4. 训练模型

 

将其视为烹饪过程,我们等待各种味道融合在一起。同样地,我们让模型从训练数据中学习。学习速率的重要概念也在这里起作用,它确定模型在每次训练迭代中迈出多大的步伐。如果一次性添加太多的盐或香料,菜肴可能会变得过于强烈。相反,如果添加得太少,味道可能无法完全发展。学习率找到了逐渐增强味道的完美平衡点。

 

5. 测试与评估

 

一旦学习过程结束,我们使用特殊的测试数据对其进行测试,就像品尝一道菜肴并检查其外观一样,然后才与他人分享。常见的评估指标包括准确度、精确度、召回率和F1分数,具体取决于手头的问题。

 

6. 调优和迭代

 

调整调味品或食材以完善菜肴,通过引入更多的变量、选择不同的学习算法和调整参数或学习率来对模型进行微调。

 

总结

 

在探讨机器学习基础的过程中,要记住它的核心是使计算机能够在最小的人为干预下学习和做出决策。保持好奇心,并留意我们下一篇文章,我们将深入探讨各种类型的机器学习算法。以下是一些适合初学者的资源,供你进一步探索:

  • 使用Python进行机器学习入门
  • 机器学习入门
  • 机器学习 – Coursera
  • 使用Scikit-Learn、Keras和TensorFlow进行实践机器学习

    Kanwal Mehreen 是一名有抱负的软件开发者,对数据科学和医学中人工智能的应用非常感兴趣。Kanwal被选为2022年Google Generation Scholar亚太地区的学者。Kanwal喜欢通过撰写关于热门话题的文章来分享技术知识,并热衷于改善科技行业中女性的代表性。  

Leave a Reply

Your email address will not be published. Required fields are marked *