让我们简单了解机器学习。
现在,机器学习无处不在,对吧?如果你在这里,那你可能对机器学习到底是什么感到好奇!所以,让我用简单的话来解释给你听,从高层次来看,机器学习就是通过展示给它们许多示例并让它们从数据中学习,从而教会计算机做出聪明的选择。让我们继续讨论吧,下面是接下来的内容!
目录
- 机器学习的工作原理 ∘ 机器学习的应用
- 机器学习的类型
- 监督式机器学习 ∘ 监督式学习的类型 ∘ 回归 ∘ 分类
- 无监督式机器学习 ∘ 无监督学习的类型 ∘ 聚类算法 ∘ 降维 ∘ 异常检测 ∘ 关联规则学习 ∘ 自编码器
- 半监督学习
- 强化学习
∘ 结论 ∘ 公告 #100daysMLDL
机器学习的工作原理
机器学习中的基本操作是通过分析大量的可用数据(这个过程称为“训练”)来找出数据中的模式。例如,成年人的身高和他/她父亲的身高之间存在一个模式,即父亲的身高= m *(人的身高)+ c。
基于观察到的模式,算法将通过调整参数(这里是m、c)并找到最佳参数来创建一个数学方程,该方程可以给出数据的准确匹配(这里它找到了能表示数据的最佳参数m和c的值),这被称为一个“模型”(例如,父亲的身高=1*人的身高+0.5)。嗯,不一定总是方程,但为了简化我们的理解,我们可以这样考虑。
现在有了这个模型,如果有人告诉我们他们的身高,我们可以用我们拥有的模型(即方程)来预测他们父亲的身高,对吧?如果这个预测不准确,你别跟我争吵!这些值只是虚拟的!
但是,现在市面上有很多算法,所以在机器学习中,我们研究这些算法,找到能够用你的新数据进行准确预测的最佳算法。
机器学习的应用
我们不得不承认,机器学习已经无处不在,让我们的生活变得更轻松、更方便。以下是一些例子。
1. 应用推荐系统:想象一下你在一个流媒体平台上:你看了一些科幻电影,突然它推荐更多的科幻电影。这就是机器学习的工作!它分析你过去的选择和其他观众的选择,推荐你喜欢的内容。
2. 虚拟个人助理:想想Siri,Alexa或Google助手:它们理解你的语音指令并提供有用的回答。机器学习算法使它们能够识别语音模式,并随着时间推移改善对你的语音理解。
3. 自动驾驶汽车:想象一辆可以自行驾驶的汽车:自动驾驶汽车使用机器学习来解释来自传感器和摄像头的数据,帮助它们做出停止、前进或变道的决策。它们通过观察现实交通情况来学习安全驾驶。
4. 欺诈检测:当你的银行检测到账户上异常活动时:再次使用机器学习算法。它们分析你的消费模式,并标记与正常模式不符的交易,保护你免受欺诈活动的侵害。
5. 医疗诊断:当医生使用人工智能来检测疾病时:机器学习辅助分析医学影像,如X光和MRI扫描,以早期识别异常。根据历史数据,它还可以帮助预测患者的预后。
这些应用只是冰山一角,机器学习在各个领域的可能性是无限的,当你预测到新数据时,也会感到这种魔力,对吧?
机器学习的类型
我们知道,大部分情况下,机器学习是关于找到最适合我们的数据的算法,现在是时候探索各种算法类别、它们的目的和一些应用了。它们主要分为四类:监督学习、无监督学习、半监督学习和强化学习。让我们详细了解它们。
1. 监督学习
这是执行机器学习操作的最常见的方法。它用于存在输入和输出数据之间精确映射的数据。比如,这个形状🍎,我们精确地将它标记为“苹果”。我们通过算法展示其中几个例子,下次你展示这个形状时,它将被预测为一个苹果。
给定具有标签的示例数据,我们可以将其发送给算法,随着时间的推移,算法将找到示例和标签之间的近似模式。一旦完全训练,我们可以将新数据发送给生成的模型,它将进行预测。
这些监督算法被称为“任务导向型”。随着我们提供更多数据,它将能够学习得更好,并做出更好的预测。
一些应用:1. 人脸识别2. 声音识别3. 垃圾邮件分类等等…
监督学习的类型
广义上来说,我们可以将监督学习分为两类:1. 回归2. 分类
1. 回归
简单说,回归算法是基于输入变量来预测连续变量(整数/浮点数)。本文开头提到的例子可以被看作是一种回归算法,它通过一位成年人的身高来预测父亲的身高。因为我们要预测的身高将是连续变量(浮点数)。
回归算法
- 线性回归
- 多项式回归
- Lasso回归
- Ridge回归
- 指数回归
- 对数回归
一些应用:
- 基于先前的考试分数预测学生分数。
- 基于房间大小、地理位置等预测房价。
分类
我们使用分类算法来预测类别,而不是连续变量。比如,你想确定电子邮件是否为垃圾邮件,在这里,预测变量不是一个数字,只是一个是或否的类别。
分类算法
- 逻辑回归
- K最近邻算法
- 决策树
- 随机森林
- 支持向量机
- 朴素贝叶斯
- AdaBoost
- XG Boost
- 梯度提升
一些应用
- 基于先前的电子邮件数据进行垃圾邮件检测。
- 图像分类,识别猫和狗之间的区别。
2. 无监督机器学习
顾名思义,我们可以将其看作是监督机器学习的相反情况。在监督学习中,我们有输入和输出标签,而在无监督学习中,有输入数据,但数据没有明确的标签。这些算法能够通过找到隐含的模式来从数据中学习。
以向算法展示不同的水果篮为例,根据形状、大小和颜色将其分成不同的组,当你展示一个新的水果时,它将对其进行分组预测。
无监督算法根据密度、结构、相似段和其他相似特征来识别数据。
一些应用:推荐系统、客户行为分析、新闻文章分组等等。
无监督学习的类型
广义上,我们可以将其分为5个类别,包括:
- 聚类算法
- 降维
- 异常检测
- 关联规则学习
- 自编码器
让我们理解这些类别的目的,并探索属于这些类别的算法。
聚类算法
聚类是一种将相似对象集合划分到同一组中,与其他组中的对象不同的技术,基于相似性进行分组,类似于上面的水果篮划分。
聚类算法
- K均值算法
- DBSCAN
- 层次聚类
- 均值偏移
降维
降维是通过关注最重要的方面来简化复杂问题的方法,也是一种在数据集中减少特征(维度)数量同时保留其基本信息的技术。这种简化使得数据分析更加高效和易于可视化。
降维算法
- 主成分分析(PCA)
- t-分布随机邻居嵌入(t-SNE)
异常检测
异常检测类似于从一组中找到与众不同的一个。它是一种在数据分析中用于识别不符合预期模式的异常或罕见数据点的技术,基本上是异常值。这对于在各个领域中检测异常非常有价值,从金融交易中的欺诈检测到工业系统中设备故障的识别。如果有任何数据点落在模型的仅限于一个类的范围之外,那它可能是一个异常。
异常检测算法
- 单类K均值
- 单类支持向量机
- 孤立森林
关联规则学习
关联规则学习就像在商店找到人们购买商品之间有趣的连接。它是一种机器学习技术,可以发现数据中的关系,帮助识别物品或事件之间的模式、趋势和关联。关联规则学习在理解消费者行为、优化库存和提供个性化推荐方面是一种有价值的工具。
AR下的算法
- Apriori
- FP-Growth(频繁模式增长)
- Eclat算法
自编码器
它们是一类神经网络,将复杂数据压缩成一段代码,然后尝试从摘要代码中重新创建输入数据。这种压缩解压过程可以用于去除视觉数据(如图像、视频和医学扫描)中的噪音,以改善质量。
3. 半监督学习
半监督学习,在很大程度上就像它听起来的那样,是一个同时拥有标记和未标记数据集的训练数据集。当从数据中提取相关特征很困难且标记所有示例非常耗时时,这种方法特别有用!
一种常用的训练方法是从一个相当小的标记数据集开始使用生成对抗网络(GANs),就像两个深度学习网络在竞争中互相试图骗过对方!
其中一个网络被称为生成器,试图创建模仿训练数据的新数据点。另一个网络,鉴别器,输入新生成的数据并评估它们是否属于训练数据或伪造的。
随着鉴别器在区分伪造品和原作方面变得更好,生成器改进了其创建逼真伪造品的能力,两个网络在一个正向反馈循环中不断提高。
例如:医学图像,如CT扫描或MRI。
4. 强化学习
这是一种方法,其中代理通过与环境互动来学习做决策。代理采取行动,通过奖励或惩罚形式获得反馈,并调整其行为以最大化长期回报。它常用于机器人技术、游戏和自主系统,就像试错法一样。
总体目标是预测获得最大最终奖励的最佳下一步。以国际象棋为例,每个行动可以是每个移动,状态将是当前游戏情况,中间步骤中的奖励可以是它捕获的对手棋子。最大最终奖励是赢得比赛。所以,它通过经验来学习一切。
结论
希望您清楚地了解了什么是机器学习,并理解了有监督学习是给定带有标签的数据,无监督学习是给定没有特定标签的数据,而半监督学习是一半带有标签,另一半没有标签,而强化学习则是完全神奇,它通过试错学习一切,非常美妙!
这是您在深入学习这些算法之前需要了解的机器学习基础知识。深入学习算法的详细内容在数据科学中至关重要,我自己也在这个令人难以置信的旅程中,未来的日子里,我将详细介绍这些算法的直觉。关注我获取更多信息,订阅以不错过任何精彩的数据科学文章!
如果您对Pandas、Numpy、Matplolib、Seaborn和Plotly感兴趣,那么您不再需要寻找了,我还有关于这些数据科学基本库的详细文章,这里是策划好的列表。
所有重要数据科学库的详细指南
点击查看列表8篇故事
#100daysMLDL公告
第18/100天 — 机器学习入门。
只需前往我的GitHub存储库,即可直接访问所有的代码和资源。以下是挑战的存储库链接。我邀请大家加入这个激动人心的旅程!无论你是数据爱好者还是对机器学习世界感兴趣的人,这里都有适合每个人的内容。让我们一起学习、成长和激励对方。感谢阅读,学无止境,祝你有一个美好的一天 🙂