0%

机器学习的基本概念1

发表于 2023-06-13 更新于 2023-07-05 分类于深度学习基本概述

该篇为初学时，在阅读李航老师的《统计学习方法中》进行的一些摘录。主要是介绍机器学习的一些基本概念。

机器学习

1.特点

计算机为平台
数据为研究对象
对数据预测与分析为目的
以方法为中心，构建模型并应用模型进行预测与分析
概率论、统计学、计算理论、最优化理论及计算机科学多学科交叉

2.思想

从数据出发找到他们的特征，从而抽象出模型，发现数据中的知识，最后回到对数据的分析与预测中去。这些数据包括（有些数据是可以吃的）:

数字
文字
图像
视频
音频

3.方法

监督学习（supervised learning）

指对数据的若干特征与若干标签(类型)之间的==关联性==进行建模的过程；只要模型被确定，就可以应用到新的未知数据上。
这类学习过程可以进一步分为「分类」(classification)任务和「回归」(regression)任务。
在分类任务中，标签都是离散值；
而在回归任务中，标签都是连续值。

非监督学习（unsupervised learning）

指对不带任何标签的数据特征进行建模，通常被看成是一种“==让数据自己介绍自己==” 的过程。
这类模型包括「聚类」(clustering)任务和「降维」(dimensionality reduction)任务。
聚类算法可以将数据分成不同的组别，而降维算法追求用更简洁的方式表现数据。
半监督学习（semi-supervised learning）

另外，还有一种半监督学习(semi-supervised learning)方法，介于有监督学习和无监督学习之间。通常可以在数据不完整时使用。
强化学习（reinforcement learning）

强化学习不同于监督学习，它将学习看作是试探评价过程，以”试错” 的方式进行学习，并与环境进行交互已获得奖惩指导行为，以其作为评价。此时系统靠自身的状态和动作进行学习，从而改进行动方案以适应环境。
（提示：半监督学习和强化学习比较偏向于深度学习）

4.类型

分类问题

监督学习从数据中学习一个分类决策函数或分类模型，称为分类器（classifier）。分类器对新的输入进行输出的预测，这个过程称为分类。
标注问题

标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。
标注问题的输入是一个观测序列，输出的是一个标记序列或状态序列。也就是说，分类问题的输出是一个值，而标注问题输出是一个向量，向量的每个值属于
一种标记类型。
回归问题

回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合：选择一条函数曲线，使其很好地拟合已知数据且很好地预测未知数据

5.步骤

三要素：模型（model) 策略（strategy) 算法（algorithm）

数据和特征决定了机器学习的上界，而模型和算法只是去逼近这个上界。步骤为：

得到一个有限的训练数据集合；
确定包含所有可能的模型的假设空间（学习模型的集合）；
确定模型选择的准则(学习的策略)；
实现求解最优模型的算法，即学习的算法；
通过学习方法选择最优模型；
利用学习的最优模型对新数据进行预测或分析。
深度学习其实也是使用的这种步骤，机器学习可以说是深度学习的总称。只是特征提取的方式不同。简单提一下，这里的模型其实可以类比于一些模型比如CNN等。策略是损失函数。算法是如何使得模型得到最优解的方法。

-------------本文结束感谢您的阅读-------------