基础知识
机器学习类型 Link to heading
### 监督学习
- 分类
- 回归
### 非监督学习
- 聚类
### 强化学习
- 有延迟和稀疏的反馈标签的学习方式
### 积极学习
- 一劳永逸
- 训练时间长
### 消极学习
- 需要的存储空间比较大
- 决策过程比较慢
分类问题 Link to heading
#### 二分类问题
- 垃圾邮件,正常邮件
#### 多类分类问题
- 手写数字识别
#### 多标签分类问题
- 音乐分类(一首歌多个可以有标签)
$$
x_{\text{centered}} = x - \bar{x}
$$数据处理 Link to heading
归一化 Link to heading
归一化是指将数据集中的每个特征的最大值缩放到 1,最小值缩放到 0。
标准化 Link to heading
标准化其实就是z-score归一化,也就是说标准化其实是归一化的一种。
量纲是指数据的单位,比如长度、重量、时间等。
标准化是指将数据集中的每个特征的均值移动到 0,方差缩放到 1。 标准化的目的是消除特征之间的量纲差异,使得模型更容易学习到特征之间的关系。
对于一个特征 $x$,它的标准化公式为:
$$ x_{\text{standardized}} = \frac{x - \bar{x}}{\sigma} $$中心化 Link to heading
中心化是指将数据集中的每个特征的均值移动到 0。
中心化的目的是消除特征之间的偏差,使得模型更容易学习到特征之间的关系。
对于一个特征 $x$,它的中心化公式为:
$$
x_{\text{centered}} = x - \bar{x}
$$