八大机器学习算法

张一风2025年1月5日大约 17 分钟

线性回归

非线性变换

我们可以通过对输入进行一定变换从而使得原本的线性特征变成非线性特征。

我们定义一个变换函数 $ϕ : R^{d} \to R^{k}$ ，将原本的 $d$ 维特征转换为 $k$ 维特征。我们可以将原本的特征 $x$ 通过 $ϕ (x)$ 映射到更高维的空间，然后使用线性模型拟合 $w^{T} ϕ (x)$ 。

最简单的例子是对于输入空间 $x \in R^{1}$ ，即 $x = {1, x}$ ，我们可以定义一个二次变换函数 $ϕ (x) = {1, x, x^{2}}$ ，然后使用线性模型拟合 $w^{T} ϕ (x)$ 。

通过这种映射，我们可以拟合很多非线性函数。

一些其他的变换例子是：

{1, x, y} - ϕ \to {1, x, y, x y, y^{2}, x^{2}} {1, x, y} - ϕ \to {1, x, y, \sin x, \cos y}

非线性变化允许我们拟合更多的函数，但是也有一些代价。

升高输入维度同样也会导致升高权重的维度。例如

{1, x, y} - ϕ \to {1, x, y, x y, y^{2}, x^{2}}

我们原来只需要 3 维的权重，而现在需要 6 维的权重。这会导致更多的计算量。

而最严重的则是权重爆炸。当我们的特征空间变得非常大时，我们的权重也会变得非常大。模型过度复杂会导致过拟合（模型只记住了数据集的点，而不能泛化）。

非线性变换是一种非侵入性的方法。我们可以在不改变原始数据的情况下，通过变换函数 $ϕ$ 来拟合非线性函数。

因此非线性变化也不会影响我们推导出的公式（包括梯度、封闭解等），我们只是需要将公式内的 $X$ 替换为 $Φ$ （或 $x$ 替换为 $ϕ (x)$ ）。

例如对于线性回归，我们定义的封闭解公式为：

w^{*} = (X^{T} X)^{- 1} X^{T} y

如果我们应用非线性变化 $X - ϕ (x) \to Φ$ ，我们因此则有：

w^{*} = (Φ^{T} Φ)^{- 1} Φ^{T} y

正规方程

正规方程（Normal Equation）是线性回归中用于求解系数的一种方法。在线性回归中，我们试图找到一个线性关系来预测目标变量 $y$ 。这个线性关系可以表示为：

y = X β + ϵ

其中：

$y$ 是目标变量。
$X$ 是自变量矩阵，每一列代表一个特征，每一行代表一个样本。
$β$ 是系数向量，包含每个特征的权重。
$ϵ$ 是误差项。我们的目标是找到最佳的系数向量 $β$ ，使得误差项 $ϵ$ 最小。正规方程提供了一种直接计算 $β$ 的方法，而无需使用梯度下降等迭代算法。正规方程的公式为：

β = (X^{T} X)^{- 1} X^{T} y

其中：

$X^{T}$ 是自变量矩阵 $X$ 的转置。
$ (X^T X)^{-1} $ 是 $ X^T X $ 的逆矩阵。这个公式是通过最小化误差的平方和得到的。具体来说，我们首先计算 $ X^T X $，然后求其逆矩阵，最后将逆矩阵与 $ X^T y $ 相乘，得到系数向量 $ \beta $。使用正规方程求解线性回归模型的优点是计算简单，不需要迭代过程。然而，当自变量矩阵 $X$ 的维度很高或者存在多重共线性时，正规方程可能会变得不稳定或计算复杂。在这种情况下，可以考虑使用其他方法，如岭回归或Lasso回归。

KNN算法

介绍

k近邻算法，也称为 KNN 或 k-NN，是一种非参数、有监督的学习分类器，KNN 使用邻近度对单个数据点的分组进行分类或预测。

基本思想

下图中有两种类型的样本数据，一类是蓝色的正方形，另一类是红色的三角形，中间那个绿色的圆形是待分类数据：

如果K=3，那么离绿色点最近的有2个红色的三角形和1个蓝色的正方形，这三个点进行投票，于是绿色的待分类点就属于红色的三角形。而如果K=5，那么离绿色点最近的有2个红色的三角形和3个蓝色的正方形，这五个点进行投票，于是绿色的待分类点就属于蓝色的正方形。

应用k-近邻算法的一个实践问题是，实例间的距离是根据实例的所有属性（也就是包含实例的欧氏空间的所有坐标轴）计算的。这与那些只选择全部实例属性的一个子集的方法不同，例如决策树学习系统。比如这样一个问题：每个实例由20个属性描述，但在这些属性中仅有2个与它的分类是有关。在这种情况下，这两个相关属性的值一致的实例可能在这个20维的实例空间中相距很远。结果，依赖这20个属性的相似性度量会误导k-近邻算法的分类。近邻间的距离会被大量的不相关属性所支配。这种由于存在很多不相关属性所导致的难题，有时被称为维度灾难（curse of dimensionality）。最近邻方法对这个问题特别敏感。
解决方法：当计算两个实例间的距离时对每个属性加权。这相当于按比例缩放欧氏空间中的坐标轴，缩短对应于不太相关属性的坐标轴，拉长对应于更相关的属性的坐标轴。每个坐标轴应伸展的数量可以通过交叉验证的方法自动决定。

如何建立高效的索引

因为这个算法推迟所有的处理，直到接收到一个新的查询，所以处理每个新查询可能需要大量的计算。
解决方法：目前已经开发了很多方法用来对存储的训练样例进行索引，以便在增加一定存储开销情况下更高效地确定最近邻。一种索引方法是kd-tree（Bentley 1975；Friedman et al. 1977），它把实例存储在树的叶结点内，邻近的实例存储在同一个或附近的结点内。通过测试新查询xq的选定属性，树的内部结点把查询xq排列到相关的叶结点。

附录

朴素贝叶斯

朴素是指各个输入事件之间相互独立

核心思想

似然概率：似然概率衡量在给定某一参数值的情况下，观察到特定数据的可能性。它反映了数据对参数的支持程度。

先验概率：先验概率表示在观察到数据之前，对某一事件或参数的主观信念或预期。它基于已有的知识、经验或假设。

后验概率：后验概率是在观察到数据之后，对某一事件或参数的更新信念。它结合了先验概率和似然概率，通过贝叶斯定理计算得出。

P (Y | X) = \frac{P (X | Y) \cdot P (Y)}{P (X)}

$P (Y | X)$ ：在特征 $X$ 出现的情况下，类别 $Y$ 的概率（后验概率）。
$P (X | Y)$ ：在类别 $Y$ 下特征 $X$ 出现的概率（似然）。
$P (Y)$ ：类别 $Y$ 的先验概率。

分类

高斯朴素贝叶斯：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度。
多项式朴素贝叶斯：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在一个单词出现的次数，或者是单词的 TF-IDF 值等。
伯努利朴素贝叶斯是以文件为粒度，如果该单词在某文件中出现了即为 1，否则为 0。而多项式朴素贝叶斯是以单词为粒度，会计算在某个文件中的具体次数。而高斯朴素贝叶斯适合处理特征变量是连续变量，且符合正态分布（高斯分布）的情况。