机器学习最全知识点汇总

2022-03-06 23:59:43· 来源：机器学习算法与Python实战

支持向量机

支持向量机的核心思想是最大化分类间隔。简单的支持向量机就是让分类间隔最大化的线性分类器，找到多维空间中的一个超平面。它在训练是求解的问题为：

这从点到超平面的距离方程导出，通过增加一个约束条件消掉了优化变量的冗余。可以证明，这个问题是凸优化问题，并且满足Slater条件。这个问题带有太多的不等式约束，不易求解，因此通过拉格朗日对偶转换为对偶问题求解：

同样的，这个问题也是凸优化问题。此时支持向量机并不能解决非线性分类问题，通过使用核函数，将向量变换到高维空间，使它们更可能是线性可分的。而对向量先进行映射再做内积，等价于先做内积再做映射，因此核函数并不用显式的对向量进行映射，而是对两个向量的内积进行映射，这是核函数的精髓。要理解核函数，可以阅读SIGAI之前的公众号文章“【实验】理解SVM的核函数和参数”。
加入核函数K之后的对偶问题变为：

预测函数为：

其中b通过KKT条件求出。如果使用正定核，这个问题也是凸优化问题。求解采用了SMO算法，这是一种分治法，每次挑选出两个变量进行优化，其他变量保持不动。选择优化变量的依据是KKT条件，对这两个变量的优化是一个带等式和不等式约束的二次函数极值问题，可以直接得到公式解。另外，这个子问题同样是一个凸优化问题。
标准的支持向量机只能解决二分类问题。对于多分类问题，可以用这种二分类器的组合来解决，有以下几种方案：
1对剩余方案。对于有k个类的分类问题，训练k个二分类器。训练时第i个分类器的正样本是第i类样本，负样本是除第i类之外其他类型的样本，这个分类器的作用是判断样本是否属于第i类。在进行分类时，对于待预测样本，用每个分类器计算输出值，取输出值最大那个作为预测结果。
1对1方案。如果有k个类，训练Ck2个二分类器，即这些类两两组合。训练时将第i类作为正样本，其他各个类依次作为负样本，总共有k (k − 1) / 2种组合。每个分类器的作用是判断样本是属于第i类还是第j类。对样本进行分类时采用投票的方法，依次用每个二分类器进行预测，如果判定为第m类，则m类的投票数加1，得票最多的那个类作为最终的判定结果。
除了通过二分类器的组合来构造多类分类器之外，还可以通过直接优化多类分类的目标函数得到多分类器。
SVM是一种判别模型。它既可以用于分类问题，也可以用于回归问题。标准的SVM只能支持二分类问题，使用多个分类器的组合，可以解决多分类问题。如果不使用核函数，SVM是一个线性模型，如果使用非线性核，则是非线性模型，这可以从上面的预测函数看出。如果想更详细的了解支持向量机，可以阅读SIGAI之前的公众号文章“用一张图理解SVM的脉络”。

logistic回归

logistic回归是一种二分类算法，直接为样本估计出它属于正负样本的概率。先将向量进行线性加权，然后计算logistic函数，可以得到[0,1]之间的概率值，它表示样本x属于正样本的概率：

正样本标签值为1，负样本为0。使用logistic函数的原因是它单调增，并且值域在(0, 1)之间，刚好符合概率的要求。训练时采用最大似然估计，求解对数似然函数的极值：

可以证明这是一个凸优化问题，求解时可以用梯度下降法，也可以用牛顿法。如果正负样本的标签为+1和-1，则可以采用另外一种写法：

训练时的目标同样是最大化对数似然函数：

同样的，这也是一个凸优化问题。预测时并不需要计算logistic函数，而是直接计算：

Logistic回归是一种二分类算法，虽然使用了概率，但它是一种判别模型！另外要注意的是，logistic回归是一种线性模型，这从它的预测函数就可以看出。它本身不能支持多分类问题，它的扩展版本softmax回归可以解决多分类问题。

K均值算法

K均值算法是一种聚类算法，把样本分配到离它最近的类中心所属的类，类中心由属于这个类的所有样本确定。
k均值算法是一种无监督的聚类算法。算法将每个样本分配到离它最近的那个类中心所代表的类，而类中心的确定又依赖于样本的分配方案。
在实现时，先随机初始化每个类的类中心，然后计算样本与每个类的中心的距离，将其分配到最近的那个类，然后根据这种分配方案重新计算每个类的中心。这也是一种分阶段优化的策略。
与k近邻算法一样，这里也依赖于样本之间的距离，因此需要定义距离的计算方式，最常用的是欧氏距离，也可以采用其他距离定义。算法在实现时要考虑下面几个问题：
1.类中心向量的初始化。一般采用随机初始化。最简单的是Forgy算法，它从样本集中随机选择k个样本作为初始类中心。第二种方案是随机划分，它将所有样本随机的分配给k个类中的一个，然后按照这种分配方案计算各个类的类中心向量。
2.参数k的设定。可以根据先验知识人工指定一个值，或者由算法自己确定。
3.迭代终止的判定规则。一般做法是计算本次迭代后的类中心和上一次迭代时的类中心之间的距离，如果小于指定阈值，则算法终止。

卷积神经网络

卷积神经网络是对全连接神经网络的发展，它使用卷积层，池化层自动学习各个尺度上的特征。卷积运算为：

在这里需要注意多通道卷积的实现，它的输入图像，卷积核都有多个通道，分别用各个通道的卷积核对输入图像的各个通道进行卷积，然后再累加。这里也使用了激活函数，原因和全连接神经网络相同。池化运算最常见的有均值池化，max池化，分别用均值和最大值代替图像的一块矩形区域。使用池化的原因是为了降维，减小图像的尺寸，另外，它还带来了一定程度的平移和旋转的不变性。Max池化是非线性操作，现在用的更多。
对于经典的网络结构，包括LeNet-5网络，AlexNet，VGG网络，GoogLeNet，残差网络等经典的网络结构，创新点，要熟记于心。
自Alex网络出现之后，各种改进的卷积网络不断被提出。这些改进主要在以下几个方面进行：卷积层，池化层，激活函数，损失函数，网络结构。对于这些典型的改进，也要深刻理解。
由于引入了卷积层和池化层，因此反向传播算法需要为这两种层进行考虑。卷积层误差项的反向传播的公式为

根据误差项计算卷积核梯度值的公式为：

如果采用均值池化，池化层的误差项反向传播计算公式为：

如果使用max池化，则为：

注意，池化层没有需要训练得到的参数。如果对卷积神经网络反向传播算法的推导感兴趣，可以阅读SIGAI之前的公众号文章“反向传播算法推导-卷积神经网络”。
卷积神经网络具有迁移学习的能力，我们可以把这个网络的参数作为训练的初始值，在新的任务上继续训练，这种做法称为fine-tune，即网络微调。大量的实验结果和应用结果证明，这种微调是有效的。这说明卷积神经网络在一定程度上具有迁移学习的能力，卷积层学习到的特征具有通用性。VGG网络在ImageNet数据集上的训练结果在进行微调之后，被广泛应用于目标检测、图像分割等任务。
和全连接神经网络一样，卷积神经网络是一个判别模型，它既可以用于分类问题，也可以用用于回归问题，并且支持多分类问题。

循环神经网络

循环神经网络是一种具有记忆功能的神经网络，每次计算时，利用了上一个时刻的记忆值，特别适合序列数据分析。网络接受的是一个序列数据，即一组向量，依次把它们输入网络，计算每个时刻的输出值。记忆功能通过循环神层实现：

它同时利用了本时刻的输入值和上一个时刻的记忆值。输出层的变换为：

这和普通神经网络没什么区别。由于引入了循环层，因此反向传播算法有所不同，称为BPTT，即时间轴上的反向传播算法。算法从最后一个时刻算起，沿着时间轴往前推。误差项的递推公式为：

递推的终点为最后一个时刻。

根据误差项计算对权重和偏置的梯度值的公式为：

循环神经网络同样存在梯度消失问题，因此出现了LSTM，GRU等结构。
以循环神经网络为基础，构造出了两类通用的框架，分别是连接主义时序分类（CTC），以及序列到序列学习（seq2seq）。用于解决语音识别，自然语言处理中的问题。其中，seq2seq采用了编码器-解码器结构，用两个循环神经网络组合起来完成计算，一个充当编码器，一个充当解码器。

和其他类型的神经网络一样，循环神经网络是一个判别模型，既支持分类问题，也支持回归问题，并且支持多分类问题。

高斯混合模型

高斯混合模型通过多个正态分布的加权和来描述一个随机变量的概率分布，概率密度函数定义为：

其中x为随机向量，k为高斯分布的个数，wi为权重，

为高斯分布的均值向量，

为协方差矩阵。所有权重之和为1，即：

任意一个样本可以看作是先从k个高斯分布中选择出一个，选择第i个高斯分布的概率为wi，再由第i个高斯分布

产生出这个样本数据x。高斯混合模型可以逼近任何一个连续的概率分布，因此它可以看做是连续性概率分布的万能逼近器。之所有要保证权重的和为1，是因为概率密度函数必须满足在

内的积分值为1。
指定高斯分布的个数，给定一组训练样本，可以通过期望最大化EM算法确定高斯混合模型的参数。每次迭代时，在E步计算期望值，在M步最大化期望值，如此循环交替。

EM算法

EM算法是一种迭代法，其目标是求解似然函数或后验概率的极值，而样本中具有无法观测的隐含变量。因为隐变量的存在，我们无法直接通过最大化似然函数来确定参数的值。可以采用一种策略，构造出对数似然函数的一个下界函数，这个函数不含有隐变量，然后优化这个下界。不断的提高这个下界，使原问题达到最优解，这就是EM算法所采用的思路。算法的构造依赖于Jensen不等式。
算法在实现时首先随机初始化参数

的值，接下来循环迭代，每次迭代时分为两步：
E步，基于当前的参数估计值

，计算在给定x时对z的条件概率的数学期望：

M步，求解如下极值问题，更新

的值：

实现Qi 时可以按照下面的公式计算：

迭代终止的判定规则是相邻两次函数值之差小于指定阈值。需要注意的是，EM算法只能保证收敛到局部极小值。

分享到：

下一篇：新能源乘用车产业现状及发展趋势
上一篇：量产主控芯片的网络安全设计

点赞 0 反对 0 举报 0 收藏 0 评论 0

汽车测试网V课堂
微信公众号
汽车测试网手机站

相关阅读

0 条相关评论

• 上新｜AutoHawk Extreme 横空出世-新一代实时仿真平台	• 「智能座椅」东风日产N7为何敢称“百万级大沙发”？
• 基于加速度计补偿的俯仰角和路面坡度角估计算法	• 博世发布突破性电解槽技术
• ESI 全新BM-Stamp软件在汽车行业冲压仿真精算阶段的价值与	• NOA该允许驾驶员脱手么？
• 方向盘力矩计算分析	• 前轮大转角二自由度模型的横摆角速度和转弯半径计算方法.d
• 广汽神行数据仿真平台获A+级AI智驾仿真工具链认证	• 国内车企智驾方案梳理

机器学习最全知识点汇总

微信公众号

编辑推荐

最新资讯

中汽中心工程院能量流测试设备上线全新专家

上新｜AutoHawk Extreme 横空出世-新一代实

「智能座椅」东风日产N7为何敢称“百万级大

基于加速度计补偿的俯仰角和路面坡度角估计

《北京市自动驾驶汽车条例》正式实施 L3级