机器学习面试问题总结_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 熬夜整理小白入门与提升分布式版... 下一篇:Vue学习（二十三）自定义指令

机器学习面试问题总结

发布时间：2022-07-06 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了机器学习面试问题总结，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

判别式模型和生成式模型的区别？

判别方法：由数据直接学习决策函数 Y = f（X），或者由条件分布概率 P（Y|X）作为预测模型，即判别模型。生成方法：由数据学习联合概率密度分布函数 P（X,Y）,然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。由生成模型可以得到判别模型，但由判别模型得不到生成模型。常见的判别模型有：K近邻、SVM、决策树、感知机、线性判别分析（LDA）、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场常见的生成模型有：朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型（LDA）、限制玻尔兹曼机

什么时候使用归一化/标准化

如果对输出结果范围要求，用归一化；如果数据较为稳定，不存在极端的最大最小值，用归一化；如果存在噪音和异常值，可以使用标准化处理。归一化和标准化的而区别在于，归一化是统一到一定的区间（由极值决定），而标准化和整体样本由很大关系。

极大似然估计和最小二乘法区别

对于最小二乘法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小。而对于最大似然法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。在最大似然法中，通过选择参数，使已知数据在某种意义下最有可能出现，而某种意义通常指似然函数最大，而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是，最大似然法需要已知这个概率分布函数，这在实践中是很困难的。一般假设其满足正态分布函数的特性，在这种情况下，最大似然估计和最小二乘估计相同。最小二乘法以估计值与观测值的差的平方和作为损失函数，极大似然法则是以最大化目标值的似然概率函数为目标函数，从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。

什么是偏差和方差？

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散Bias：误差，对象是单个模型，期望输出与真实标记的差别（可以解释为描述了模型对本训练集的拟合程度）VARiance：方差，对象是多个模型（这里更好的解释是换同样规模的训练集，模型的拟合程度怎么样；也可以说方差是刻画数据扰动对模型的影响，描述的是训练结果的分散程度）从同一个数据集中，用科学的采样方法得到几个不同的子训练集，用这些训练集训练得到的模型往往并不相同。参数w变大，会使模型变得更复杂（即过拟合情况），拟合的更好，故偏差会变小；而对于数据的扰动会更加敏感，所以方差会变大。

L2与L1的区别？为什么能能防止过拟合？

L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下，选择Lasso比较合适，因为它能自动选择特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用Ridge也许更合适。

更小的权值 $w$

另外，L2与L1的区别在于，L1正则是拉普拉斯先验，而L2正则则是高斯先验。它们都是服从均值为0，协方差为 $1 λ$

为什么L1正则是拉普拉斯先验，而L2正则则是高斯先验？

先看下最原始的线性回归：假设 $y = X w + ϵ$

p (ϵ^{(i)}) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(ϵ^{(i)})^{2}}{2 σ^{2}})

得：

p (y^{(i)} | x^{(i)}; θ) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - w^{T} x^{(i)})^{2}}{2 σ^{2}})

由最大似然估计(MLE):

L (w) = p (\hat{y} | X; w) = \prod_{i = 1}^{m} p (y^{(i)} | x^{(i)}; θ) = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - w^{T} x^{(i)})^{2}}{2 σ^{2}})

取对数：

l (w) = \log L (w) = \log \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - w^{T} x^{(i)})^{2}}{2 σ^{2}}) = \sum_{i = 1}^{m} \log \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - w^{T} x^{(i)})^{2}}{2 σ^{2}}) = m \log \frac{1}{\sqrt{2 π} σ} - \frac{1}{σ^{2}} \cdot \frac{1}{2} \sum_{i = 1}^{m} (y^{(i)} - w^{T} x^{(i)})^{2}

即：

w_{M L E} = a r g min_{w} \sum_{i = 1}^{m} (y^{(i)} - w^{T} x^{(i)})^{2}

这就导出了我们原始的 least-squares 损失函数，但这是在我们对参数 $w$

我们对参数 $w$

L (w) = p (\hat{y} | X; w) p (w) = \prod_{i = 1}^{m} p (y^{(i)} | x^{(i)}; θ) p (w) = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - w^{T} x^{(i)})^{2}}{2 σ^{2}}) \prod_{j = 1}^{n} \frac{1}{\sqrt{2 π α}} \exp (- \frac{(w^{(j)})^{2}}{2 α}) = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - w^{T} x^{(i)})^{2}}{2 σ^{2}}) \frac{1}{\sqrt{2 π α}} \exp (- \frac{w^{T} w}{2 α})

取对数：

l (w) = l o g L (w) = m \log \frac{1}{\sqrt{2 π} σ} + n \log \frac{1}{\sqrt{2 π α}} - \frac{1}{σ^{2}} \cdot \frac{1}{2} \sum_{i = 1}^{m} (y^{(i)} - w^{T} x^{(i)})^{2} - \frac{1}{α} \cdot \frac{1}{2} w^{T} w \Rightarrow w_{M A P_{G u s s i a n}} = a r g m i n_{w} (\frac{1}{σ^{2}} \cdot \frac{1}{2} \sum_{i = 1}^{m} (y^{(i)} - w^{T} x^{(i)})^{2} + \frac{1}{α} \cdot \frac{1}{2} w^{T} w)

等价于：

J_{R} (w) = \frac{1}{n} | | y - w^{T} X | |_{2} + λ | | w | |_{2}

即，对参数引入 高斯先验 等价于L2正则化那么拉普拉斯分布(Laplace distribution)呢？拉普拉斯分布为：

f (x | μ, b) = \frac{1}{2 b} \exp (- \frac{| x - μ |}{b})

![拉普拉斯分布][base64str1]

重复之前的推导过程我们很容易得到：

w_{M A P_{L o p l a c e}} = a r g m i n_{w} (\frac{1}{σ^{2}} \cdot \frac{1}{2} \sum_{i = 1}^{m} (y^{(i)} - w^{T} x^{(i)})^{2} + \frac{1}{b^{2}} \cdot \frac{1}{2} | | w | |_{1})

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个凸优化问题，不具有解析解。它的优良性质是能产生稀疏性，导致 $w$

Lasso回归如何求解？

Lasso回归有时也叫做线性回归的L1正则化，和Ridge回归的主要区别就是在正则化项，Ridge回归用的是L2正则化，而Lasso回归用的是L1正则化。由于L1范数用的是绝对值之和，在零点处不可求导，所以使用非梯度下降法进行求解，如 坐标轴下降法（coordinate descent）和最小角回归法（ Least Angle Regression， LARS）。　　　　　　　　　　

坐标轴下降法坐标下降算法每次选择一个维度进行参数更新，维度的选择可以是随机的或者是按顺序。当一轮更新结束后，更新步长的最大值少于预设阈值时，终止迭代。坐标下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代，一个周期的一维搜索迭代过程相当于一个梯度迭代。坐标轴下降法的数学依据为：对于一个可微凸函数 $f (w)$
最小角回归法最小角回归法运用到了前向选择法（选取余弦距离最小的值进行投影，计算残差，迭代这个过程，直到残差达到我们的较小值或者已经遍历了整个变量）和前向梯度算法（选取余弦距离最小的值的样本方向进行移动一定距离，计算残差，重复这个迭代过程）的综合，做法就是取投影方向和前向梯度算法的残差方向形成的角的平分线方向，进行移动。对前向梯度算法和前向选择算法做了折中，保留了前向梯度算法一定程度的精确性，同时简化了前向梯度算法一步步迭代的过程。

k折交叉验证中k取值多少有什么关系

在理想情况下，我们认为K折交叉验证可以降低模型的方差，从而提高模型的泛化能力，通俗地说，我们期望模型在训练集的多个子数据集上表现良好，要胜过单单在整个训练数据集上表现良好。（但实际上，由于我们所得到K折数据之间并非独立而存在相关性，K折交叉验证到底能降低多少方差还不确定，同时带来的偏差上升有多少也还存疑。）完全不使用交叉验证是一种极端情况，即K=1。在这个时候，所以数据都被用于训练，模型很容易出现过拟合，因此容易是低偏差、高方差(low bias and high variance)。留一法是K折的另一种极端情况，即K=n。随着K值的不断升高，单一模型评估时的方差逐渐加大而偏差减小。但从总体模型角度来看，反而是偏差升高了而方差降低了。所以当K值在1到n之间的游走，可以理解为一种方差和偏差妥协的结果。2017年的一项研究给出了另一种经验式的选择方法，作者建议k=log(n) 且保证n/K>3d ，n代表了数据量，d代表了特征数。1、使用交叉验证的根本原因是数据集太小，而较小的K值会导致可用于建模的数据量太小，所以小数据集的交叉验证结果需要格外注意。建议选择较大的K值。2、当模型稳定性较低时，增大K的取值可以给出更好的结果3、相对而言，较大的K值的交叉验证结果倾向于更好。但同时也要考虑较大K值的计算开销。

怎么处理多分类问题？

拆解法；有三种：一对一（OvO）、一对其余(OvR)、多对多（MvM）；一对一是将N个类两两配合，从而产生N(N-1)/2个分类任务，最终结果通过投票产生：即把被预测得最多的类别作为最终分类结果。一对其余则是每次讲一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。在测试时时，若仅有一个分类器预测为正例，则对应的类别标记作为最终的分类结果，若有多个，则考虑各个分类器的预测置信度，选择置信度最大的类别作为分类结果。它需要训练N个分类器，但当类别很多时，OvO的训练时间开销通常比OvR更小。多对多是每次讲若干个类作为正类，若干个其他类作为反类。需要特殊的设计，比如‘纠错输出码’：假设一个数据集一共有K类，我们使用L种两类分类器（不仅仅是SVM），就会得到L个分类结果，每个结果用+1和-1来表示。这样，对于K类数据集，我们就可以学习到一个 $K * L$

boosting和bagging的区别？

1）样本选择上：Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的.Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化.而权值是根据上一轮的分类结果进行调整.2）样例权重：Bagging：使用均匀取样，每个样例的权重相等Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大.3）预测函数：Bagging：所有预测函数的权重相等.Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重.4）并行计算：Bagging：各个预测函数可以并行生成Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果.

如何从偏差和方差的角度解释bagging和boosting的原理？

偏差指的是算法的期望预测与真实值之间的偏差程度，反映了模型本身的拟合能力；方差度量了同等大小的训练集的变动导致学习性能的变化，刻画了数据扰动所导致的影响。Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均。由于子样本集的相似性以及使用的是同种模型，因此各模型有近似相等的bias和variance。由于 $E [\frac{\sum X_{i}}{n}] = E [X_{i}]$

哪些机器学习算法不需要做归一化处理？

概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像SVM、LR、KNN、KMeans之类的最优化问题就需要归一化。

特征选择基本原则

数据预处理完成之后，我们需要选择有意义的特征，输入机器学习的算法和模型进行训练，通常来说，从两个方面考虑来选择特征

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
WrapPEr：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

为什么GBDT只能由回归树组成？

因为GBDT是加法模型，主要是利用残差逼近的方式，这就意味每棵树的值是连续的可叠加的，这一点和回归树输出连续值不谋而合，如果采用分类树，那么残差逼近进行叠加就会使得这种叠加没有意义，比如男+男+女=到底是男是女。这个是GBDT基本原理决定的。

随机森林如何评估特征重要性

随机森林中进行特征重要性的评估思想为：判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。以基于袋外数据为例，对于一棵树，用OOB样本可以得到误差 $e 1$

xgboost怎幺处理缺失值?

xgboost处理缺失值的方法和其他树模型不同。xgboost把缺失值当做稀疏矩阵来对待，本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计算损失，选择较优的那一个。如果训练中没有数据缺失，预测时出现了数据缺失，那么默认被分类到右子树。这样的处理方法固然巧妙，但也有风险：假设了训练数据和预测数据的分布相同，比如缺失值的分布也相同，不过直觉上应该影响不是很大。

lightgbm和xgboost有什么区别？他们的loss一样么？算法层面有什么区别？

lightgbm:基于Histogram的决策树算法；Leaf-wise的叶子生长策略；Cache命中率优化；直接支持类别特征（categorical Feature）xgboost:预排序;Level-wise的层级生长策略；特征对梯度的访问是一种随机访问。

脚本宝典总结

以上是脚本宝典为你收集整理的机器学习面试问题总结全部内容，希望文章能够帮你解决机器学习面试问题总结所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：agg java php python 优化优化参数参数排序排序文档文档程序员程序员算法算法遍历遍历

上一篇: 熬夜整理小白入门与提升分布式版... 下一篇:Vue学习（二十三）自定义指令

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多