首页手记机器学习面试题总结（笔记）

机器学习面试题总结（笔记）

标签：

机器学习

一面试题概述

面试的时候，面试官会结合你的回答和你的简历来询问你，所以在写简历的时候，简历上所写的所有内容在写的时候必须自己反问一下自己，这个知识点懂不懂。

面试其实是一个沟通技巧的考量，在面试的时候要“灵活”；

在有一些问题上，如果不会，那么直接说不会就可以；但是在一些比较关键的问题上，如果这个算法不会，最好可以稍微的提一下相关的算法，灵活回答。

机器学习/人工智能相关岗位在招聘人员的时候，主要考量的指标有以下几个方面：

①算法的思维能力

②基本的算法原理

③编程能力

④数据结构能力(扩展了解)

二机器学习面试题(问法)

1.请介绍一下你熟悉的机器学习模型或算法？

2.请介绍**算法或模型原理？(一般都是简历上的)

3.请描述一下**算法和**算法有什么区别？(一般是简历上或者面试过程中问到的算法内容)

4.这些算法模型你是不是都使用过？都用于那些应用场景？

5.在**应用场景中，你使用**算法的时候，遇到了那些问题？最终是如何解决的？

6.在**应用场景中，你们为什么不使用**算法？

7.你觉得在**应用场景中，使用**算法效果如何？

三机器学习面试题

1. 什么是机器学习过拟合？

所谓过拟合,就是指模型在训练集上的效果很好,在测试集上的预测效果很差.

2. 如何避免过拟合问题？

1. 重采样bootstrap

2. L1,l2正则化

3. 决策树的剪枝操作

4. 交叉验证

3.什么是机器学习的欠拟合？

所谓欠拟合就是模型复杂度低或者数据集太小,对模型数据的拟合程度不高,因此模型在训练集上的效果就不好.

4. 如何避免欠拟合问题？

1.增加样本的数量

2.增加样本特征的个数

3.可以进行特征维度扩展

5.什么是交叉验证？交叉验证的作用是什么？

交叉验证就是将原始数据集(dataset)划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果.

作用: 1）交叉验证是用来评估模型在新的数据集上的预测效果,也可以一定程度上减小模型的过拟合

2）还可以从有限的数据中获取尽可能多的有效信息。

交叉验证主要有以下几种方法:

①留出法.简单地将原始数据集划分为训练集,验证集,测试集三个部分.

②k折交叉验证.(一般取5折交叉验证或者10折交叉验证)

③留一法.(只留一个样本作为数据的测试集,其余作为训练集)---只适用于较少的数据集

④ Bootstrap方法.(会引入样本偏差)

6.有监督算法和无监督算法有什么区别？

根据算法模型中有标签的称为有监督算法,反之则称为无监督算法.

7常见的距离度量公式有那些？

1)Minkowski(闵可夫斯基距离)

--- P=1:曼哈顿距离(城市距离)

---P=2:欧式距离

---P无穷:切比雪夫距离

2) 夹角余弦相似度

3) KL距离(相对熵)

4) 杰卡德相似度系数(集合)

5) Pearson相关系数ρ(距离= 1-ρ)

8.文本数据处理的方式有哪些，以及这些处理方式有什么区别

处理方式有:

1) 词袋法(BOW/TF)\词集法(SOW)

---不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW)

2) TF-IDF

---既考虑文本的词频,也考虑文件的逆文档频率(基本思想是:单词的重要性与单词在文档中出现的次数成正比,与单词在语料库中出现的次数成反比)

3) HashTF-IDF(不计算词频,计算单词进行Hash后的Hash值的数量)

4) 哑编码(OneHotEncoder)

5) Word2Vec (通过对文档中的所有单词进行分析->>获得单词之间的关联程度->>进而形成词向量矩阵)

9.什么是最小二乘法？

最小二乘的核心思想---通过最小化误差的平方和，使得拟合对象无限接近目标对象.

10.常见的优化算法有那些，以及这些优化算法有那些优缺点；

1)梯度下降法(Gradient Descent)

---BGD--->每一步迭代都需要遍历所有的样本数据,消耗时间长,但是一定能得到最优解.

---SGD--->迭代速度快,得到局部最优解(凸函数时得到全局最优解)

---MBGD--->小批量梯度下降法

2)牛顿法和拟牛顿法

牛顿法--->牛顿法是二阶收敛,收敛速度快; 牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。

拟牛顿法--->改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度.

3)共轭梯度法（Conjugate Gradient）

共轭梯度法是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点。其优点是所需存储量小，具有步收敛性，稳定性高，而且不需要任何外来参数。

4) 启发式的方法

启发式优化方法种类繁多，包括经典的模拟退火方法、遗传算法、蚁群算法以及粒子群算法等。

多目标优化算法(NSGAII算法、MOEA/D算法以及人工免疫算法)

5)解决约束的方法---拉格朗日乘子法

11. 请描述一下拉格朗日乘子法和KKT条件；

拉格朗日乘子法就是一种将具有约束条件的目标函数转化为没有约束的目标函数的方法.对于不等式约束条件,要求不等式f(x)<=0.

KKT条件:要求α*f(x)=0, f(x)<=0; α>=0并且要求各参数的导数为0

12.如何避免数据不平衡？

1)bootstrap(重采样)--->上采样和下采样

2)数据合成-->利用已有样本生成更多样本

3)加权

4)看成一分类或者异常检测的问题

正负样本都非常之少-->数据合成的方式

负样本足够多，正样本非常之少且比例及其悬殊-->一分类方法

正负样本都足够多且比例不是特别悬殊-->采样或者加权的方法。

13.算法的误差一般是由那几个方面引起的？

1)因模型无法表示基本数据的复杂度而造成的偏差(bias).---欠拟合

2)因模型过度拟合训练集数据而造成的方差(variance).---过拟合

14.在数据处理过程中，对于缺失特征的样本如何进行处理？

根据样本缺失的实际情况,我们一般运用:

1)均值,中值,最大最小值等来填充数据

2)根据经验值补全数据

3)通过相关计算得到缺失值

4)样本数量足够,则可以直接删除有缺失值的样本

15.连续性数据分区转换为离散数据有什么优点？

1)离散特征的增加和减少都很容易,易于模型的快速迭代

2)离散化后的特征对异常数据具有很强的鲁棒性

3)离散化后可以进行特征交叉,相当于引入非线性,提升模型的表达能力

4)降低了模型过拟合的风险

16.哑编码的作用是什么？

哑编码是一种将字符串类型的特征转化为数值型的方法.

17.决策树的常用算法有那些，这些算法有什么区别？

常用的有:ID3,C4.5,CART三种算法

区别:1) 纯度量化指标不同.ID3-->信息增益,C4.5-->信息增益率,CART-->基尼系数

2) 数据处理能力不同. ID3-->离散数据,C4.5,CART--->连续数据离散化,剪枝操作

3)要求的树的类型不同.ID3和C4.5可以是多叉树,CART只能是二叉树.

18.决策树的数据split原理或者流程；

1)将所有样本看做一个节点

2)根据纯度量化指标.计算每一个特征的’纯度’,根据最不’纯’的特征进行数据划分

3)重复上述步骤,知道每一个叶子节点都足够的’纯’或者达到停止条件

19.决策树算法中如何避免过拟合和欠拟合；

过拟合:选择能够反映业务逻辑的训练集去产生决策树;剪枝操作(前置剪枝和后置剪枝); K折交叉验证

欠拟合:增加树的深度,RF

20.回归决策树算法和分类决策树算法有什么区别与联系？

回归决策树解决的是回归的问题.分类决策树解决的是分类的问题.他们在决策树的构建上是一样的（最优划分）.回归决策树是计算预测点所在的叶子节点的均值或者加权平均值得到回归结果.分类是通过多数投票或者加权的多数投票得到分类结果.

度量指标不同：回归决策树是MAE,MSE 分类决策树是：信息熵、基尼系数、错误率

21.数据标准化、数据归一化、区间缩放法有什么作用以及各个方法之间有什么区别

数据标准化是将数据集转化为服从标准正态分布的数据.(常用于离散程度较高的数据)

数据归一化是将每个样本的向量转化为单位向量(矩阵的行操作)

区间缩放法是对于分布较大的数据集,通过等比缩放的方法缩放到feature_range=(0,1).

22.特征选择的目标是什么？

选择离散程度高且与目标的相关性强的特征

23.常用的特征选择方式有那些？

①过滤法

过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，从而选择特征；常用方法包括方差选择法、相关系数法、卡方检验、互信息法等

②包装法

包装法，根据目标函数（通常是预测效果评分），每次选择若干特征或者排除若干特征；常用方法主要是递归特征消除法。

③嵌入法

嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权重系数，根据系数从大到小选择特征；常用方法主要是基于惩罚项的特征选择法.

24.降维的作用是什么？

①降维可以缓解维度灾难问题

②降维可以在压缩数据的同时让信息损失最小化

③理解几百个维度的数据结构很困难，两三个维度的数据通过可视化更容易理解

25.常见的降维方式有那些？

L1惩罚模型,PCA(主成分分析法)和LDA(线性判别分析法)

PCA-->无监督的降维(无类别信息)-->选择方差大的方向投影,方差越大所含的信息量越大,信息损失越少.可用于特征提取和特征选择。

LDA-->有监督的降维(有类别信息)-->选择投影后的类别内的方差小,类别间的方差较大.

26. PCA降维的原理是什么？

通过线性变换将样本数据从高维投影到低维,并且投影后的数据具有最大的方差,进而完成降维的工作.

27. LDA线性判别分析降维的原理是什么？

LDA一种有监督的降维算法,它是将高维数据投影到低维上,并且要求投影后的数据具有较好的分类.(也就是说同一类的数据要去尽量的投影到同一个簇中去)

28.机器学习中模型参数和超参的区别？超参给定的方式有那些？

模型参数是模型内部的配置变量，可以用数据估计模型参数的值；

模型超参是模型外部的配置，必须手动设置参数的值。

模型超参可以通过网格交叉验证来取值,也可以通过经验选定.

29.常用的机器学习工具有那些？

Python,Numpy,pandas,matplotlib,scikit-learn……

30. SVD矩阵分解在机器学习中有那些作用？

LSA(潜在语义分析),PCA降维……

31.请推导Logistic算法并说明该算法的目标函数是什么？

Sigmoid函数,MLE, 似然函数L(θ)

32.请描述SVM的原理

SVM就是找到一个超平面,使得距离这个超平面最近的点(支持向量)距离超平面最远.

33. SVM中为什么采用间隔最大化？

间隔最大化可以使得样本的置信度上升,分类器更健壮.

当训练数据线性可分时，存在无穷个分离超平面可以将两类数据正确分开。

感知机利用误分类最小策略，求得分离超平面，不过此时的解有无穷多个。

线性可分支持向量机利用间隔最大化求得最优分离超平面，这时，解是唯一的。另一方面，此时的分隔超平面所产生的分类结果是最鲁棒的，对未知实例的泛化能力最强。

然后应该借此阐述，几何间隔，函数间隔，及从函数间隔—>求解最小化1/2 ||w||^2 时的w和b。即线性可分支持向量机学习算法—最大间隔法的由来。

34.请推导线性可分SVM算法

极大极小值问题的求解,并需要满足KKT条件.

首先求解w,b,带入目标函数中得到:

这就要用到SMO方法求解.

35. 请描述软间隔线性可分SVM算法的原理以及应用场景

对于一些不满足函数间隔大于1的样本点,我们在线性可分的基础上加入了松弛因子ξ和惩罚项系数C.

C越大,对误分类的惩罚越大(越不允许分错);当C无限大时就是线性可分问题.

36.请描述SVM如何解决非线性可分的问题37.核函数有什么作用？常见的核函数有那些?

低维映射到高维-----核函数(rbf,linear,poly)----在低维度计算,得到高维分类的效果.

常见的核函数有：高斯核函数、多项式核函数

38. SVM如何处理多分类问题？

ovo或者ovr

39. Logistic回归和SVM算法有什么区别和联系？

相同点:

1)Logistic回归和SVM都是分类算法.

2)如果不考虑使用核函数，LR和SVM都是线性分类模型，也就是说它们的分类决策面是线性的。

3)都是有监督学习的算法

4) LR和SVM都是判别模型。

不同点:

1)损失函数不同

作者：摩天轮的守候
链接：https://www.jianshu.com/p/d289755e89bb

点击查看更多内容

1人点赞

共同学习，写下你的评论

评论加载中...

作者其他优质文章

正在加载中

慕码人8056858

手记

篇

粉丝

351

获赞与收藏

1326

关注作者，订阅最新文章

阅读免费教程

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

热搜

最近搜索清空

机器学习面试题总结（笔记）

一 面试题概述

二 机器学习面试题(问法)

三 机器学习面试题

阅读免费教程

一面试题概述

二机器学习面试题(问法)

三机器学习面试题