发表于 2024-03-15 阅读次数：

title: UCAS-2023-ML复习
abbrlink:
date:

面向题库学习，用ChatGPT 3.5，错了就寄

事实证明想过只要背原题

选择

1. 属于监督学习的机器学习算法是( A )      
A. 贝叶斯分类器      
B. 主成分分析      
C. K-Means      
D. 高斯混合聚类

贝叶斯分类器：就是用贝叶斯定理搞的那玩意。在用的时候需要知道样本的类别，才能计算先验和条件概率
主成分分析(PCA)：用来减少数据集的维度，通常用于无监督学习，也可以用于监督学习的预处理
K-means：聚类算法，将数据集划分为k个簇，中心簇代表簇内的样本均值，然后不断中心簇使得样本点和所属的中心簇距离最小
高斯混合聚类：通过最大化似然函数来估计模型参数，从而实现对数据的聚类

2. 属于无监督学习的机器学习算法是( C )      
A．支持向量机      
B．Logistic回归      
C．层次聚类      
D．决策树

支持向量机和逻辑回归都是监督学习算法
层次聚类：把样本划分为层次结构的簇，通过合并和分裂来构建聚类树，不需要预先知道簇的数量
决策树：更常用于监督学习的分类和回归

3. 朴素贝叶斯分类器的特点是( C )      
A. 假设样本服从正态分布      
B. 假设样本服从多项式分布      
C. 假设样本各维属性独立      
D. 假设样本各维属性存在依赖

正态分布：高斯朴素贝叶斯
多项式分布：多项式朴素贝叶斯，适用于离散特征的情况
各维数型存在依赖：可以使用高斯混合模型、隐马尔可夫模型

4. 下列属于线性分类方法的是( B )      
A. 决策树      
B. 感知机      
C. 最近邻      
D. 集成学习

决策树不一定是线性分类方法，可以非常灵活地划分样本空间，并且可以包含非线性的决策边界。
感知机通过找到一个超平面来划分两个类别的样本空间
最近邻算法通常用于分类和回归任务，它根据样本的近邻进行预测，可用于线性和非线性的问题
集成学习是一种通过组合多个基学习器来提高整体性能的方法，是一个组合的框架

5. 下列方法不受数据归一化影响的是( D )      
A. SVM      
B. 神经网络      
C. Logistic回归      
D. 决策树

决策树基于特征的取值来进行划分，而不关心具体数值的大小
归一化：
标准化：

6. 关于线性鉴别分析的描述最准确的是，找到一个投影方向，使得( B )      
A. 类内距离最大，类间距离最小      
B. 类内距离最小，类间距离最大      
C. 类内距离最大，类间距离最大      
D. 类内距离最小，类间距离最小

线性判别分析（LDA）的目标是通过将数据投影到一个低维空间，在投影后，同一类别的样本尽可能接近，而不同类别的样本尽可能远离。

7. SVM的原理可简单描述为( C )      
A. 最小均方误差分类      
B. 最小距离分类      
C. 最大间隔分类      
D. 最近邻分类

SVM：支持向量机
最小均方误差：线性回归算法
最小距离：最近邻算法就是最小距离分类的一种具体实现
最近邻分类：k-Nearest Neighbors

8. SVM的算法性能取决于( D )      
A. 核函数的选择      
B. 核函数的参数      
C. 软间隔参数C      
D. 以上所有

记吧

9. 支持向量机的对偶问题是( C )      
A. 线性优化问题      
B. 二次优化      
C. 凸二次优化      
D. 有约束的线性优化

线性优化问题目标是最小化或最大化一个线性目标函数，受到一组线性约束的限制

二次优化是一类目标函数和约束都是二次的数学规划问题

凸二次优化是指目标函数是凸函数，约束是凸集的优化问题。支持向量机的对偶问题其目标函数和约束都满足凸性质

有约束的线性优化是一类目标函数和约束都是线性的优化问题。但是支持向量机的对偶问题涉及到二次项

10. 以下对支持向量机中的支撑向量描述正确的是( C )      
A. 最大特征向量      
B. 最优投影向量      
C. 最大间隔支撑面上的向量      
D. 最速下降方向

记吧

11. 假定你使用阶数为2的线性核SVM，将模型应用到实际数据集上后，其训练准      
确率和测试准确率均为100%。现在增加模型复杂度（增加核函数的阶），会发      
生以下哪种情况( A )      
A. 过拟合      
B. 欠拟合      
C. 什么都不会发生，因为模型准确率已经到达极限      
D. 以上都不对

增加模型复杂度（增加核函数的阶）可能会导致过拟合
增加模型复杂度可以捕捉数据中的更多关系，避免欠拟合

12. 关于决策树节点划分指标描述正确的是( B )      
A. 类别非纯度越大越好      
B. 信息增益越大越好      
C. 信息增益越小越好      
D. 基尼指数越大越好

节点的类别纯度越高；信息增益越大；基尼指数越小（表示节点纯度越高）

13. 以下描述中，属于决策树策略的是( D )      
A. 最优投影方向      
B. 梯度下降方法      
C. 最大特征值      
D. 最大信息增益

决策树中，常用的策略是选择能够最大化信息增益或最小化基尼指数的特征进行划分
信息增益是衡量在给定划分条件下，划分前后样本的不确定性减少程度的指标

14. 集成学习中基分类器如何选择，学习效率通常越好( D )      
A. 分类器相似      
B. 都为线性分类器      
C. 都为非线性分类器      
D. 分类器多样，差异大

前面好像说过类似的

15. 集成学习中，每个基分类器的正确率的最低要求( A )      
A. 50%以上      
B. 60%以上      
C. 70%以上      
D. 80%以上

记吧

16. 下面属于Bagging方法的特点是( A )      
A. 构造训练集时采用Bootstraping的方式      
B. 每一轮训练时样本权重不同      
C. 分类器必须按顺序训练      
D. 预测结果时，分类器的比重不同

记吧

17. 下面属于Boosting方法的特点是( D )      
A. 构造训练集时采用Bootstraping的方式      
B. 每一轮训练时样本权重相同      
C. 分类器可以并行训练      
D. 预测结果时，分类器的比重不同

18说了类似的

18. 随机森林方法属于( B )      
A. 梯度下降优化      
B. Bagging方法      
C. Boosting方法      
D. 线性分类

随机森林通过构建多个决策树并将它们集成在一起来提高模型的性能和泛化能力。在构建每一个决策树的时候随机选择特征，增加模型整体的多样性。通过将所有决策树的输出进行集成，来做出最终的预测：对于分类问题，采用投票法，即选择得票最多的类别。对于回归问题，取所有树的平均预测值。随机森林通常用于解决非线性问题
Bagging指的是通过构建多个基学习器，并将它们的结果进行集成

Boosting方法是另一种集成学习方法，通过训练一系列弱学习器，并根据前一个模型的性能对下一个模型进行加权

线性分类方法：例如线性支持向量机、逻辑回归等。
梯度下降主要用于更新模型的损失函数

19. 软间隔SVM的阈值趋于无穷，下面哪种说法正确( A )      
A. 只要最佳分类超平面存在，它就能将所有数据全部正确分类      
B. 软间隔SVM分类器将正确分类数据      
C. 会发生误分类现象      
D. 以上都不对

Soft Margin SVM：用于处理线性不可分的数据
阈值即松弛变量，软间隔SVM的优化目标：最大化训练样本点到决策边界（超平面）的间隔（与SVM的线性分类相同）、误差项（容忍一些训练样本不满足硬间隔的条件，允许它们位于错误的一侧。较小的C值允许更多的误分类）

20. 回归问题和分类问题的区别( A )      
A. 前者预测函数值为连续值，后者为离散值      
B. 前者预测函数值为离散值，后者为连续值      
C. 前者是无监督学习      
D. 后者是无监督学习

记吧

21. 正则化的回归分析，可以避免( B )      
A. 线性化      
B. 过拟合      
C. 欠拟合      
D. 连续值逼近

记吧

22. “啤酒-纸尿布”问题讲述的是，超市购物中，通过分析购物单发现，买了      
纸尿布的男士，往往又买了啤酒。这是一个什么问题( A )      
A. 关联分析      
B. 回归      
C. 聚类      
D. 分类

分类：监督学习；聚类：无监督学习
关联分析：找到数据项之间的关系
回归：用于预测连续型输出变量的值

23. 混合高斯聚类中，运用了以下哪种过程( A )      
A. EM算法      
B. 集合运算      
C. 密度可达      
D. 样本与集合运算

记吧

24. 主成分分析方法是一种什么方法( C )      
A. 分类方法      
B. 回归方法      
C. 降维方法      
D. 参数估计方法

记吧

25. PCA在做降维处理时，优先选取哪些特征( A )      
A. 中心化样本的协方差矩阵的最大特征值对应特征向量      
B. 最大间隔投影方向      
C. 最小类内聚类      
D. 最速梯度方向

renew一下：PCA==主成分分析

26. 过拟合现象中( A )      
A. 训练样本的测试误差最小，测试样本的正确识别率却很低      
B. 训练样本的测试误差最小，测试样本的正确识别率也很高      
C. 模型的泛化能力很高      
D. 通常为线性模型

没啥好说的

27. 多层感知机方法中，可用作神经元的非线性激活函数( A )      
A. logistic 函数      
B. p-范数      
C. 线性内积      
D. 加权求和

记吧

3e7013703371ed09ec070cbad2311ce

29. 梯度下降算法的正确步骤是什么( B )      
(1)计算预测值和真实值之间的误差      
(2)迭代更新，直到找到最佳权重      
(3)把输入传入网络，得到输出值      
(4)初始化随机权重和偏差      
(5)对每一个产生误差的神经元，改变相应的（权重）值以减小误差      
 A. 1, 2, 3, 4, 5      
 B. 4, 3, 1, 5, 2      
 C. 3, 2, 1, 5, 4      
 D. 5, 4, 3, 2, 1

记吧：
初始化->先进行一次预测->计算预测的误差->对每一个产生误差的神经元，改变相应的（权重）值以减小误差->迭代更新

30.假如使用一个较复杂的回归模型来拟合样本数据，使用岭回归，调试正则化      
参数λ，来降低模型复杂度。若λ较大时，关于偏差（bias）和方差（variance），      
下列说法正确的是（C）      
A．若λ较大时，偏差减小，方差减小      
B．若λ较大时，偏差减小，方差增大      
C．若λ较大时，偏差增大，方差减小      
D．若λ较大时，偏差增大，方差增大

岭回归是一种线性回归的扩展，目标是最小化损失函数和正则化项之和。正则化项的强度由正则化参数λ控制。
偏差：模型的预测和真实值的差异。当λ较大时，正则化强度增大，模型更趋向于简单的参数设置，可能导致对训练数据的拟合程度不够
方差：衡量模型在不同训练集上的预测的变异性。当λ较大时，正则化会限制模型参数的数量和范围，降低模型的复杂度

31.以下哪种方法会增加模型的欠拟合风险（D）      
A．添加新特征      
B．增加模型复杂度      
C．减小正则化系数      
D．数据增强

没啥好说的，其他都可能过拟合

32. 增加以下哪些超参数可能导致随机森林模型过拟合数据（B）      
(1). 决策树的数量；(2). 决策树的深度； (3). 学习率。      
A. (1)      
B. (2)      
C. (3)      
D. (2)(3)

(1)：减小单个决策树的过拟合倾向
(2)：增加深度使得模型更复杂，容易过拟合
(3)：通常是梯度提升机等模型中的超参数，而不是随机森林。较大的学习率可能导致模型对训练数据过于敏感，使其更容易过拟合

33. 以下关于深度网络训练的说法正确的是（D）      
A. 训练过程需要用到梯度，梯度衡量了损失函数相对于模型参数的变化率      
B. 损失函数衡量了模型预测结果与真实值之间的差异      
C. 训练过程基于一种叫做反向传播的技术      
D. 其他选项都正确

记吧

34. 关于CNN，以下结论正确的是（C）      
A. 在同样层数、每层神经元数量一样的情况下，CNN比全连接网络拥有更多的参      
数      
B. CNN可以用于非监督学习，但是普通神经网络不行      
C. Pooling层用于减少图片的空间分辨率      
D. 接近输出层的filter主要用于提取图像的边缘信息

CNN的参数通常较少，因为它们共享权重并具有局部连接性，而全连接网络的参数数量更多
普通神经网络也可以用于非监督学习任务，例如自编码器等
Pooling层通常用于减小特征图的空间尺寸，通过保留主要信息的同时减少计算量
接近输出层的filter更倾向于提取高级抽象的特征，而靠近输入层的filter更多地捕捉图像的低级特征

输入层：接收原始图像。
卷积层：提取图像的低级特征，例如边缘、纹理。
激活函数层：引入非线性，增加模型的表达能力。
Pooling层：减小特征图的空间尺寸，降低计算复杂度。
全连接层：将抽取的特征进行扁平化，并用于最终的分类或回归任务。
输出层：提供最终的预测结果。

35. 关于k-means算法，正确的描述是（B）      
A. 能找到任意形状的聚类      
B. 初始值不同，最终结果可能不同      
C. 每次迭代的时间复杂度是𝑂(𝑛), 其中𝑛是样本数量      
D. 不能使用核函数

K-Means假设每个簇是凸的、等方向的，时间复杂度与迭代次数和簇数K有关；通常是较低的线性复杂度，不一定与样本量线性相关；可以使用核化的k-means算法来处理非线性数据

36. 下列关于过拟合现象的描述中，哪个是正确的（A）      
A. 训练误差小，测试误差大      
B. 训练误差小，测试误差小      
C. 模型的泛化能力高      
D. 其余选项都不对

我咋记得上面有

37. 下列哪个函数不可以做激活函数（D）      
A. y=tanh(x)      
B. y=sin(x)      
C. y=max(x,0)      
D. y=2x

激活函数的主要目的是1.引入非线性特性，2.决定神经元是否应该被激活（输出非零值
几个激活函数：
Sigmoid函数：用于输出层，将输出映射到（0, 1）范围，适用于二分类问题。
Tanh函数：类似于Sigmoid，但将输出映射到（-1, 1）范围，有助于缓解梯度消失问题。
ReLU函数（Rectified Linear Unit）： y=max(x, 0)，在正区间为线性，在负区间截断为零，解决了梯度消失问题，常用于隐藏层。
Leaky ReLU函数：对于负区间不截断为零，而是保留一个小的斜率，解决了ReLU中负值为零的问题。
Softmax函数：用于多类别分类问题，将输出转化为概率分布。

38. 在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题      
（D）      
A. 增加训练集量      
B. 减少神经网络隐藏层节点数      
C. 删除稀疏的特征      
D. SVM算法中使用高斯核代替线性核

高斯核即RBF核，是一种非线性核函数，在特征空间中引入更复杂的决策边界。。使用复杂的核函数增加了模型对训练数据的拟合程度，但也可能导致在未见过的数据上的泛化性能下降，因此容易引起过拟合

39. 下面方法中属于无监督学习算法的是（D）      
A. 线性回归      
B. 支持向量机      
C. 决策树      
D. K-Means聚类

记吧

40. Bootstrap数据是什么意思（C）      
A. 有放回地从总共M个特征中抽样m个特征      
B. 无放回地从总共M个特征中抽样m个特征      
C. 有放回地从总共N个样本中抽样n个样本      
D. 无放回地从总共N个样本中抽样n个样本

记吧

41.下面关于Adaboost算法的描述中，错误的是（D）      
A. 是弱分类器的线性组合      
B. 提升树是以分类树或者回归树为基本分类器的提升办法      
C. 该算法实际上是前向分步算法的一个实现，在这个方法里，模型是加法模型，      
损失函数是指数损失，算法是前向分步算法。      
D. 同时独立地学习多个弱分类器

Adaboost算法的核心思想是通过组合多个弱分类器（通常是决策树）来构建一个强分类器。每个弱分类器都对数据进行加权学习，然后根据其在训练集上的性能来分配一个权重。最终的强分类器是这些弱分类器的线性组合，权重大的弱分类器在最终的模型中起更大的作用。
它是一个串行的算法，每个弱分类器都是在前一个分类器的误差上进行学习的。它通过增加之前弱分类器分错的样本的权重，使得后续的弱分类器更关注之前分类错误的样本


42.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计（D）      
A．EM算法      
B．维特比算法      
C. 前向后向算法      
D. 极大似然估计

HMM:隐马尔可夫模型
EM算法通常用于处理观察序列和状态序列都未知的情况
维特比算法用于求解HMM中给定观察序列时最可能的隐藏状态序列。它是解码算法
前向后向算法用于计算观察序列的概率，而不是直接用于参数估计

43.以下哪种距离会侧重考虑向量的方向（D）      
A. 欧式距离      
B. 海明距离      
C. Jaccard距离      
D. 余弦距离

欧式距离考虑向量的大小和方向，它是空间中两点之间的直线距离。
海明距离用于衡量两个等长字符串之间的不同位数，它不直接关注向量的方向。Jaccard距离用于衡量集合之间的相似性，它关注共同项的比例，而不考虑向量的方向。
余弦距离衡量两个向量之间的夹角，而不考虑它们的大小。它主要关注向量的方向，因此更侧重于向量的方向性。通常用于衡量文本相似性、向量空间模型等场景

44. 解决隐马模型中预测问题的算法是（D）      
A. 前向算法      
B. 后向算法      
C. Baum-Welch算法      
D. 维特比算法

记吧

1
2
3

45. 梯度爆炸问题是指在训练深度神经网络的时候，梯度变得过大而损失函数变为无穷。在RNN中，下面哪种方法可以较好地处理梯度爆炸问题( A )      
A. 梯度裁剪 B. 所有方法都不行      
C. Dropout D. 加入正则项

梯度爆炸问题是指在训练过程中，梯度变得过大导致权重更新过大，损失函数变为无穷
梯度裁剪通过设置一个梯度阈值，当梯度的L2范数超过这个阈值时，对梯度进行缩放，以防止梯度爆炸

Dropout是一种正则化技术；加入正则项是正则化的一种形式，通常用于控制模型的复杂度，减少过拟合。虽然它可以提高模型的泛化能力，但它的主要目的也不是直接处理梯度爆炸

20240110214627

1
2
3

47.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其      
他标签的数据相分离？(B)      
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链

前面讲过

48.现在需要计算三个稠密矩阵A,B,C的乘积ABC，假设三个矩阵的尺寸分别为m×n，n×p，p×q，且m <n <p <q，不考虑矩阵乘法的优化时，以下计算顺序效率最高的是（A）      
A. (AB)C      
B. AC(B)      
C. A(BC)      
D. 效率都相同

中间结果的矩阵尺寸尽可能小

49.下列方法中没有考虑先验分布的是( D )      
A. 最大后验估计      
B. 贝叶斯分类器      
C. 贝叶斯学习      
D. 最大似然估计

最大似然估计（MLE）基于观察到的数据来找到最可能产生这些数据的参数值，仅依赖于数据本身，不考虑参数的先验分布
最大后验估计（MAP）：考虑了先验分布，通过最大化后验概率来估计模型参数
贝叶斯：涉及到先验分布和后验概率的计算

50.下列哪一项主要负责在神经网络中引入非线性？（B）      
A. 随机梯度下降      
B. 修正线性单元（ReLU）      
C. 输入的加权求和      
D. 以上都不正确

上面说过

51. 下列哪一种架构有反馈连接并常被用来处理序列数据？（A）      
A. 循环神经网络      
B. 卷积神经网络      
C. 全连接网络      
D. 都不是

循环神经网络的神经元之间的连接形成了循环，使得网络能够捕捉序列中的时间依赖关系，用来处理序列序列数据，如语言模型、时间序列分析
卷积神经网络具有局部感知域和权重共享的特点，处理图像数据
全连接网络即多层感知机，每一层中的神经元与前一层的所有神经元相连接，没有时间依赖关系

52. 在一个神经网络中，下面哪种方法可以用来处理过拟合？（D）      
A. Dropout      
B. 分批归一化(Batch Normalization)      
C. 正则化(regularization)      
D. 都可以

Dropout：正则化技术，在训练过程中随机地关闭一部分神经元，从而减少神经网络对特定神经元的依赖
分批归一化：将每个输入特征在训练时归一化（将数据映射到一个标准范围或标准分布的过程），可以加速收敛、防止过拟合、允许较大学习率、对初始参数不敏感
正则化：通过在损失函数中添加一个惩罚项，防止模型对训练数据过于敏感

53.某小区人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别3种不同的人员：业主，物业人员，未收录人员。下面哪种学习方法最适合此种应用需求：（B）。      
A. 二分类      
B. 多分类      
C. 层次聚类      
D. 线性回归

没啥好说的

54.L1与L2范数在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果( A )。      
A. 可以做特征选择,并在一定程度上防止过拟合      
B. 能解决维度灾难问题      
C. 能加快计算速度      
D. 能增加模型的拟合能力

L1和L2范数的加入主要是为了正则化和特征选择

55.下列模型中属于生成式模型的是（D）      
A. 线性分类器      
B. 卷积神经网络      
C. 线性判别分析      
D. 朴素贝叶斯模型

生成式模型是一类能够对数据的生成过程进行建模的模型。生成式模型通过学习类别的先验概率和类别条件概率来对样本进行建模
线性分类器和卷积神经网络都是判别式模型
线性判别分析要看具体使用方式


56.下列模型中属于判别式模型的是（A）      
A. 支持向量机      
B. 隐马尔可夫模型      
C. 朴素贝叶斯模型      
D. 高斯混合模型

判别式模型是一类直接对类别进行建模的统计模型。这类模型通过学习输入数据与其对应的类别之间的关系，直接对类别进行判别。判别式模型的目标是找到一个决策边界或者决策函数，将不同类别的样本分开。
隐马尔科夫模型用于建模数据的生成过程
高斯混合模型假设数据是由多个高斯分布混合而成的，提供了对数据的生成过程的完整描述

57.下列属于无监督学习的是（A）      
A. k-means      
B. SVM      
C. 最大熵      
D. CRF

记吧

58.关于“过拟合”现象的出现范围，下列说法哪个是正确的（C）      
A. 只在监督学习中出现      
B. 只在非监督学习中出现      
C. 在监督学习和非监督学习中都可能出现      
D. 在任何类型的学习中都不会出现

没啥好说的

59.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以（C）      
A. 增加树的深度      
B. 增加学习率 (learning rate)      
C. 减少树的深度      
D. 减少树的数量

增加树的深度会导致更多的节点和分支，增加模型复杂度和训练时间、可能导致过拟合
学习率通常用于控制梯度下降中步长的参数，决策树没有学习率参数可以调
决策树只有一棵树, 不是随机森林

60.对于k折交叉验证, 以下对k的说法正确的是（D）      
A. k越大, 不一定越好, 选择大的k会加大评估时间      
B. 选择更大的k, 就会有更小的bias ，因为训练集更加接近总数据集      
C. 在选择k时, 要最小化数据集之间的方差      
D. 以上所有

在k折交叉验证中，将原始数据集分成k个子集，其中一个子集作为测试集，其余k-1个子集作为训练集。这个过程重复k次，每个子集都会轮流充当测试集。最终，将k次评估的结果取平均值，以得到对模型性能的综合评估。

61.以下不属于贝叶斯分类器参数估计的准则的是（C）      
A. 最大高斯后验      
B. 最大beta后验      
C. 最大间隔      
D. 极大似然

记吧

62.下列选项中属于机器学习可解决的问题的有（D）      
A. 分类      
B. 聚类      
C. 回归      
D. 以上均可

没啥好说的

63.下列选项中，关于KNN算法说法不正确的是（D）      
A. 能找出与待测样本相近的K个样本      
B. 可以使用欧氏距离度量相似度      
C. 实现过程相对简单      
D. 效率很高

每次预测都需要计算待测样本与所有训练样本之间的距离，效率在某些情况下可能较低，特别是在具有大量训练样本的情况下

64.关于特征预处理，下列说法中错误的是（B ）      
A. 包含标准化和归一化      
B. 标准化在任何场景下受异常值的影响都很小      
C. 归一化利用了样本中的最大值和最小值      
D. 标准化实际上是将数据在样本的标准差上做了等比例的缩放操作

标准化对异常值敏感

标准化和归一化：用于数据预处理，标准化能够将数据转换为具有相同尺度的分布，使得算法对不同特征的权重更加平衡；归一化使得数据的范围在[0, 1]之间，有助于避免由于特征尺度差异导致的算法收敛慢或不稳定的问题
标准化是通过减去均值并除以标准差的过程，使得数据的均值为0，标准差为1
归一化是通过线性缩放将数据限定在某个范围内，通常是[0, 1]

65. 关于交叉验证，下列说法中错误的是（A ）      
A. 交叉验证能够直接提升模型的准确率      
B. 交叉验证能够提供对模型泛化性能的更可靠估计      
C. 交叉验证搭配网格搜索能够提升我们查找最优超参数组合的效率      
D. 使用网格搜索时我们一般会提供超参数的可能取值字典

交叉验证是评估技术

66. 请选择下面可以应用隐马尔可夫（HMM）模型的选项：（D）      
A. 基因序列数据集      
B. 电影浏览数据集      
C. 股票市场数据集      
D. 所有以上

没啥好说的

67.EM算法（Expectation Maximization Algorithm）是机器学习领域的一个经典算法，下面关于EM算法的说法中不正确的有：（A）      
A. EM算法属于一种分类算法      
B. EM算法可用于隐马尔科夫模型的参数估计      
C. EM算法可以分为E-step和M-step两步      
D. EM算法可用于从不完整的数据中计算最大似然估计

EM算法（期望最大）是一种迭代优化算法

68.关于SVM的损失函数，下列说法中错误的是：（D）      
A. SVM适用于多种损失函数      
B. 0/1损失函数的最终结果只有两个，0代表分类正确，1代表分类错误      
C. 合页损失(Hinge loss)衡量了被误分类的样本离分割超平面的距离的大小程度      
D. 分类SVM常用平方误差损失来衡量模型的好坏

SVM通常使用合页损失

69.关于SVM核函数，下列说法中错误的是：（C）      
A. 核函数的引入提升了SVM在线性不可分场景下的模型的稳健性      
B. 核函数就是一类具有将某一类输入映射为某一类输出的函数      
C. 核函数把特征映射到的空间维度越高越好      
D. 常见的核函数有线性核、高斯核、多项式核、sigmoid核

高维特征空间的引入可以使得数据在更复杂的空间中变得线性可分，但过高的维度也可能导致维度灾难和计算复杂度的增加

70.下列关于Kmeans聚类算法的说法错误的是（D）      
A. 对大数据集有较高的效率并且具有可伸缩性      
B. 是一种无监督学习方法      
C. 初始聚类中心随机选择      
D. 初始聚类中心的选择对聚类结果影响不大

初始聚类中心的选择直接影响了算法收敛到的最终聚类结果。不同的初始聚类中心可能导致不同的局部最优解。通常采用随机选择多组初始聚类中心，运行算法多次，最终选择效果最好的一组聚类结果

71.关于朴素贝叶斯，下列说法错误的是：（D）      
A. 它是一个分类算法      
B. 朴素的意义在于它基于假设：所有特征之间是相互独立的      
C. 它实际上是将多条件下的条件概率转换成了单一条件下的条件概率，简化了      
计算      
D. 以贝叶斯估计的角度来看朴素贝叶斯时，其没有估计联合概率

朴素贝叶斯通过联合概率和条件概率的关系计算后验概率，条件概率的估计是通过对训练数据中的频率进行统计，并采用贝叶斯估计的方法来平滑估计值

72.避免直接的复杂非线性变换，采用线性手段实现非线性学习的方法是( A )      
A. 核函数方法      
B. 集成学习      
C. 线性鉴别分析      
D. PCA

核函数方法：在线性空间中进行非线性映射来处理非线性问题，即低维空间中进行高维特征空间的计算，避免了直接进行复杂的非线性变换
按照GPT的输出结果，下面三个在某些情况也能应用在非线性问题…
集成学习：组合多个弱学习器来构建一个模型，例如随机森林
线性鉴别分析：线性的监督学习方法，在保持类别间距离最大化和类别内方差最小化的同时进行降维，不直接用于实现非线性学习
主成分分析：降维方法，同样不直接用于实现非线性学习

73.下列选项中，关于逻辑斯蒂回归的说法不正确是：（B）      
A. 逻辑斯蒂回归是监督学习      
B. 逻辑斯蒂回归是一个回归模型      
C. 逻辑斯蒂回归是一个分类模型      
D. 逻辑斯蒂回归使用sigmoid函数作为激活函数对回归的结果做了映射

逻辑斯蒂回归是用于解决二分类问题的分类模型。使用sigmoid函数（逻辑斯蒂函数）将线性组合的输入映射到[0,1]范围内，正负类别按0.5区分

74.下列关于样本类别不均衡场景的描述正确的是（A）      
A. 样本类别不均衡会影响分类模型的最终结果      
B. 样本类别不均衡场景下我们没有可行的解决办法      
C. 欠采样是复制类别数较少的样本来进行样本集的扩充      
D. 过采样会造成数据集部分信息的流失

样本类别不均衡场景：可以过采样、欠采样、使用不同的评估指标以及使用专门设计用于处理不均衡数据的算法
欠采样：减少类别较多的样本
过采样：补充类别较少的样本（复制、生成新样本：随机插值、引入噪声等）

75.下列关于无监督学习描述错误的是（C）      
A. 无标签信息      
B. 聚类是其中一个应用      
C. 不能使用降维      
D. 在现实生活中有广泛的应用

没啥好说的

76.将一个k分类问题分解成一对一分类问题时总共需要（A）个分类器      
A. k(k-1)/2      
B. k(k-1)      
C. k      
D. k!

没啥好说的

77.下列关于聚类说法错误的是（D）      
A. 无需样本有标签      
B. 可用于抽取一些特征      
C. 可提取关于数据的结构信息      
D. 同一个类内的样本之间差异较大

没啥好说的

78.下列关于k-means说法不正确的是（ D ）      
A. 算法有可能终止于局部最优解      
B. 簇的数目需要事先给定      
C. 对噪声和离群点敏感      
D. 适合处理非凸型数据

k-means算法假定数据是凸形的

79.在有限支撑集上，下面分布中熵最大的是( D )      
A. 几何分布      
B. 指数分布      
C．高斯分布      
D. 均匀分布

支撑集是指一个随机变量可能取值的集合。如果支撑集是有限的，意味着随机变量只能在一个有限的范围内取值
随机变量约不确定熵越大，
均匀分布的每个样本点都具有相同的概率，当每个可能的事件发生的概率相等时，熵取得最大值。在均匀分布的情况下，我们无法通过观察一些事件来更好地预测其他事件的发生，因此整个系统的不确定性最大，熵也就最大。
几何分布的支撑集是整个正整数集合
指数分布的支撑集是非负实数轴
高斯分布，即正态分布，是连续概率分布，其支撑集是整个实数轴

80.给定均值和方差的情况下，下面分布中熵最大的是（C）      
A. 几何分布      
B. 指数分布      
C．高斯分布      
D. 均匀分布

几何分布：几何分布的熵由成功概率（或失败概率）决定
高斯分布在所有具有相同均值和方差的分布中，熵是最大的，表示它是最不确定的分布；均匀分布在特定情况下可能具有最大熵，但一般情况下，高斯分布的熵更大。

title: UCAS-2023-ML复习 abbrlink: date:

面向题库学习，用ChatGPT 3.5，错了就寄

选择

title: UCAS-2023-ML复习
abbrlink:
date: