title: UCAS-2023-ML复习
abbrlink:
date:
面向题库学习,用ChatGPT 3.5,错了就寄
事实证明想过只要背原题
选择
1 | 1. 属于监督学习的机器学习算法是( A ) |
贝叶斯分类器:就是用贝叶斯定理搞的那玩意。在用的时候需要知道样本的类别,才能计算先验和条件概率
主成分分析(PCA):用来减少数据集的维度,通常用于无监督学习,也可以用于监督学习的预处理
K-means:聚类算法,将数据集划分为k个簇,中心簇代表簇内的样本均值,然后不断中心簇使得样本点和所属的中心簇距离最小
高斯混合聚类:通过最大化似然函数来估计模型参数,从而实现对数据的聚类
1 | 2. 属于无监督学习的机器学习算法是( C ) |
支持向量机和逻辑回归都是监督学习算法
层次聚类:把样本划分为层次结构的簇,通过合并和分裂来构建聚类树,不需要预先知道簇的数量
决策树:更常用于监督学习的分类和回归
1 | 3. 朴素贝叶斯分类器的特点是( C ) |
正态分布:高斯朴素贝叶斯
多项式分布:多项式朴素贝叶斯,适用于离散特征的情况
各维数型存在依赖:可以使用高斯混合模型、隐马尔可夫模型
1 | 4. 下列属于线性分类方法的是( B ) |
决策树不一定是线性分类方法,可以非常灵活地划分样本空间,并且可以包含非线性的决策边界。
感知机通过找到一个超平面来划分两个类别的样本空间
最近邻算法通常用于分类和回归任务,它根据样本的近邻进行预测,可用于线性和非线性的问题
集成学习是一种通过组合多个基学习器来提高整体性能的方法,是一个组合的框架
1 | 5. 下列方法不受数据归一化影响的是( D ) |
决策树基于特征的取值来进行划分,而不关心具体数值的大小
归一化:
标准化:
1 | 6. 关于线性鉴别分析的描述最准确的是,找到一个投影方向,使得( B ) |
线性判别分析(LDA)的目标是通过将数据投影到一个低维空间,在投影后,同一类别的样本尽可能接近,而不同类别的样本尽可能远离。
1 | 7. SVM的原理可简单描述为( C ) |
SVM:支持向量机
最小均方误差:线性回归算法
最小距离:最近邻算法就是最小距离分类的一种具体实现
最近邻分类:k-Nearest Neighbors
1 | 8. SVM的算法性能取决于( D ) |
记吧
1 | 9. 支持向量机的对偶问题是( C ) |
线性优化问题目标是最小化或最大化一个线性目标函数,受到一组线性约束的限制
二次优化是一类目标函数和约束都是二次的数学规划问题
凸二次优化是指目标函数是凸函数,约束是凸集的优化问题。支持向量机的对偶问题其目标函数和约束都满足凸性质
有约束的线性优化是一类目标函数和约束都是线性的优化问题。但是支持向量机的对偶问题涉及到二次项
1 | 10. 以下对支持向量机中的支撑向量描述正确的是( C ) |
记吧
1 | 11. 假定你使用阶数为2的线性核SVM,将模型应用到实际数据集上后,其训练准 |
增加模型复杂度(增加核函数的阶)可能会导致过拟合
增加模型复杂度可以捕捉数据中的更多关系,避免欠拟合
1 | 12. 关于决策树节点划分指标描述正确的是( B ) |
节点的类别纯度越高;信息增益越大;基尼指数越小(表示节点纯度越高)
1 | 13. 以下描述中,属于决策树策略的是( D ) |
决策树中,常用的策略是选择能够最大化信息增益或最小化基尼指数的特征进行划分
信息增益是衡量在给定划分条件下,划分前后样本的不确定性减少程度的指标
1 | 14. 集成学习中基分类器如何选择,学习效率通常越好( D ) |
前面好像说过类似的
1 | 15. 集成学习中,每个基分类器的正确率的最低要求( A ) |
记吧
1 | 16. 下面属于Bagging方法的特点是( A ) |
记吧
1 | 17. 下面属于Boosting方法的特点是( D ) |
18说了类似的
1 | 18. 随机森林方法属于( B ) |
随机森林通过构建多个决策树并将它们集成在一起来提高模型的性能和泛化能力。在构建每一个决策树的时候随机选择特征,增加模型整体的多样性。通过将所有决策树的输出进行集成,来做出最终的预测:对于分类问题,采用投票法,即选择得票最多的类别。对于回归问题,取所有树的平均预测值。随机森林通常用于解决非线性问题
Bagging指的是通过构建多个基学习器,并将它们的结果进行集成
Boosting方法是另一种集成学习方法,通过训练一系列弱学习器,并根据前一个模型的性能对下一个模型进行加权
线性分类方法:例如线性支持向量机、逻辑回归等。
梯度下降主要用于更新模型的损失函数
1 | 19. 软间隔SVM的阈值趋于无穷,下面哪种说法正确( A ) |
Soft Margin SVM:用于处理线性不可分的数据
阈值即松弛变量,软间隔SVM的优化目标:最大化训练样本点到决策边界(超平面)的间隔(与SVM的线性分类相同)、误差项(容忍一些训练样本不满足硬间隔的条件,允许它们位于错误的一侧。较小的C值允许更多的误分类)
1 | 20. 回归问题和分类问题的区别( A ) |
记吧
1 | 21. 正则化的回归分析,可以避免( B ) |
记吧
1 | 22. “啤酒-纸尿布”问题讲述的是,超市购物中,通过分析购物单发现,买了 |
分类:监督学习;聚类:无监督学习
关联分析:找到数据项之间的关系
回归:用于预测连续型输出变量的值
1 | 23. 混合高斯聚类中,运用了以下哪种过程( A ) |
记吧
1 | 24. 主成分分析方法是一种什么方法( C ) |
记吧
1 | 25. PCA在做降维处理时,优先选取哪些特征( A ) |
renew一下:PCA==主成分分析
1 | 26. 过拟合现象中( A ) |
没啥好说的
1 | 27. 多层感知机方法中,可用作神经元的非线性激活函数( A ) |
记吧
1 | 29. 梯度下降算法的正确步骤是什么( B ) |
记吧:
初始化->先进行一次预测->计算预测的误差->对每一个产生误差的神经元,改变相应的(权重)值以减小误差->迭代更新
1 | 30.假如使用一个较复杂的回归模型来拟合样本数据,使用岭回归,调试正则化 |
岭回归是一种线性回归的扩展,目标是最小化损失函数和正则化项之和。正则化项的强度由正则化参数λ控制。
偏差:模型的预测和真实值的差异。当λ较大时,正则化强度增大,模型更趋向于简单的参数设置,可能导致对训练数据的拟合程度不够
方差:衡量模型在不同训练集上的预测的变异性。当λ较大时,正则化会限制模型参数的数量和范围,降低模型的复杂度
1 | 31.以下哪种方法会增加模型的欠拟合风险(D) |
没啥好说的,其他都可能过拟合
1 | 32. 增加以下哪些超参数可能导致随机森林模型过拟合数据(B) |
(1):减小单个决策树的过拟合倾向
(2):增加深度使得模型更复杂,容易过拟合
(3):通常是梯度提升机等模型中的超参数,而不是随机森林。较大的学习率可能导致模型对训练数据过于敏感,使其更容易过拟合
1 | 33. 以下关于深度网络训练的说法正确的是(D) |
记吧
1 | 34. 关于CNN,以下结论正确的是(C) |
CNN的参数通常较少,因为它们共享权重并具有局部连接性,而全连接网络的参数数量更多
普通神经网络也可以用于非监督学习任务,例如自编码器等
Pooling层通常用于减小特征图的空间尺寸,通过保留主要信息的同时减少计算量
接近输出层的filter更倾向于提取高级抽象的特征,而靠近输入层的filter更多地捕捉图像的低级特征
输入层: 接收原始图像。
卷积层: 提取图像的低级特征,例如边缘、纹理。
激活函数层: 引入非线性,增加模型的表达能力。
Pooling层: 减小特征图的空间尺寸,降低计算复杂度。
全连接层: 将抽取的特征进行扁平化,并用于最终的分类或回归任务。
输出层: 提供最终的预测结果。
1 | 35. 关于k-means算法,正确的描述是(B) |
K-Means假设每个簇是凸的、等方向的,时间复杂度与迭代次数和簇数K有关;通常是较低的线性复杂度,不一定与样本量线性相关;可以使用核化的k-means算法来处理非线性数据
1 | 36. 下列关于过拟合现象的描述中,哪个是正确的(A) |
我咋记得上面有
1 | 37. 下列哪个函数不可以做激活函数(D) |
激活函数的主要目的是1.引入非线性特性,2.决定神经元是否应该被激活(输出非零值
几个激活函数:
Sigmoid函数: 用于输出层,将输出映射到(0, 1)范围,适用于二分类问题。
Tanh函数: 类似于Sigmoid,但将输出映射到(-1, 1)范围,有助于缓解梯度消失问题。
ReLU函数(Rectified Linear Unit): y=max(x, 0),在正区间为线性,在负区间截断为零,解决了梯度消失问题,常用于隐藏层。
Leaky ReLU函数: 对于负区间不截断为零,而是保留一个小的斜率,解决了ReLU中负值为零的问题。
Softmax函数: 用于多类别分类问题,将输出转化为概率分布。
1 | 38. 在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题 |
高斯核即RBF核,是一种非线性核函数,在特征空间中引入更复杂的决策边界。。使用复杂的核函数增加了模型对训练数据的拟合程度,但也可能导致在未见过的数据上的泛化性能下降,因此容易引起过拟合
1 | 39. 下面方法中属于无监督学习算法的是(D) |
记吧
1 | 40. Bootstrap数据是什么意思(C) |
记吧
1 | 41.下面关于Adaboost算法的描述中,错误的是(D) |
Adaboost算法的核心思想是通过组合多个弱分类器(通常是决策树)来构建一个强分类器。每个弱分类器都对数据进行加权学习,然后根据其在训练集上的性能来分配一个权重。最终的强分类器是这些弱分类器的线性组合,权重大的弱分类器在最终的模型中起更大的作用。
它是一个串行的算法,每个弱分类器都是在前一个分类器的误差上进行学习的。它通过增加之前弱分类器分错的样本的权重,使得后续的弱分类器更关注之前分类错误的样本
1 |
|
HMM:隐马尔可夫模型
EM算法通常用于处理观察序列和状态序列都未知的情况
维特比算法用于求解HMM中给定观察序列时最可能的隐藏状态序列。它是解码算法
前向后向算法用于计算观察序列的概率,而不是直接用于参数估计
1 | 43.以下哪种距离会侧重考虑向量的方向(D) |
欧式距离考虑向量的大小和方向,它是空间中两点之间的直线距离。
海明距离用于衡量两个等长字符串之间的不同位数,它不直接关注向量的方向。Jaccard距离用于衡量集合之间的相似性,它关注共同项的比例,而不考虑向量的方向。
余弦距离衡量两个向量之间的夹角,而不考虑它们的大小。它主要关注向量的方向,因此更侧重于向量的方向性。通常用于衡量文本相似性、向量空间模型等场景
1 | 44. 解决隐马模型中预测问题的算法是(D) |
记吧
1 | 45. 梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题( A ) |
梯度爆炸问题是指在训练过程中,梯度变得过大导致权重更新过大,损失函数变为无穷
梯度裁剪通过设置一个梯度阈值,当梯度的L2范数超过这个阈值时,对梯度进行缩放,以防止梯度爆炸
Dropout是一种正则化技术;加入正则项是正则化的一种形式,通常用于控制模型的复杂度,减少过拟合。虽然它可以提高模型的泛化能力,但它的主要目的也不是直接处理梯度爆炸
1 | 47.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其 |
前面讲过
1 | 48.现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m×n,n×p,p×q,且m <n <p <q,不考虑矩阵乘法的优化时,以下计算顺序效率最高的是(A) |
中间结果的矩阵尺寸尽可能小
1 | 49.下列方法中没有考虑先验分布的是( D ) |
最大似然估计(MLE)基于观察到的数据来找到最可能产生这些数据的参数值,仅依赖于数据本身,不考虑参数的先验分布
最大后验估计(MAP): 考虑了先验分布,通过最大化后验概率来估计模型参数
贝叶斯: 涉及到先验分布和后验概率的计算
1 | 50.下列哪一项主要负责在神经网络中引入非线性?(B) |
上面说过
1 | 51. 下列哪一种架构有反馈连接并常被用来处理序列数据?(A) |
循环神经网络的神经元之间的连接形成了循环,使得网络能够捕捉序列中的时间依赖关系,用来处理序列序列数据,如语言模型、时间序列分析
卷积神经网络具有局部感知域和权重共享的特点,处理图像数据
全连接网络即多层感知机,每一层中的神经元与前一层的所有神经元相连接,没有时间依赖关系
1 | 52. 在一个神经网络中,下面哪种方法可以用来处理过拟合?(D) |
Dropout:正则化技术,在训练过程中随机地关闭一部分神经元,从而减少神经网络对特定神经元的依赖
分批归一化:将每个输入特征在训练时归一化(将数据映射到一个标准范围或标准分布的过程),可以加速收敛、防止过拟合、允许较大学习率、对初始参数不敏感
正则化:通过在损失函数中添加一个惩罚项,防止模型对训练数据过于敏感
1 | 53.某小区人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别3种不同的人员:业主,物业人员,未收录人员。下面哪种学习方法最适合此种应用需求:(B)。 |
没啥好说的
1 | 54.L1与L2范数在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果( A )。 |
L1和L2范数的加入主要是为了正则化和特征选择
1 | 55.下列模型中属于生成式模型的是(D) |
生成式模型是一类能够对数据的生成过程进行建模的模型。生成式模型通过学习类别的先验概率和类别条件概率来对样本进行建模
线性分类器和卷积神经网络都是判别式模型
线性判别分析要看具体使用方式
1 |
|
判别式模型是一类直接对类别进行建模的统计模型。这类模型通过学习输入数据与其对应的类别之间的关系,直接对类别进行判别。判别式模型的目标是找到一个决策边界或者决策函数,将不同类别的样本分开。
隐马尔科夫模型用于建模数据的生成过程
高斯混合模型假设数据是由多个高斯分布混合而成的,提供了对数据的生成过程的完整描述
1 | 57.下列属于无监督学习的是(A) |
记吧
1 | 58.关于“过拟合”现象的出现范围,下列说法哪个是正确的(C) |
没啥好说的
1 | 59.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以(C) |
增加树的深度会导致更多的节点和分支,增加模型复杂度和训练时间、可能导致过拟合
学习率通常用于控制梯度下降中步长的参数,决策树没有学习率参数可以调
决策树只有一棵树, 不是随机森林
1 | 60.对于k折交叉验证, 以下对k的说法正确的是(D) |
在k折交叉验证中,将原始数据集分成k个子集,其中一个子集作为测试集,其余k-1个子集作为训练集。这个过程重复k次,每个子集都会轮流充当测试集。最终,将k次评估的结果取平均值,以得到对模型性能的综合评估。
1 | 61.以下不属于贝叶斯分类器参数估计的准则的是(C) |
记吧
1 | 62.下列选项中属于机器学习可解决的问题的有(D) |
没啥好说的
1 | 63.下列选项中,关于KNN算法说法不正确的是(D) |
每次预测都需要计算待测样本与所有训练样本之间的距离,效率在某些情况下可能较低,特别是在具有大量训练样本的情况下
1 | 64.关于特征预处理,下列说法中错误的是(B ) |
标准化对异常值敏感
标准化和归一化:用于数据预处理,标准化能够将数据转换为具有相同尺度的分布,使得算法对不同特征的权重更加平衡;归一化使得数据的范围在[0, 1]之间,有助于避免由于特征尺度差异导致的算法收敛慢或不稳定的问题
标准化是通过减去均值并除以标准差的过程,使得数据的均值为0,标准差为1
归一化是通过线性缩放将数据限定在某个范围内,通常是[0, 1]
1 | 65. 关于交叉验证,下列说法中错误的是(A ) |
交叉验证是评估技术
1 | 66. 请选择下面可以应用隐马尔可夫(HMM)模型的选项:(D) |
没啥好说的
1 | 67.EM算法(Expectation Maximization Algorithm)是机器学习领域的一个经典算法,下面关于EM算法的说法中不正确的有:(A) |
EM算法(期望最大)是一种迭代优化算法
1 | 68.关于SVM的损失函数,下列说法中错误的是:(D) |
SVM通常使用合页损失
1 | 69.关于SVM核函数,下列说法中错误的是:(C) |
高维特征空间的引入可以使得数据在更复杂的空间中变得线性可分,但过高的维度也可能导致维度灾难和计算复杂度的增加
1 | 70.下列关于Kmeans聚类算法的说法错误的是(D) |
初始聚类中心的选择直接影响了算法收敛到的最终聚类结果。不同的初始聚类中心可能导致不同的局部最优解。通常采用随机选择多组初始聚类中心,运行算法多次,最终选择效果最好的一组聚类结果
1 | 71.关于朴素贝叶斯,下列说法错误的是:(D) |
朴素贝叶斯通过联合概率和条件概率的关系计算后验概率,条件概率的估计是通过对训练数据中的频率进行统计,并采用贝叶斯估计的方法来平滑估计值
1 | 72.避免直接的复杂非线性变换,采用线性手段实现非线性学习的方法是( A ) |
核函数方法:在线性空间中进行非线性映射来处理非线性问题,即低维空间中进行高维特征空间的计算,避免了直接进行复杂的非线性变换
按照GPT的输出结果,下面三个在某些情况也能应用在非线性问题…
集成学习:组合多个弱学习器来构建一个模型,例如随机森林
线性鉴别分析:线性的监督学习方法,在保持类别间距离最大化和类别内方差最小化的同时进行降维,不直接用于实现非线性学习
主成分分析:降维方法,同样不直接用于实现非线性学习
1 | 73.下列选项中,关于逻辑斯蒂回归的说法不正确是:(B) |
逻辑斯蒂回归是用于解决二分类问题的分类模型。使用sigmoid函数(逻辑斯蒂函数)将线性组合的输入映射到[0,1]范围内,正负类别按0.5区分
1 | 74.下列关于样本类别不均衡场景的描述正确的是(A) |
样本类别不均衡场景:可以过采样、欠采样、使用不同的评估指标以及使用专门设计用于处理不均衡数据的算法
欠采样:减少类别较多的样本
过采样:补充类别较少的样本(复制、生成新样本:随机插值、引入噪声等)
1 | 75.下列关于无监督学习描述错误的是(C) |
没啥好说的
1 | 76.将一个k分类问题分解成一对一分类问题时总共需要(A)个分类器 |
没啥好说的
1 | 77.下列关于聚类说法错误的是(D) |
没啥好说的
1 | 78.下列关于k-means说法不正确的是( D ) |
k-means算法假定数据是凸形的
1 | 79.在有限支撑集上,下面分布中熵最大的是( D ) |
支撑集是指一个随机变量可能取值的集合。如果支撑集是有限的,意味着随机变量只能在一个有限的范围内取值
随机变量约不确定熵越大,
均匀分布的每个样本点都具有相同的概率,当每个可能的事件发生的概率相等时,熵取得最大值。在均匀分布的情况下,我们无法通过观察一些事件来更好地预测其他事件的发生,因此整个系统的不确定性最大,熵也就最大。
几何分布的支撑集是整个正整数集合
指数分布的支撑集是非负实数轴
高斯分布,即正态分布,是连续概率分布,其支撑集是整个实数轴
1 | 80.给定均值和方差的情况下,下面分布中熵最大的是(C) |
几何分布:几何分布的熵由成功概率(或失败概率)决定
高斯分布在所有具有相同均值和方差的分布中,熵是最大的,表示它是最不确定的分布;均匀分布在特定情况下可能具有最大熵,但一般情况下,高斯分布的熵更大。