模式识别2023年2月春季期末考试复习资料
选择题
Kn近邻元法较之Parzen窗法的优点是(
B
)
A. 所需样本数较少 B. 稳定性较好 C. 分辨率较高 D. 连续性较好基于最小错误率的贝叶斯决策规则可以采用不同的形式,下列不能表达其决策规则的是(
B
)
A. 后验概率 B. 似然比 C. 类条件概率 D. 先验概率下列关于贝叶斯网络错误的是(
C
)
A. 预测和诊断需要己知网络结构和图中每个结点的条件概率表。
B. 训练需要先建立网络结构,再计算每个结点的条件概率表。
C. 贝叶斯网络的诊断是一个“自顶向下”的过程。
D. 要使用训练好的贝叶斯网络,则网络中的所有先验概率和条件概率必须全部已知。下面关于最大似然估计的说法中错误的是(
C
)
A. 在最大似然估计中要求各个样本必须是独立抽取的。
B. 最大似然估计是在已知概率密度函数的形式,但是参数未知的情况下,利用训练样本来估计未知参数。
C. 在最大似然函数估计中,要估计的参数是一个不确定的量。
D. 在最大似然估计中,可以使用对数形式的似然函数来进行估计。Fisher线性判别函数的求解过程是将N维特征矢量投影在(
A
)进行。
A. 一维空间 B. 二维空间
C. 三维空间 D. N-1维空间两类样本中离分类面最近的样本到分类面的距离称作(
D
)
A. 最小距离 B. 分类距离 C. 决策距离 D. 分类间隔下面哪项不属于模式识别的主要方法的是(
A
)
A. 基于数据的方法和基于特征的方法
B. 基于知识的方法和基于数据的方法
C. 基于统计的方法和基于数据的方法
D. 基于知识的方法和基于统计的方法在统计模式分类问题中,当先验概率未知时,除了N-P判决,还可以使用(
B
)
A. 最小损失准则
B. 最小最大损失准则
C. 最小误判概率准则
D. 最大误判概率准则下列描述有监督学习错误的是(
C
)
A. 有标签
B. 核心是分类
C. 所有数据都相互独立分布
D. 分类原因不透明
填空题
- CART算法是基于
基尼系数的大小
选择最有辨别力的特征对数据进行划分。 - 统计决策基本原理:
根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策
。 - 决策树算法能够处理
离散型和连续型
特征,并能把特征的信息
和规则
结合起来。
判断题
- 特征选择是新的每一个特征是原有特征的一个函数。(
错误
) - 准则不同,所得到的线性判别函数也不同。(
正确
) - 在模式识别中,获取的特征数量越多越有利于分类。(
错误
)
简答题
- 模式识别是一种对未知样本的特征进行分析、识别和归类的科学方法。它的基本原理是利用样本特征的数学方法对样本数据进行特征提取和分析,建立分类模型,再根据这些分类模型对新的数据进行分类。
- 在实际应用中,模式识别通常分为三个步骤:预处理、特征提取和分类。预处理步骤主要是对原始数据进行处理,以提高后续处理的准确性。特征提取步骤是从预处理后的数据中提取出具有代表性的特征。最后,分类算法将特征数据输入模型进行比较,并根据比较结果进行分类。
朴素贝叶斯平滑处理是一种解决零概率问题的方法。
- 零概率问题是指在计算实例的概率时,如果某个属性或特征在训练集中没有出现过,会导致整个实例的概率为零。这是不合理的,不能因为一个事件没有观察到就认为该事件的概率是零。
- 平滑处理的基本思想是给每个属性或特征一个非零的初始计数,以避免出现零概率。
- 常用的平滑处理方法有拉普拉斯平滑和加法平滑。
Boosting的基本思想是:
- 在每一轮迭代中,根据上一轮的分类结果,给训练数据赋予不同的权重
- 使得误分类的样本权重增大,正确分类的样本权重减小
- 然后用加权的数据集训练下一个弱分类器
- 最后将所有的弱分类器按照一定的规则结合起来得到最终的分类器。
Boosting的优点有:
- 可以有效地降低偏差和方差,提高泛化能力
- 可以处理高维数据和非线性问题
- 可以自动进行特征选择和剪枝
- 可以与其他机器学习算法结合使用
Boosting的缺点有:
- 训练过程比较耗时
- 容易过拟合
- 需要调整多个参数
使用Boosting的模式识别方法有决策树分类、支持向量机分类、K近邻分类和神经网络分类。
- k近邻:优点是简单、无需训练、对异常值不敏感;缺点是计算量大、空间复杂度高、需要选择合适的k值。
- 决策树:优点是易于理解和实现、能够处理多值属性和缺失值;缺点是容易过拟合、不稳定、忽略属性之间的相关性。
- 支持向量机:优点是能够处理非线性问题、具有良好的泛化能力;缺点是对参数敏感、计算复杂度高、难以解释。
- 神经网络:优点是能够学习复杂的非线性函数、适用于大规模数据;缺点是训练时间长、容易陷入局部最优解、难以理解内部机制 。
- 信息熵是非负的,当且仅当随机变量只有一个取值时,信息熵为零。
- 信息增益也是非负的,当且仅当条件和随机变量相互独立时,信息增益为零。
- 信息熵满足对称性、凸性和可加性。
- 信息增益满足对称性、非凸性和非可加性。
k近邻思想是一种基于相似度的分类和回归方法,它的基本思想是从训练集中找到和输入样本最相似的k个样本,然后根据这k个样本的类别或数值来预测输入样本的输出。
估计概率密度的基本方法有两大类:参数估计
和非参数估计
。
- 参数估计是指已知概率密度函数的形式,但其中部分或全部参数未知,通过样本来估计这些参数的值。常用的参数估计方法有最大似然估计和贝叶斯估计。
- 非参数估计是指不假设概率密度函数的形式,而是直接根据样本来构造概率密度函数。常用的非参数估计方法有直方图法、核密度法、k近邻法等。
模式识别2023年2月春季期末考试复习资料