注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
下列表述中,错误的是( )。
A.低频分类数据都是真实的分类结果确实存在低频类别导致的。
B.可以通过绘制分类变量的各类别频数分布的箱线图来发现数据是否为低频分类数据。
C.过多的低频类别会严重影响建模的效率,在数据预处理阶段需要尽量进行处理。
D.低频分类数据通常呈现出类别众多,而且很多类别仅有几个甚至一个样本的情况。
下列关于数据预处理的目的中,不正确的是( )。
A.完善数据,使其满足分析建模的质量和数据形式要求。
B.使数据集得以简化,提高建模分析的效率。
C.作为数据分析项目的第一步,为数据采集提供指导。
D.提高数据信息含量,进而提高数据分析模型的准确性。
下列关于数据标准化的表述中,不正确的是( )。
A.标准化后,正负号代表了原始值是大于(+)还是小于(-)均值。
B.标准化后,可以避免数据尺度差异对后续建模造成负面影响。
C.标准化后,数据的标准差并没有变化,只有均值发生变化。
D.标准化后,通过新值可以发现原始数据中的异常值。
下列关于Max-ABS缩放的表述中,不正确的是( )。
A.Max-ABS缩放将原值大于0的数据缩放到区间(0,1]。
B.不包含负数的变量经过Max-ABS缩放后的结果可能会出现负数。
C.原值等于0的数据缩放后还为0。
D.Max-ABS缩放的尺度就是变量绝对值的最大值。
下列关于决策树模型的表述中,不正确的是( )。
A.越晚进入决策树的变量,其对于目标变量而言越重要。
B.该算法形象的以树状结构建立模型,再现了人类决策的过程。
C.具有建立过程直观易理解、便于可视化、应用范围广等一系列优点。
D.存在不能保证得到全局最优决策树、容易形成复杂结构从而过拟合等缺点。
下列关于数据离散化的方法中,不正确的是( )。
A. 数据离散化可以分为客观法和主观法两种。
B. 客观法基于研究目的确定类别。
C. 通常用名词“分箱”称呼客观法。
D. 分箱法主要有等宽法(等宽分箱)和等频法(等频分箱)两种形式。
下列不属于异常值处理正确方法的是( )。
A. 直接删除
B. 标记
C. 截断
D. 替换为任意值
确定异常值时,是比较与( )的距离
A. 平均值
B. 中值
C. 最大值
D. 最小值
若数据集中某样本包含缺失值,则该样本需要被删除。
所有的数据错误都可以被发现并纠正。
低频分类数据的处理方式通常是将频数过低的类别删除
在数据预处理时,数据集中变量的数量不能发生变化
模型预测准确度总是随着样本数量的增加而同步增加。
所有的异常值都必须删除。
在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于客观条件原因。
A.低频分类数据都是真实的分类结果确实存在低频类别导致的。
B.可以通过绘制分类变量的各类别频数分布的箱线图来发现数据是否为低频分类数据。
C.过多的低频类别会严重影响建模的效率,在数据预处理阶段需要尽量进行处理。
D.低频分类数据通常呈现出类别众多,而且很多类别仅有几个甚至一个样本的情况。
下列关于数据预处理的目的中,不正确的是( )。
A.完善数据,使其满足分析建模的质量和数据形式要求。
B.使数据集得以简化,提高建模分析的效率。
C.作为数据分析项目的第一步,为数据采集提供指导。
D.提高数据信息含量,进而提高数据分析模型的准确性。
下列关于数据标准化的表述中,不正确的是( )。
A.标准化后,正负号代表了原始值是大于(+)还是小于(-)均值。
B.标准化后,可以避免数据尺度差异对后续建模造成负面影响。
C.标准化后,数据的标准差并没有变化,只有均值发生变化。
D.标准化后,通过新值可以发现原始数据中的异常值。
下列关于Max-ABS缩放的表述中,不正确的是( )。
A.Max-ABS缩放将原值大于0的数据缩放到区间(0,1]。
B.不包含负数的变量经过Max-ABS缩放后的结果可能会出现负数。
C.原值等于0的数据缩放后还为0。
D.Max-ABS缩放的尺度就是变量绝对值的最大值。
下列关于决策树模型的表述中,不正确的是( )。
A.越晚进入决策树的变量,其对于目标变量而言越重要。
B.该算法形象的以树状结构建立模型,再现了人类决策的过程。
C.具有建立过程直观易理解、便于可视化、应用范围广等一系列优点。
D.存在不能保证得到全局最优决策树、容易形成复杂结构从而过拟合等缺点。
下列关于数据离散化的方法中,不正确的是( )。
A. 数据离散化可以分为客观法和主观法两种。
B. 客观法基于研究目的确定类别。
C. 通常用名词“分箱”称呼客观法。
D. 分箱法主要有等宽法(等宽分箱)和等频法(等频分箱)两种形式。
下列不属于异常值处理正确方法的是( )。
A. 直接删除
B. 标记
C. 截断
D. 替换为任意值
确定异常值时,是比较与( )的距离
A. 平均值
B. 中值
C. 最大值
D. 最小值
若数据集中某样本包含缺失值,则该样本需要被删除。
所有的数据错误都可以被发现并纠正。
低频分类数据的处理方式通常是将频数过低的类别删除
在数据预处理时,数据集中变量的数量不能发生变化
模型预测准确度总是随着样本数量的增加而同步增加。
所有的异常值都必须删除。
在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于客观条件原因。