注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
下列关于数据中心化的表述中,不正确的是( )。
A.中心化后,平均值变为0。
B.中心化后,标准差发生改变。
C.中心化后,极差没有发生改变。
D.中心化后,分布形状没有发生改变。
下列关于数据归约的意义中,不正确的是( )。
A.可以降低无效、错误数据对数据建模的影响,提高建模准确性。
B.大幅缩减模型的训练时间,在需要反复训练模型的场景下能够极大地提高建模效率。
C.可以降低数据存储的空间成本。
D.有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响。
下列关于异常值处理的表述中,不正确的是( )。
A. 异常值可能是准确的数据
B. 对于数据错误的异常值,可以删除
C. 删除异常值将改变数据集的样本量
D. 截断方法改变了样本容量
下列表述中,正确的是( )。
A.将连续型变量离散化为定性变量,其数据信息含量会增加。
B.等频法属于有监督离散化方法。
C.数据离散化是指把无限空间中有限的个体映射到有限的空间中,以此提高算法的时空效率。
D.数据离散化是指将连续型变量的部分取值映射到根据客观或主观依据事先确定好的一系列分组或分类中,从而得到另一个连续型变量的数据预处理方法。
关于哑变量与one-hot码,下列说法正确的是( )。
A.任何一个个类别的定性变量都可以转换为个哑变量。
B.任何一个个类别的定性变量都可以转换为个比特的one-hot码。
C.哑变量与one-hot码是完全相同的概念。
D.哑变量既有两个类别形式的,又有多个类别形式的
下列关于数据缺失类型的表述中,错误的是( )。
A.在某次调查中,在整理问卷时不小心打翻墨水瓶,导致部分问卷的部分问题污损,这种缺失记为非随机、不可忽略缺失。
B.数据缺失的三种类型是完全随机缺失、随机缺失和非随机、不可忽略缺失。
C.在某次调查中,某些消费者的“收入”变量发生了缺失,经过分析发现,没有缺失的收入数据大多属于中等收入水平,因而这种缺失属于非随机缺失。
D.随机缺失是指数据的缺失仅仅依赖于其它变量,即受本变量以外因素的影响。
下列关于低频分类数据的表述中,正确的是( )。
A.低频分类数据都是由于数据采集是的错误导致的。
B.低频分类数据都是真实可靠的,只是其类别的样本频数比较低。
C.使用低频分类数据建立模型会使模型更简化,更精确。
D.低频分类指在分类型数据中出现一些类别频数非常低的情况。
下列对定性变量的描述中,不正确的是( )。
A.“成绩”可以作为定性变量。
B.连续型数据很难转变为定性数据。
C.多分类定性变量可以转变为哑变量。
D.顺序型变量可以转变成得分变量。
下列关于Robust缩放方法的表述中,不正确的是( )。
A.Robust缩放方法的理念是“首先中心化,然后除以尺度”。
B.Robust缩放方法用到的指标不易受极端值影响。
C.Robust缩放方法用中位数代替了标准化方法里的均值指标。
D.Robust缩放方法用方差代替了标准化方法里的标准差指标。
下列关于变量的数据特征的表述中,正确的是( )。
A.原始数据的特征往往与分析方法的要求不一致。
B.变量的数据特征与测量尺度和采集方式无关。
C.两个数值型变量之间可以直接比较大小。
D.对数据进行缩放后,数据的分布形状会发生明显变化。
下列关于用方差分析进行变量选择的表述中,不正确的是( )。
A.方差分析是用于检验两组或多组数据之间样本均值的差异是否显著的方法。
B.方差分析的检验形式是F检验。
C.P值以0.01作为筛选标准时,P值大于0.01的变量需要保留下来。
D.某些场合下通过方差分析选择变量,可以改善模型的建模效率和预测精度。
下列关于分箱法的表述中,不正确的是( )。
A.使用客观法进行数据离散化是计算机科学领域通常的做法,通常用名词“分箱”称呼这种方法。
B.分箱法主要有等宽法(等宽分箱)和等频法(等频分箱)两种形式。
C.等宽分箱法一般被称作“分类”
D.在统计分析领域,客观法和主观法中都会用到分箱法。
下列关于异常值处理方法的表述中,正确的是( )。
A.把异常值替换为某一可以接受的值,这一处理方法是标记法。
B.用一个变量将异常值标记出来的方法是截断法。
C.采用截断方法不会造成信息损失。
D.只有在研究目的是获取数据的一般规律特征时才有必要采取截断方法清楚异常值对于规律挖缺的干扰。
下列关于哑变量的说法中,不正确的是( )。
A.任何一个k个类别的定性变量都可以转换为k-1个哑变量。
B.哑变量只有两个类别,用0和1表示。
C.哑变量的0-1形态与逻辑型数据的False和True相同,0表示True,1表示False。
D.哑变量属于定性变量。
下列表述中,正确的是( )。
A.含有缺失值的变量必须被剔除。
B.数据缺失的原因一定是该数据不存在。
C.数据缺失对于数据建模分析不存在影响。
D.随机缺失类型是指数据的缺失仅仅依赖于其它变量。
A.中心化后,平均值变为0。
B.中心化后,标准差发生改变。
C.中心化后,极差没有发生改变。
D.中心化后,分布形状没有发生改变。
下列关于数据归约的意义中,不正确的是( )。
A.可以降低无效、错误数据对数据建模的影响,提高建模准确性。
B.大幅缩减模型的训练时间,在需要反复训练模型的场景下能够极大地提高建模效率。
C.可以降低数据存储的空间成本。
D.有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响。
下列关于异常值处理的表述中,不正确的是( )。
A. 异常值可能是准确的数据
B. 对于数据错误的异常值,可以删除
C. 删除异常值将改变数据集的样本量
D. 截断方法改变了样本容量
下列表述中,正确的是( )。
A.将连续型变量离散化为定性变量,其数据信息含量会增加。
B.等频法属于有监督离散化方法。
C.数据离散化是指把无限空间中有限的个体映射到有限的空间中,以此提高算法的时空效率。
D.数据离散化是指将连续型变量的部分取值映射到根据客观或主观依据事先确定好的一系列分组或分类中,从而得到另一个连续型变量的数据预处理方法。
关于哑变量与one-hot码,下列说法正确的是( )。
A.任何一个个类别的定性变量都可以转换为个哑变量。
B.任何一个个类别的定性变量都可以转换为个比特的one-hot码。
C.哑变量与one-hot码是完全相同的概念。
D.哑变量既有两个类别形式的,又有多个类别形式的
下列关于数据缺失类型的表述中,错误的是( )。
A.在某次调查中,在整理问卷时不小心打翻墨水瓶,导致部分问卷的部分问题污损,这种缺失记为非随机、不可忽略缺失。
B.数据缺失的三种类型是完全随机缺失、随机缺失和非随机、不可忽略缺失。
C.在某次调查中,某些消费者的“收入”变量发生了缺失,经过分析发现,没有缺失的收入数据大多属于中等收入水平,因而这种缺失属于非随机缺失。
D.随机缺失是指数据的缺失仅仅依赖于其它变量,即受本变量以外因素的影响。
下列关于低频分类数据的表述中,正确的是( )。
A.低频分类数据都是由于数据采集是的错误导致的。
B.低频分类数据都是真实可靠的,只是其类别的样本频数比较低。
C.使用低频分类数据建立模型会使模型更简化,更精确。
D.低频分类指在分类型数据中出现一些类别频数非常低的情况。
下列对定性变量的描述中,不正确的是( )。
A.“成绩”可以作为定性变量。
B.连续型数据很难转变为定性数据。
C.多分类定性变量可以转变为哑变量。
D.顺序型变量可以转变成得分变量。
下列关于Robust缩放方法的表述中,不正确的是( )。
A.Robust缩放方法的理念是“首先中心化,然后除以尺度”。
B.Robust缩放方法用到的指标不易受极端值影响。
C.Robust缩放方法用中位数代替了标准化方法里的均值指标。
D.Robust缩放方法用方差代替了标准化方法里的标准差指标。
下列关于变量的数据特征的表述中,正确的是( )。
A.原始数据的特征往往与分析方法的要求不一致。
B.变量的数据特征与测量尺度和采集方式无关。
C.两个数值型变量之间可以直接比较大小。
D.对数据进行缩放后,数据的分布形状会发生明显变化。
下列关于用方差分析进行变量选择的表述中,不正确的是( )。
A.方差分析是用于检验两组或多组数据之间样本均值的差异是否显著的方法。
B.方差分析的检验形式是F检验。
C.P值以0.01作为筛选标准时,P值大于0.01的变量需要保留下来。
D.某些场合下通过方差分析选择变量,可以改善模型的建模效率和预测精度。
下列关于分箱法的表述中,不正确的是( )。
A.使用客观法进行数据离散化是计算机科学领域通常的做法,通常用名词“分箱”称呼这种方法。
B.分箱法主要有等宽法(等宽分箱)和等频法(等频分箱)两种形式。
C.等宽分箱法一般被称作“分类”
D.在统计分析领域,客观法和主观法中都会用到分箱法。
下列关于异常值处理方法的表述中,正确的是( )。
A.把异常值替换为某一可以接受的值,这一处理方法是标记法。
B.用一个变量将异常值标记出来的方法是截断法。
C.采用截断方法不会造成信息损失。
D.只有在研究目的是获取数据的一般规律特征时才有必要采取截断方法清楚异常值对于规律挖缺的干扰。
下列关于哑变量的说法中,不正确的是( )。
A.任何一个k个类别的定性变量都可以转换为k-1个哑变量。
B.哑变量只有两个类别,用0和1表示。
C.哑变量的0-1形态与逻辑型数据的False和True相同,0表示True,1表示False。
D.哑变量属于定性变量。
下列表述中,正确的是( )。
A.含有缺失值的变量必须被剔除。
B.数据缺失的原因一定是该数据不存在。
C.数据缺失对于数据建模分析不存在影响。
D.随机缺失类型是指数据的缺失仅仅依赖于其它变量。