注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
下列关于缺失值的形式的说法中,正确的是( )。
A.Python中默认的缺失值形式为NA
B.Pandas中默认的缺失值形式为NaN
C.Python中默认的缺失值形式为Null
D.Pandas中默认的缺失值形式为空字符串("")

下列表述中,正确的是( )。
A.对字符串型变量的缺失值,需要使用众数进行填补。
B.对于缺失值,最简单的处理方法是使用均值进行填补。
C.完全变量指的包含缺失值的变量。
D.在调查过程中,因被调查者拒绝回答敏感问题而造成的数据缺失,属于人为原因。

关于日期时间型数据,下列说法正确的是( )。
A.在计算机系统中,日期时间型数据是以文本形式存储的。
B.在计算机系统中,日期时间型数据是以数值形式存储的。
C.在计算机系统中,日期时间型数据是以因子形式存储的。
D.在计算机系统中,日期时间型数据是以缺失值形式存储的。

下图是某分类变量各类别计数分布的箱线图,从图中可知( )。

A.少部分分类计数很低。
B.该变量类别很少,可以清晰的用箱线图展示各类别的频数。
C. 这个变量存在大量低频分类。
D.绝大多数分类计数很高。

下列关于数据预处理的表述中,不正确的是( )。
A.具备专业经验的数据科学家可以在数据分析前忽略数据预处理。
B.数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。
C.数据预处理的效果与数据分析顺利与否直接相关。
D.数据预处理往往占据数据分析项目总工作量的60%以上。

下列数据特征缩放的公式中,正确的是( )。
A.数据中心化公式为:X=(X-X1)/S。
B.数据标准化公式为:X=X-X1。
C.Max-ABS缩放公式为:X=X/|X|max。
D.Robust缩放公式为:X=X-Median/s。

下列关于相关系数的表述中,正确的是( )。
A.Pearson相关系数的值在[0,1]之间分布。
B.Spearman相关系数的值在[-1,1]之间分布。
C.变量和的Spearman相关系数的定义为:。
D.相关系数越大,则说明两个变量的相关性越强。

下列关于异常值的表述中,不正确的是( )。
A.异常值也可以称为离群值。
B.异常值的数值可能是真实可靠的。
C.异常值在数据中占得比例很小。
D.异常值完全是由于错误形成的数据。

下列关于哑变量的名称中,不正确的是( )。
A.二分类变量
B.虚拟变量
C.0-1型变量
D.数值型变量

下列关于异常值识别方法的表述中,不正确的是( )。
A.异常值的识别方式是考察变量中每一个样本值与其他样本值的相对距离。
B.通过箱线图可以识别异常值。
C.可以利用变量的样本均值和样本标准差来识别异常值。
D.异常值识别标准中使用了标准差的倍数作为距离大小的度量标准。

下列表述中,正确的是( )。
A.含有缺失值的变量必须被剔除。
B.数据缺失的原因是该数据不存在。
C.数据缺失对于数据建模分析不存在影响。
D.随机缺失类型是指数据的缺失仅仅依赖于其它变量。

下列关于数据错误的表述中,不正确的是( )。
A.数据集中所有错误的数据都可以被发现并予以纠正。
B.数据自身的逻辑规律可以帮助我们发现一些数据错误。
C.类别名称不统一会造成数据错误。
D.文字表述不规范会造成数据错误。

在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为( )。
A.Q1+1.5XIQR,Q3-1.5XIQR ,
B.Q1-1.5XIQR,Q3+1.5XIQR ,
C.Q3-1.5XIQR,Q1+1.5XIQR ,
D.Q3+1.5XIQR,Q1-1.5XIQR ,

下列关于数据缺失的表述中,正确的是( )。
A.缺失值处理的主要手段就是使用最接近的值进行填补。
B.只要数据录入人员避免漏录,数据就不会缺失。
C.在预处理阶段,遇到数据缺失情况可以忽略,不做处理。
D.某个变量的值为0,说明产生了数据缺失。

下列关于数据预处理环节简化数据的表述中,不正确的是( )。
A.过多的数据会导致模型训练效率低下。
B.初学者进行数据分析时需要简化数据,专业数据分析师不需要简化数据。
C.简化数据时,需要保证数据集的信息不过多损失。
D.在样本量增加到一定程度后,信息含量趋近于不变。