注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
数量归约是指从所有样本中选择一个有代表性的子集,因此也称为样本归约。
将数据离散化后,可以克服连续型变量中隐藏的缺陷,使模型结果更加稳定,得到更加有意义的研究结论。
利用箱线图可以识别出异常值。
请简述数据特征缩放对数据分析的意义
请简述异常值的含义。
简述缺失值填补的思路。
请简述使用相关系数选择变量的思想和步骤。
请简述将变量缩放至区间[-1,1]时,Max-ABS缩放与Min-Max缩放的效果是否相同。
简述数据离散化的操作含义。
简述低频分类数据的特点、形成原因及影响。
简述等宽法的适用情况。
计算car_data数据集中的make变量每一个类别的频数,存储在make_count中:
make_count = car_data["make"].
对boston数据集中的变量LSTAT进行处理,随机生成了10个缺失值:
sample = random.sample( (boston.shape[0]), 10)
boston. [sample, "LSTAT"] = np.nan
对序列B进行中心化,结果保存在centralize_b中:
centralize_b = (B, with_std=False)
对数据集data中的所有变量进行Min-Max缩放,结果保存在data_scale中:
mm_scaler = ()
data_scale = mm_scaler. (data)
将数据离散化后,可以克服连续型变量中隐藏的缺陷,使模型结果更加稳定,得到更加有意义的研究结论。
利用箱线图可以识别出异常值。
请简述数据特征缩放对数据分析的意义
请简述异常值的含义。
简述缺失值填补的思路。
请简述使用相关系数选择变量的思想和步骤。
请简述将变量缩放至区间[-1,1]时,Max-ABS缩放与Min-Max缩放的效果是否相同。
简述数据离散化的操作含义。
简述低频分类数据的特点、形成原因及影响。
简述等宽法的适用情况。
计算car_data数据集中的make变量每一个类别的频数,存储在make_count中:
make_count = car_data["make"].
对boston数据集中的变量LSTAT进行处理,随机生成了10个缺失值:
sample = random.sample( (boston.shape[0]), 10)
boston. [sample, "LSTAT"] = np.nan
对序列B进行中心化,结果保存在centralize_b中:
centralize_b = (B, with_std=False)
对数据集data中的所有变量进行Min-Max缩放,结果保存在data_scale中:
mm_scaler = ()
data_scale = mm_scaler. (data)