注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
Min-Max缩放可以将数据缩放至任意给定的范围内。
如果输入数据是连续型数据,使用决策树模型时,就必须将连续型变量离散化为定性变量使用。
数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。
过多的低频类别会严重影响建模的效率。
经过标准化处理后,新值体现的是原值在序列中的相对位置。
通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。
“分箱”是客观法数据离散化的方法。
完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。
Python中,使用datetime对象的datetime.now()方法获得当前系统时间
数据预处理是指在对数据进行分析前需要对数据进行的处理工作。
数据中心化是数据标准化的第一个步骤。
在进行变量选择时需要遵循的原则是,剔除的变量必须对数据分析影响较小
异常值的数值可能是真实的值。
包含缺失值的数据集表现出来的不确定性与不包含缺失值的数据集相比显著增大。
逻辑纠错中比较简单的方式是将不合理的值替换为缺失值,这样既保持了变量的性质不变,又避免了错误数据的危害。
如果输入数据是连续型数据,使用决策树模型时,就必须将连续型变量离散化为定性变量使用。
数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。
过多的低频类别会严重影响建模的效率。
经过标准化处理后,新值体现的是原值在序列中的相对位置。
通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。
“分箱”是客观法数据离散化的方法。
完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。
Python中,使用datetime对象的datetime.now()方法获得当前系统时间
数据预处理是指在对数据进行分析前需要对数据进行的处理工作。
数据中心化是数据标准化的第一个步骤。
在进行变量选择时需要遵循的原则是,剔除的变量必须对数据分析影响较小
异常值的数值可能是真实的值。
包含缺失值的数据集表现出来的不确定性与不包含缺失值的数据集相比显著增大。
逻辑纠错中比较简单的方式是将不合理的值替换为缺失值,这样既保持了变量的性质不变,又避免了错误数据的危害。