注意:此页面搜索的是所有试题
国家开放大学大数据技术导论复习题
使用基于时间戳的增量数据抽取方式进行数据抽取时,系统通过比较上次抽取时间与时间戳字段的值来决定抽取的数据。()
【A.】√
【B.】 ×

时间戳方式的优点是性能优异,系统设计清晰,数据抽取相对复杂,可以实现数据的递增加载。()
【A.】√
【B.】 ×

数据清洗是数据预处理的重要部分,其主要工作是检查数据的完整性及数据的一致性, 对其中的噪声数据进行平滑,对丢失的数据进行填补,以及对重复的数据进行消除等。()
【A.】√
【B.】 ×

准确性、完整性、一致性和及时性称为数据质量的四要素。()
【A.】√
【B.】 ×

数据清洗的目的是消除脏数据,主要消除异常数据、清除重复数据、保证数据的完整性等,进而提高数据的可利用性。()
【A.】√
【B.】 ×

数据清洗的过程是指通过分析脏数据产生的原因和存在形式,构建数据清洗的模型和算法来完成对脏数据的清除,进而实现将不符合要求的数据转化成满足数据应用要求的数据,为数据分析与建模建立基础。()
【A.】√
【B.】 ×

数据清洗的标准只包含返回率和精确度两个方面。()
【A.】√
【B.】 ×

k-NN近邻缺失数据填充算法是一种简单快速的算法,它利用本身具有完整记录的属性值实现对缺失属性值的估计。()
【A.】√
【B.】 ×

聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象(记录)之间具有较高的相似度,而不同簇中的对象差别不大。()
【A.】√
【B.】 ×

数据转换可将原始数据转换成适合数据分析的形式,如果数据转换处理不当,将严重扭曲数据本身的内涵,改变数据原本的形态。()
【A.】√
【B.】 ×

对数转换是将原始数据的自然对数值作为分析数据,如果原始数据中有零,可以在底数中加上一个小数值。()
【A.】√
【B.】 ×

对数转换适用于泊松分布数据。()
【A.】√
【B.】 ×

平方根转换适用于泊松分布的数据。()
【A.】√
【B.】 ×

对数转换适用于轻度偏态数据。()
【A.】√
【B.】 ×

噪声是指测量数据中的随机错误和偏差,通过数据平滑技术可以除去噪声。()
【A.】√
【B.】 ×