注意:此页面搜索的是所有试题
国家开放大学大数据技术概论
下列各项属于非结构化数据的是( )。
A.图像 B.二维数据表 C.HTML文档 D.以上均是
在大数据的处理流程中,( )步骤是将数据转化为图形,以更直观的方式展示和表达。
A.存储与管理 B.可视化 C.采集与预处理 D.分析与挖掘
下列关于异常值的描述中,错误的是()。
A. 可以使用箱线图检测异常值
B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除
C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值
D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力
下列各项关于分类的描述中,错误的是()。
A. 可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件
B. 在进行建模之前就要有明确的分组预测目标
C. k近邻算法是一种简单但强大的分类算法
D. 用来建立分类模型的输入数据称为测试集
假设散点图中的观测点分布较为分散,没有任何规律,说明两个变量之间的关系为()。
A. 完全线性相关 B. 线性相关 C. 非线性相关 D. 不相关
在Hadoop生态系统中,主要负责跨节点存储结构化或非结构化数据,并以日志文件的形式管理数据的组件是( )。
A.HDFS B.MapReduce C.YARN D.Storm
下列各项不属于批处理系统的特点的是( )。
A. 为开发者提供了一个简单、快捷的开发框架
B. 支持各种数据格式的处理
C. 支持数据在不同系统之间进行交换
D. 可以实现实时的分析报告或自动响应
为表示一组数据的分布特征,反映数据分布是否对称时,常用的可视化方法是()。
A.箱线图 B.气泡图 C.折线图 D.散点图
如果要反映某学生在6个学期中每学期平均成绩的变化情况,采用( )可视化方法较为合适。
A.饼图 B.折线图 C.散点图 D.直方图
下列各项属于结构化数据的是( )。
A.图像 B.二维数据表 C.声音 D.文本
在大数据的处理流程中,下列各项中最先进行的是()。
A.存储与管理 B.可视化 C.采集与预处理 D.分析与挖掘
下列关于缺失值的描述中,错误的是()。
A. 缺失值是指数据集中有些变量的一个或多个取值无法获得
B. 数据缺失的现象大量存在
C. 回归插补的方法不会改变数据分布
D. 当缺失数据的记录所占比例在数据集中少于10%时,可以将缺失值直接删除
下列各项关于聚类的描述中,错误的是()。
A. 可以借助聚类方法进行异常检测
B. 在进行建模之前就要有明确的分组预测目标
C. 可以利用聚类分析发现具有相似功能的基因组
D. 根据数据本身的自然结构对数据进行分组
假设散点图中的观测点恰好落在一条直线上,说明两个变量之间的关系为()。
A. 完全线性相关 B. 线性相关 C. 非线性相关 D. 不相关
下列各项属于数据仓库的特点的是()。
A. 数据以主题为导向,提供决策支持
B. 数据源单一
C. 数据质量低
D. 不支持历史数据分析
A.图像 B.二维数据表 C.HTML文档 D.以上均是
在大数据的处理流程中,( )步骤是将数据转化为图形,以更直观的方式展示和表达。
A.存储与管理 B.可视化 C.采集与预处理 D.分析与挖掘
下列关于异常值的描述中,错误的是()。
A. 可以使用箱线图检测异常值
B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除
C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值
D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力
下列各项关于分类的描述中,错误的是()。
A. 可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件
B. 在进行建模之前就要有明确的分组预测目标
C. k近邻算法是一种简单但强大的分类算法
D. 用来建立分类模型的输入数据称为测试集
假设散点图中的观测点分布较为分散,没有任何规律,说明两个变量之间的关系为()。
A. 完全线性相关 B. 线性相关 C. 非线性相关 D. 不相关
在Hadoop生态系统中,主要负责跨节点存储结构化或非结构化数据,并以日志文件的形式管理数据的组件是( )。
A.HDFS B.MapReduce C.YARN D.Storm
下列各项不属于批处理系统的特点的是( )。
A. 为开发者提供了一个简单、快捷的开发框架
B. 支持各种数据格式的处理
C. 支持数据在不同系统之间进行交换
D. 可以实现实时的分析报告或自动响应
为表示一组数据的分布特征,反映数据分布是否对称时,常用的可视化方法是()。
A.箱线图 B.气泡图 C.折线图 D.散点图
如果要反映某学生在6个学期中每学期平均成绩的变化情况,采用( )可视化方法较为合适。
A.饼图 B.折线图 C.散点图 D.直方图
下列各项属于结构化数据的是( )。
A.图像 B.二维数据表 C.声音 D.文本
在大数据的处理流程中,下列各项中最先进行的是()。
A.存储与管理 B.可视化 C.采集与预处理 D.分析与挖掘
下列关于缺失值的描述中,错误的是()。
A. 缺失值是指数据集中有些变量的一个或多个取值无法获得
B. 数据缺失的现象大量存在
C. 回归插补的方法不会改变数据分布
D. 当缺失数据的记录所占比例在数据集中少于10%时,可以将缺失值直接删除
下列各项关于聚类的描述中,错误的是()。
A. 可以借助聚类方法进行异常检测
B. 在进行建模之前就要有明确的分组预测目标
C. 可以利用聚类分析发现具有相似功能的基因组
D. 根据数据本身的自然结构对数据进行分组
假设散点图中的观测点恰好落在一条直线上,说明两个变量之间的关系为()。
A. 完全线性相关 B. 线性相关 C. 非线性相关 D. 不相关
下列各项属于数据仓库的特点的是()。
A. 数据以主题为导向,提供决策支持
B. 数据源单一
C. 数据质量低
D. 不支持历史数据分析