中国大学mooc数据挖掘试题及答案-k8凯发

k8凯发-凯发官网入口超星尔雅答案正文

作者2023-10-23 00:09:33超星尔雅答案 78 ℃0 评论

第一章绪论

第一章单元测试

1、以下哪种技术对大数据技术的发展起了基础支撑作用？
    a、数据库技术
    b、云计算技术
    c、物联网技术
    d、信息安全技术

2、大数据的特征可以用被总结为4v特征，以下哪个不属于大数据的4v特征
    a、体量大（volume）
    b、速度快（velocity）
    c、种类多（variety）
    d、venture（风险大）

3、微软研究院所提出的科学研究的第四种范式是指：
    a、实验
    b、理论分析
    c、计算
    d、数据密集型科学发现（data intensive science discovery）

4、在大数据时代，我们将有三个重大思维的转变，要相关，________；要全体，不要抽样；要效率，允许不精确。

5、2015年9月，国务院印发《_____________________________》系统部署大数据发展工作，指出了其必要性。

6、以下是关于大数据价值的描述，请填空：大数据可以帮助发现规律，大数据可以帮助________现象，大数据可以帮助预测未来。

作业1

1、请举一个具体的身边的事例，从大数据的5v特点：volume（大量）、velocity（高速）、variety（多样）、value（低价值密度）、veracity（真实性）出发，说明其大数据的应用场景，并且分析该方面的大数据应用能给我们带来什么。

第二章大数据相关技术基础

测验

1、我们通常听某同学讲：“我在阿里云上租了一个服务器”，那么这个服务器是属于云计算的那种应用场景（）
    a、iaas
    b、saas
    c、paas
    d、以上都不是

2、在野外部署有许多传感器，用于实时采集空气质量数据，当数据传回数据中心后，在存储之前需要进行数据的预处理操作，那么如下哪些操作部署于数据预处理所采用的方法（）。
    a、数据变换
    b、数据不一致性检测
    c、缺失数据填充
    d、以上都是

3、数据仓库所存储的数据，通常具有一定特点，下列哪些不属于其特点的（）
    a、经常修改数据项的值
    b、数据大都反应历史
    c、面向特定主题
    d、数据来源多样

4、为了描述数据的统计学特征，我们常用的统计学指标有（）
    a、均值
    b、方差
    c、中位数
    d、分位数

5、大数据的发展需要大规模物理资源、计算资源的支持，以及高效的调度管理，所以从某种程度上讲，云计算的发展促进了大数据的发展和应用。

作业2

1、请分析相对于传统统计学而言，大数据时代在思维方式上的主要变化

作业3

1、大数据技术可以分为哪几种类型？

第三章数据采集与预处理

测试

1、对于一组数据（1，2，2，nan，4），若采用众数法补全缺省值，则nan该补为（）
    a、1
    b、2
    c、4
    d、1.8

2、半结构化数据包括（）
    a、html文档
    b、excel表格
    c、检查身体后得到的体检报告
    d、银行账户上的消费记录

3、大数据的来源途径有许多，如下哪些属于大数据来源（）
    a、传感器设备采集的数据
    b、人在微博上发表的记录
    c、计算机网络运行产生的日志
    d、网络爬虫得到的数据

4、所谓数据的归一化处理，是指把数据变换到[0，1]区间，所以，对于数据1，2，3，4，归一化后得到的值为0.25，0.5，0.75，1

5、数据的平滑操作，其目的在于消除数据波动产生的噪声。

作业

1、z-score的主要目的就是将不同量级的数据统一转化为同一个量级，统一用计算出的z-score值衡量，以保证数据之间的可比性。假设两个班级考试，所采用的试卷不同：a班级的平均分是80，标准差是10，a考了90分；b班的平均分是400，标准差是100，b考了600分。那么利用z-score计算它们的标准分数，看看谁更优秀。

第六章大数据分析

单元测验1

1、已知有一组数据：64、65、67、70、71、75、76、77、78、80、81、85、90 该组数据样本的方差为：
    a、60.4
    b、63.5
    c、70.2
    d、71.5

2、有以下一组数据：78、80、81、85、90、64、65、67、70、71、75、76、77 该组数据样本的中位数为：
    a、75
    b、76
    c、77
    d、65

3、设x、y为向量（1）x=(1,1,2,2) （2）y=(2,2,2,3）求两个向量的pearson相关系数：
    a、0.524
    b、0.561
    c、0.577
    d、0.512

4、两个随机变量 x 与 y 之间正相关，则其相关系数大于0.

5、正面是一组数据的偏态图示，则其偏度(skewness)大于0.

单元测试2-聚类分析

1、dbscan算法属于什么类型的聚类算法
    a、划分型聚类算法
    b、基于密度的聚类算法
    c、层次聚类算法
    d、网格聚类算法

2、以下哪一项属于k-means算法的优点
    a、不必事先知道划分为几个簇
    b、可以处理噪声和离群点
    c、可以发现非凸形状的簇
    d、效率较高

3、聚类分析属于有监督学习类型

4、好的聚类方法需要产生高质量的聚类结果，所形成的簇要有高的内部相异性。

5、聚类质量compactness(紧密性)指标以簇内误差的( )作为度量标准

单元测试3-分类分析

1、决策树算法id3基于（）作为属性选择的度量。
    a、信息增益比
    b、信息增益
    c、基尼指数
    d、数据分散度

2、变量的不确定性越大，信息熵也就越大

3、id3算法在进行某个节点进行划分时，会偏向于取值较多的属性

4、有下列一组符号数据，根据信息熵的定义，求出其信息熵为：( )。(取小数点后3位)。 high normal high high normal normal normal high normal normal

第四章 hadoop架构和大数据存储简介

单元测验：hadoop简介

1、那些不是大数据的特点
    a、数据量在mb，gb级别
    b、可以处理结构化、半结构化数据
    c、采用的数据模型为平面模型
    d、数据的内部关系相对松散

2、大数据的容量不断增长，也就要求有更加复杂的数据管理方法，为此，如下哪项不是大数据存储面临的挑战（）
    a、低成本
    b、易扩展
    c、易于使用
    d、简单的数据模型

3、假设有一个公司，分别在北京和上海都设置了一个存储中心，这两个中心分别主要服务于北方和南方的存储需求，那么这两个存储中心的布局是属于（）分布式存储模式。
    a、集群存储
    b、p2p存储
    c、云存储
    d、以上都是错误的

4、如下不是分布式文件系统的是（）
    a、fat
    b、nfs
    c、gfs
    d、hdfs

5、有关大数据的处理可以分为多种模式，若我们想要对传感器网络实时采集的数据存储前做一定的预处理，那么选择哪种方法更合适（）
    a、离线批处理方式
    b、实时交互方式
    c、流计算
    d、批处理

6、hadoop2.0中最基础的两个组件是（）
    a、hdfs，yarn
    b、yarn，pig
    c、mapreduce，yarn
    d、tez，hdfs

单元测验：hdfs

1、hdfs存储的特点中，错误的是（）
    a、只能有一个namenode
    b、提供了统一的访问接口
    c、实现了数据的冗余存储
    d、分块存储增强了数据访问的并行性

2、利用客户端进行hdfs的数据读取时，有关叙述正确的是（）
    a、客户端需要详细了解hdfs的文件组织结构
    b、在访问前需要了解具体文件是存储在哪个datanode上
    c、读取文件数据时，其读取的数据需来自于一个datanode，以避免数据的不一致性
    d、编程接口提供了隔离性，让用户无需深入了解hdfs便可以进行文件数据读写

3、hdfs的namenode中，存储的有关核心数据包括（）
    a、文件系统树
    b、所有数据备份
    c、文件操作日志
    d、注册表

单元测验：hbase

1、目前被最广泛应用的数据库管理系统是（）
    a、关系型数据库管理系统
    b、网状数据库管理系统
    c、层次数据库管理系统
    d、基于hdfs的hbbase

2、关于hbase的数据模型叙述中，正确的是（）
    a、hbase表中的单元由行key，列族名，列限定符和时间戳共同唯一确定
    b、列限定符合列族名之间是一对一关系
    c、同一表中每一个单元的值都只存在唯一的一个
    d、每一个列都有一个时间戳

3、hbase的访问方式有很多，如下的访问方式中，哪一种是支持直接命令行方式访问（）
    a、native java api
    b、thrift gateway
    c、rest gateway
    d、hbase shell

4、cap理论的cap分别代表（）
    a、一致性
    b、事务性
    c、分区容错性
    d、可用性

5、有关hbase的叙述，正确的是（）
    a、提供了简单的基于key的查询方法
    b、适用于日志信息的存储
    c、适用于用户信息的存储
    d、常用于存储大批量的数据

单元测验：hive

1、有关数据仓库的描述，不符合的是（）
    a、面向主题的，集成的数据集合
    b、主要反映历史数据变化状况的数据
    c、数据常常会随着用户操作产生频繁的增、删、改、查操作
    d、用于支持管理决策的

2、有关hive特性的描述，错误的是（）
    a、目的在于为分布式存储的大数据集提供基于sql的读、写管理
    b、提供分布式存储数据到现有数据的投影
    c、只提供命令行的访问方式
    d、可以支持jdbc驱动供用户连接

3、有关hive命令行接口叙述，错误的是（）
    a、dml包括load,insert, update等操作。
    b、ddl包括create, drop等操作。
    c、hive-ql提供操作用于对hive数据仓库进行查找。
    d、hive不提供对数据的修改操作。

4、有关hive存储模型的叙述，正确的是（）
    a、表中可以包含多个分区
    b、表中可以直接包含若干个桶
    c、分区可以不包含桶
    d、桶可以包含多个分区

5、hive中的元数据，以及所存储数据集都是存储在hdfs系统中。

第七章大数据可视化

单元测试1

1、以下说法错误的是（）
    a、数据集中每个数据项作为单个图元素表示。
    b、数据可视化技术提供多种数据分析和图形化方法。
    c、数据可视化可以帮助决策者更直观的观察和分析数据
    d、多维数据无法进行数据可视化

2、以下不属于数据可视化图形的是（）
    a、约翰斯诺的标点地图
    b、南丁格尔的玫瑰图
    c、普通的世界地图
    d、百度迁徙图

3、力导向图能表是节点之间多对多的关系，是属于（）
    a、文本可视化
    b、网络数据可视化
    c、时空数据可视化
    d、高维数据可视化

4、数据可视化映射的视觉标记是指：______映射为点、线或形状；关系映射为连接和包含。

5、标签云（tag cloud）是属于_____可视化中的一种。

单元测试2

1、以下不属于高维数据可视化类别的是（）
    a、河流图
    b、散点图矩阵
    c、平行坐标图
    d、降维投影图

2、以下哪种可视化工具是来自百度的开源工具？（）
    a、spreadsheets
    b、tableau
    c、bpd
    d、echarts

3、数据可视化是通过_____手段，清晰有效地传达与沟通信息。实现对稀疏又复杂的数据集的深入洞察。

4、（）图矩阵splom展示数据集中各个维度的两两之间的关系

5、数据（）表是excel的交互式报表，可快速合并、计算和排序数据，它还可以设置为动态地改变版面布置。

第八章大数据的应用

单元测试1

1、( )包含有智慧城市和智能交通等的大数据框架。
    a、社会网络大数据
    b、城市大数据
    c、商业大数据
    d、教育大数据

2、基于用户搜索行为、浏览行为、评论历史和个人资料等，进行针对性的产品生产、改进和营销，属于（）
    a、股票市场预测
    b、用户类型识别
    c、市场预测
    d、用户行为预测

3、推荐系统是由（）三部分组成。
    a、收集、分析和推荐
    b、推荐、合成和数据
    c、分析、可视化和结论
    d、收集、合成和分析

4、新闻网一般采用基于用户的（）算法（usercf算法），给目标客户推荐其他有相同或相似兴趣爱好的人关注的新闻，推荐结果有一定的新颖性。

5、根据用户的历史行为推荐相似物品比如电影网、音乐网，更注重个性，通常采用基于（）的协同过滤（itemcf算法）。

单元测试2

1、协同过滤不包含（）。
    a、基于用户的协同过滤
    b、基于物品的协同过滤
    c、基于关联规则的推荐
    d、隐语义模型

2、以下不属于城市大数据特点的是（）。
    a、结构化数据
    b、时空多维性
    c、多尺度多粒度
    d、多元异构

3、（）系统通过用户与信息产品之间的二元关系，利用相似性关系挖掘信息，进行个性化推荐，其本质就是信息过滤。

4、城市大数据的数据主要包括为（）数据和公共服务数据。

5、城市大数据的特点包括：多尺度多精度、时空（ )性、多元异构等。

课程作业

1、同学们已经在课程汇报中选择了一种数据挖掘方法进行了讨论与论文案例分析，请就本方法（或者其他某种数据挖掘方法）在工业界中的应用做一些分析。

期末考试

期末考试客观题

1、数据仓库所存储的数据，通常具有一定特点，下列哪些不属于其特点的（）
    a、经常修改数据项的值
    b、数据大都反应历史
    c、面向特定主题
    d、数据来源多样

2、以下哪种技术对大数据技术的发展起了基础支撑作用？
    a、数据库技术
    b、物联网技术
    c、云计算技术
    d、信息安全技术

3、hadoop2.0中最基础的两个组件是（）
    a、hdfs，yarn
    b、yarn，pig
    c、mapreduce，yarn
    d、tez，hdfs

4、大数据的容量不断增长，要求有更加复杂的数据管理方法，如下哪项不是大数据存储管理面临的挑战（）
    a、降低成本
    b、易于扩展
    c、易于使用
    d、简单的数据模型

5、如下不是分布式文件系统的是（）
    a、fat
    b、nfs
    c、gfs
    d、hdfs

6、有以下一组数据：78、80、81、85、90、64、65、67、70、71、75、76、77 该组数据样本的中位数为：
    a、75
    b、76
    c、77
    d、65

7、k-means算法属于什么类型的聚类算法
    a、基于密度的聚类算法
    b、划分型聚类算法
    c、层次聚类算法
    d、网格聚类算法

8、决策树算法c4.5算法基于（）作为属性选择的度量
    a、信息增益比
    b、信息增益
    c、基尼指数
    d、数据分散度

9、在大数据可视化中，力导向图能表是节点之间多对多的关系，是属于（）
    a、文本可视化
    b、网络数据可视化
    c、时空数据可视化
    d、高维数据可视化

10、推荐系统一般由（）三部分组成。
    a、收集、分析和推荐
    b、推荐、合成和数据
    c、分析、可视化和结论
    d、收集、合成和分析

11、微软研究院所提出的科学研究的第四种范式是指（）。
    a、实验
    b、理论分析
    c、计算
    d、数据密集型科学发现（data intensive science discovery）

12、hdfs存储的特点中，错误的是（）
    a、只能有一个namenode
    b、提供了统一的访问接口
    c、实现了数据的冗余存储
    d、分块存储增强了数据访问的并行性

13、在大数据时代，我们将有三个重大思维的转变，要相关，不要因果；要全体，不要( )；要效率，允许不精确。

14、数据可视化映射的视觉标记是指：数据项映射为点、线或形状；（）映射为连接和包含。

15、新闻网一般采用基于用户的（）算法（usercf算法），给目标客户推荐其他有相同或相似兴趣爱好的人关注的新闻，推荐结果有一定的新颖性。

期末考试主观题

1、本课程讨论了大数据应用场景与数据挖掘算法，请分析数据分析的未来趋势以及这些技术能给社会带来什么。

上一篇：
下一篇：国网浙江省电力有限公司《安规》考试题库-营销部分搜题找答案用什么软件

中国大学mooc数据挖掘试题及答案-k8凯发

k8凯发-凯发官网入口超星尔雅答案 正文

猜你喜欢

k8凯发-凯发官网入口超星尔雅答案正文