第一章 绪论第一章单元测试1、以下哪种技术对大数据技术的发展起了基础支撑作用?
a、数据库技术
b、云计算技术
c、物联网技术
d、信息安全技术
2、大数据的特征可以用被总结为4v特征,以下哪个不属于大数据的4v特征
a、体量大(volume)
b、速度快(velocity)
c、种类多(variety)
d、venture(风险大)
3、微软研究院所提出的科学研究的第四种范式是指:
a、实验
b、理论分析
c、计算
d、数据密集型科学发现(data intensive science discovery)
4、在大数据时代,我们将有三个重大思维的转变,要相关,________;要全体,不要抽样;要效率,允许不精确。
5、2015年9月,国务院印发《_____________________________》系统部署大数据发展工作,指出了其必要性。
6、以下是关于大数据价值的描述,请填空: 大数据可以帮助发现规律,大数据可以帮助________现象,大数据可以帮助预测未来。
作业11、请举有关一个新冠肺炎疫情的例子:从大数据的5v特点:volume(大量)、velocity(高速)、variety(多样)、value(低价值密度)、veracity(真实性)出发,说明其大数据的在这次新冠肺炎疫情中的应用场景,并且分析该方面的大数据应用能给我们带来什么。
第二章 大数据相关技术基础第二章单元测验1、我们通常听某同学讲:“我在阿里云上租了一个服务器”,那么这个服务器是属于云计算的那种应用场景()
a、iaas
b、saas
c、paas
d、以上都不是
2、在野外部署有许多传感器,用于实时采集空气质量数据,当数据传回数据中心后,在存储之前需要进行数据的预处理操作,那么如下哪些操作部署于数据预处理所采用的方法()。
a、数据变换
b、数据不一致性检测
c、缺失数据填充
d、以上都是
3、数据仓库所存储的数据,通常具有一定特点,下列哪些不属于其特点的()
a、经常修改数据项的值
b、数据大都反应历史
c、面向特定主题
d、数据来源多样
4、为了描述数据的统计学特征,我们常用的统计学指标有()
a、均值
b、方差
c、中位数
d、分位数
5、大数据的发展需要大规模物理资源、计算资源的支持,以及高效的调度管理,所以从某种程度上讲,云计算的发展促进了大数据的发展和应用。
作业21、请分析相对于传统统计学而言,大数据时代在思维方式上的主要变化。
作业31、大数据技术可以分为哪几种类型?
第三章 数据采集与预处理第三章单元测试1、对于一组数据(1,2,2,nan,4),若采用众数法补全缺省值,则nan该补为()
a、1
b、2
c、4
d、1.8
2、半结构化数据包括()
a、html文档
b、excel表格
c、检查身体后得到的体检报告
d、银行账户上的消费记录
3、大数据的来源途径有许多,如下哪些属于大数据来源()
a、传感器设备采集的数据
b、人在微博上发表的记录
c、计算机网络运行产生的日志
d、网络爬虫得到的数据
4、所谓数据的归一化处理,是指把数据变换到[0,1]区间,所以,对于数据1,2,3,4,归一化后得到的值为0.25,0.5,0.75,1
5、数据的平滑操作,其目的在于消除数据波动产生的噪声。
作业41、z-score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的z-score值衡量,以保证数据之间的可比性。 假设两个班级考试,所采用的试卷不同:a班级的平均分是80,标准差是10,a考了90分;b班的平均分是400,标准差是100,b考了600分。那么利用z-score计算它们的标准分数,看看谁更优秀。
第四章 hadoop架构和大数据存储简介第四章单元测验1:hadoop简介1、那些不是大数据的特点
a、数据量在mb,gb级别
b、可以处理结构化、半结构化数据
c、采用的数据模型为平面模型
d、数据的内部关系相对松散
2、大数据的容量不断增长,也就要求有更加复杂的数据管理方法,为此,如下哪项不是大数据存储面临的挑战()
a、低成本
b、易扩展
c、易于使用
d、简单的数据模型
3、假设有一个公司,分别在北京和上海都设置了一个存储中心,这两个中心分别主要服务于北方和南方的存储需求,那么这两个存储中心的布局是属于()分布式存储模式。
a、集群存储
b、p2p存储
c、云存储
d、以上都是错误的
4、如下不是分布式文件系统的是()
a、fat
b、nfs
c、gfs
d、hdfs
5、有关大数据的处理可以分为多种模式,若我们想要对传感器网络实时采集的数据存储前做一定的预处理,那么选择哪种方法更合适()
a、离线批处理方式
b、实时交互方式
c、流计算
d、批处理
6、hadoop2.0中最基础的两个组件是()
a、hdfs,yarn
b、yarn,pig
c、mapreduce,yarn
d、tez,hdfs
第四章单元测验2:hdfs1、hdfs存储的特点中,错误的是()
a、只能有一个namenode
b、提供了统一的访问接口
c、实现了数据的冗余存储
d、分块存储增强了数据访问的并行性
2、利用客户端进行hdfs的数据读取时,有关叙述正确的是()
a、客户端需要详细了解hdfs的文件组织结构
b、在访问前需要了解具体文件是存储在哪个datanode上
c、读取文件数据时,其读取的数据需来自于一个datanode,以避免数据的不一致性
d、编程接口提供了隔离性,让用户无需深入了解hdfs便可以进行文件数据读写
3、hdfs的namenode中,存储的有关核心数据包括()
a、文件系统树
b、所有数据备份
c、文件操作日志
d、注册表
第四章单元测验3:hbase1、目前被最广泛应用的数据库管理系统是()
a、关系型数据库管理系统
b、网状数据库管理系统
c、层次数据库管理系统
d、基于hdfs的hbbase
2、关于hbase的数据模型叙述中,正确的是()
a、hbase表中的单元由行key,列族名,列限定符和时间戳共同唯一确定
b、列限定符合列族名之间是一对一关系
c、同一表中每一个单元的值都只存在唯一的一个
d、每一个列都有一个时间戳
3、hbase的访问方式有很多,如下的访问方式中,哪一种是支持直接命令行方式访问()
a、native java api
b、thrift gateway
c、rest gateway
d、hbase shell
4、cap理论的cap分别代表()
a、一致性
b、事务性
c、分区容错性
d、可用性
5、有关hbase的叙述,正确的是()
a、提供了简单的基于key的查询方法
b、适用于日志信息的存储
c、适用于用户信息的存储
d、常用于存储大批量的数据
第四章单元测验4:hive1、有关数据仓库的描述,不符合的是( )
a、面向主题的,集成的数据集合
b、主要反映历史数据变化状况的数据
c、数据常常会随着用户操作产生频繁的增、删、改、查操作
d、用于支持管理决策的
2、有关hive特性的描述,错误的是( )
a、目的在于为分布式存储的大数据集提供基于sql的读、写管理
b、提供分布式存储数据到现有数据的投影
c、只提供命令行的访问方式
d、可以支持jdbc驱动供用户连接
3、有关hive命令行接口叙述,错误的是( )
a、dml包括load,insert, update等操作。
b、ddl包括create, drop等操作。
c、hive-ql提供操作用于对hive数据仓库进行查找。
d、hive不提供对数据的修改操作。
4、有关hive存储模型的叙述,正确的是( )
a、表中可以包含多个分区
b、表中可以直接包含若干个桶
c、分区可以不包含桶
d、桶可以包含多个分区
5、hive中的元数据,以及所存储数据集都是存储在hdfs系统中。
第六章 大数据分析单元测验11、已知有一组数据:64、65、67、70、71、75、76、77、78、80、81、85、90 该组数据样本的方差为:
a、60.4
b、63.5
c、70.2
d、71.5
2、有以下一组数据:78、80、81、85、90、64、65、67、70、71、75、76、77 该组数据样本的中位数为:
a、75
b、76
c、77
d、65
3、设x、y为向量 (1)x=(1,1,2,2) (2)y=(2,2,2,3) 求两个向量的pearson相关系数:
a、0.524
b、0.561
c、0.577
d、0.512
4、两个随机变量 x 与 y 之间正相关,则其相关系数大于0.
5、正面是一组数据的偏态图示,则其偏度(skewness)大于0.
单元测试2-聚类分析1、dbscan算法属于什么类型的聚类算法
a、划分型聚类算法
b、基于密度的聚类算法
c、层次聚类算法
d、网格聚类算法
2、以下哪一项属于k-means算法的优点
a、不必事先知道划分为几个簇
b、可以处理噪声和离群点
c、可以发现非凸形状的簇
d、效率较高
3、聚类分析属于有监督学习类型
4、好的聚类方法需要产生高质量的聚类结果,所形成的簇要有高的内部相异性。
5、聚类质量compactness(紧密性)指标以簇内误差的( )作为度量标准
单元测试3-分类分析1、决策树算法id3基于( )作为属性选择的度量。
a、信息增益比
b、信息增益
c、基尼指数
d、数据分散度
2、变量的不确定性越大,信息熵也就越大
3、id3算法在进行某个节点进行划分时,会偏向于取值较多的属性
4、有下列一组符号数据,根据信息熵的定义,求出其信息熵为:( )。(取小数点后3位)。 high normal high high normal normal normal high normal normal
第七章 大数据可视化单元测试11、以下说法错误的是( )
a、数据集中每个数据项作为单个图元素表示。
b、数据可视化技术提供多种数据分析和图形化方法。
c、数据可视化可以帮助决策者更直观的观察和分析数据
d、多维数据无法进行数据可视化
2、以下不属于数据可视化图形的是( )
a、约翰斯诺的标点地图
b、南丁格尔的玫瑰图
c、普通的世界地图
d、百度迁徙图
3、力导向图能表是节点之间多对多的关系,是属于( )
a、文本可视化
b、网络数据可视化
c、时空数据可视化
d、高维数据可视化
4、数据可视化映射的视觉标记是指:______映射为点、线或形状;关系映射为连接和包含。
5、标签云(tag cloud)是属于_____可视化中的一种。
单元测试21、以下不属于高维数据可视化类别的是( )
a、河流图
b、散点图矩阵
c、平行坐标图
d、降维投影图
2、以下哪种可视化工具是来自百度的开源工具?( )
a、spreadsheets
b、tableau
c、bpd
d、echarts
3、数据可视化是通过_____手段,清晰有效地传达与沟通信息。实现对稀疏又复杂的数据集的深入洞察。
4、( )图矩阵splom展示数据集中各个维度的两两之间的关系
5、数据( )表是excel的交互式报表,可快速合并、计算和排序数据,它还可以设置为动态地改变版面布置。
第八章 大数据的应用单元测试11、( )包含有智慧城市和智能交通等的大数据框架。
a、社会网络大数据
b、城市大数据
c、商业大数据
d、教育大数据
2、基于用户搜索行为、浏览行为、评论历史和个人资料等,进行针对性的产品生产、改进和营销,属于( )
a、股票市场预测
b、用户类型识别
c、市场预测
d、用户行为预测
3、推荐系统是由( )三部分组成。
a、收集、分析和推荐
b、推荐、合成和数据
c、分析、可视化和结论
d、收集、合成和分析
4、新闻网一般采用基于用户的( )算法(usercf算法),给目标客户推荐其他有相同或相似兴趣爱好的人关注的新闻,推荐结果有一定的新颖性。
5、根据用户的历史行为推荐相似物品比如电影网、音乐网,更注重个性,通常采用基于( )的协同过滤(itemcf算法)。
单元测试21、协同过滤不包含( )。
a、基于用户的协同过滤
b、基于物品的协同过滤
c、基于关联规则的推荐
d、隐语义模型
2、以下不属于城市大数据特点的是( )。
a、结构化数据
b、时空多维性
c、多尺度多粒度
d、多元异构
3、( )系统通过用户与信息产品之间的二元关系,利用相似性关系挖掘信息,进行个性化推荐,其本质就是信息过滤。
4、城市大数据的数据主要包括为( )数据和公共服务数据。
5、城市大数据的特点包括:多尺度多精度、时空( )性、多元异构等。
猜你喜欢
- 2023-02-27 01:23
- 2023-02-27 00:51
- 2023-02-27 00:45
- 2023-02-27 00:37
- 2023-02-27 00:31
- 2023-02-26 23:22
- 2023-02-26 23:06
- 2023-02-26 23:04
- 2023-02-26 22:47
- 2023-02-26 22:47