《大数据技术原理和应用操作》试卷B卷及答案

《大数据技术原理和应用操作》试卷B卷及答案


2024年1月5日发(作者:)

《大数据技术原理和应用操作》试卷B卷

一、单选题(每题2分,共计20分)

1. 在配置Linux网络参数时,固定IP地址是将路由协议配置为()。

A、static

B、dynamic

C、immutable

D、variable

2.在MapReduce程序中,map()函数接收的数据格式是()。

A、字符串

B、整型

C、Long

D、键值对

3.下列选项中,用于获取Zookeeper所包含的信息的Shell命令是()。

A、ls

B、ls2

C、r

D、get

4.下列选项中,用于上传文件的Shell命令是()。

A、-ls

B、-mv

C、-cp

D、-put

5.下列选项中,哪一项是可以进行重启引导系统()。

A、OK

B、Cancel

C、Reboot

D、Apply

6.下列选项中,最早提出“大数据”这一概念的是()。

A、贝恩

7

B、麦肯锡

C、吉拉德

D、杰弗逊

7.下列选项中,关于HDFS的架构说法正确的是()。

A、HDFS采用的是主备架构

B、HDFS采用的是主从架构

C、HDFS采用的是从备架构

D、以上说法均错误

8.下列选项中,主要用于决定整个MapReduce程序性能高低的阶段是()。

A、MapTask

B、ReduceTask

C、分片、格式化数据源

D、Shuffle

9.下列选项中,Hadoop2.x版本独有的进程是()。

A、JobTracker

B、TaskTracker

C、NodeManager

D、NameNode

10.下列选项中,用于存放部署Hadoop集群服务器的是()。

A、namenode

B、datanode

C、rack

D、metadata

二、多选题(每题2分,共计20分)

1.下列选项中,属于Google提出的处理大数据的技术手段有()。

A、MapReduce

B、MySQL

C、BigTable

D、GFS

2.下列选项中,属于Hadoop版本系列的有()。

7

A、Hadoop4

B、Hadoop2

C、Hadoop1

D、Hadoop3

3.下列选项中,属于Hadoop优势的有()。

A、扩容能力强

B、可靠性

C、低效率

D、高容错性

4.下列哪项可以作为集群的管理?

A、Puppet

B、Pdsh

C、Cloudera Manager

D、Zookeeper

5.下列选项中,关于Hadoop集群说法正确的是()。

A、Hadoop集群包含Worker节点

B、Hadoop集群包含Master节点

C、Hadoop集群包含Slave节点

D、Hadoop集群包含HMaster节点

6.下列说法中,关于crontab表达式说法正确的是()。

A、通过执行crontab表达式可以执行定时任务

B、crontab表达式是由6个参数决定

C、Crontab表达式是由5个参数决定

D、以上说法均正确

7.在Zookeeper选举过程中,一共有四种状态,分别是()。

A、竞选状态

B、随从状态

C、观察状态

D、领导者状态

8.下列说法中,关于使用Java API操作HDFS说法正确的是()。

7

A、需要引入hadoop-common依赖

B、需要引入hadoop-hdfs依赖

C、需要引入hadoop-client依赖

D、以上说法均错误

9.下列选项中,属于Zookeeper集群的角色有()。

A、Follower

B、Worker

C、Observer

D、Leader

10.下列选项中,属于Sqoop指令的参数有()。

A、import

B、output

C、input

D、export

三、判断题(对的打“√”,错的打“×”;每题1分,共10分)

()函数会将map()函数输出的键值对作为输入,把相同key值的value进行汇总,输出新的键值对( )

per的选举机制,实际上是采用算法FastLeaderElection,投票数大于半数则胜出的机制。( )

组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec等。( )

CRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。( )

5.大数据在医疗行业中可以有效控制疾病的发生。( )

6.传统文件系统存储数据时,若文件太大,会导致上传和下载非常耗时。( )

7.伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。( )

8.由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。( )

HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。( )

7

目前不支持并发多用户的写操作,写操作只能在文件末尾追加数据。( )

四、填空题(每题2分,共计20分)

的核心是把数据从数据源通过数据采集器(Source)收集过来,再将收集的数据通过【】汇集到指定的接收器(Sink)。

发行版本分为开源社区版和【】。

3.数据仓库是面向【】、集成、【】和时变的数据集合,用于支持管理决策。

4.通过执行【】命令,查看该节点的Zookeeper角色。

是可以由【】组成,每个服务器机器存储文件系统数据的一部分。

6.如果使用Sqoop工具将MySQL表数据导入Hive数据仓库中,需要在配置文件中配置【】。

7.传统的文件系统对海量数据的处理方式是将数据文件直接存储在【】台服务器上。

8.【】是Zookeeper集群工作的核心,也是事务性请求(写操作)的唯一调度和处理者。

9.马云曾经说过未来的时代将不是IT时代,而是【】时代。

10.启动Hadoop集群,主要是启动其内部包含的【】和YARN集群。

五、简答题(每题6分,共计30分)

1.简述如何检查Namenode是否正常运行。

2.简述event。

3.启动Hive方式有哪些?

4.简述大数据在零售行业应用的具体表现。

5.简述Hive的排序种类及特点。

7

参考答案

单选题(每题2分,共计20分)

2. A

3. D

4. D

5. D

6. C

7. B

8. B

9. D

10. C

11. C

多选题(每题2分,共计20分)

1. A,C,D

2. B,C,D

3. A,B,D

4. A,B,D

5. B,C

6. A,B

7. A,B,C,D

8. A,B,C

9. A,C,D

10. A,D

判断题(每题1分,共计10分)

1. 对

2. 对

3. 对

4. 对

5. 错

6. 对

7

7. 错

8. 对

9. 对

10. 对

填空题(每题2分,共计20分)

1. 【缓冲通道(Channel)】

2. 【商业版】

3. 【主题】【非易实】

4. 【 status】

5. 【成百上千台服务器机器】

6. 【Hive的安装路径】

7. 【一】

8. 【Leader】

9. 【DT】

10. 【HDFS集群】

简答题(每题6分,共计30分)

1.正确答案:如果要检查Namenode是否正常工作,使用Jps命令即可。

2.正确答案:它是Flume内部数据传输的基本单元。一个完整的event包含headers和body,其中headers包含了一些标识信息,而body中就是Flume收集到的数据信息。

3.正确答案:/hive、/hiveserver2

4.正确答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。

5.正确答案: by 全局排序

by 非全局排序

bute by hash散列分区,常和sort by同时使用。即分区又排序,需要设置s的个数

r by 当distribute by 和sort by的字段相同时,等同于cluster by.可以看做特殊的distribute + sort

7


发布者:admin,转转请注明出处:http://www.yc00.com/web/1704469534a1353311.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信