Spark基础(试卷编号111)

Spark基础(试卷编号111)


2024年1月14日发(作者:)

Spark基础(试卷编号111)

1.[单选题]在Spark中,定义一个类,定义正确的是?A)class House(name){def getname = “beijing”}B)class house {name = “nanjing”}C)class House {public var counter:String = “shanghai”}D)class house (var name:String){private def getName = name}答案:D解析:

2.[单选题]在Spark中,collect方法的返回值类型是?A)ArrayB)MapC)SetD)List答案:A解析:

3.[单选题]在Spark中,spark-submit 参数中,以下选项中哪一个是任意的 Spark 配置属性A)=--classB)=--deploy-modeC)=--confD)application-jar答案:C解析:

4.[单选题]MySQL 数据库驱动文件放置于 hive 哪个目录下()A)jarB)libC)binD)sbin答案:B解析:

5.[单选题]下列哪一种命令格式是不正确的()A)get 表 行健 列族B)scan 表 时间戳 起始行健 结束行健C)alter 表 列族D)put 表 行键 列族:列 值答案:B解析:

6.[单选题]调用Zookeeper对象创建的节点,不包括()。A)持久节点B)临时节点C)持久顺序节点D)DataNode节点答案:D解析:

7.[单选题]在Scala 中,定义 Set 的格式是什么A)val set=( 元素 , 元素…)B)val set=[元素 , 元素…]C)val set={ 元素 , 元素…}D)val set=Set( 元素 , 元素…)答案:D解析:

8.[单选题]下列哪些操作可以设置一个监听器Watcher()A)getDataB)getChildrenC)existsD)setData答案:D解析:

9.[单选题]Hive 适合()环境A)Hive 适合用于联机(online)事务处理B)提供实时查询功能C)适合应用在大量不可变数据的批处理作业D)Hive 适合关系型数据环境答案:C解析:

10.[单选题]在 HBase 的组件中,哪一个负责日志记录()A)HRegionB)HFileC)MemStoreD)WAL答案:D解析:

11.[单选题]在Spark中,map( )函数的参数类型是什么?

A)RDDB)函数C)类D)对象答案:B解析:

12.[单选题]HBase 与下列哪个选项属于同一种类型的数据库()A)MongoDBB)MariaDBC)MySQLD)Oracle答案:A解析:

13.[单选题]下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是()A)一个Map函数就是对一部分原始数据进行指定的操作。B)一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。C)Map与Map之间不是相互独立的。D)Reducee与Reduce之间不是相互独立的。答案:A解析:

14.[单选题]在Spark中,Yarn模式是否由Spark客户端直接连接Yarn,是否需要额外构建Spark集群。A)是,是B)是,否C)否,是D)否,否答案:B解析:

15.[单选题]在Spark中,flatMap函数与map函数的区别是?A)前者参数较多B)后者参数较少C)前者可以将一个元素映射为多个D)后者可以将一个元素映射为多个答案:C解析:

16.[单选题]Shufile 阶段中哪一步是可选的?()A)排序

B)分区C)分组D)规约答案:D解析:

17.[单选题]在Spark中,下面输出与其他不一致的是?A)println("Hello World")B)print("Hello Worldn")C)printf("Hello %s", "Worldn")D)val w = "World" ; println("Hello $w")答案:D解析:

18.[单选题]在Scala中,以下选项中哪一个是制一个数组到另一个数组上A)def apply(x:T,xs:T*)B)def concat[T](xss:Array[T]*)C)def copy(src:AnyRef,srcPos:Int,dest:AnyRef,destPos:Int,length:Int)D)def empty[T]答案:C解析:

19.[单选题]客户端连接Zookeeper集群的命令是()。A)get /zkB)delete /zkC))ls /答案:C解析:

20.[单选题]在Spark中,filter( )方法属于什么操作?A)转换操作B)行动操作C)集合操作D)以上都不是答案:A解析:

21.[单选题]在Spark中,BigInt(2).pow(1024) 起什么作用?A)计算2的1024次方B)计算1024的2次方C)计算1024*2

D)以上都不是答案:A解析:

22.[单选题]当客户端需要读取HDFS中存储的文件时,首先向()发起读请求。A)DataNodeB)NameNodeC)YarnD)Zookeeper答案:B解析:

23.[单选题]在Spark中,makeRDD的函数的作用是什么?A)创建RDDB)转换RDDC)调用RDDD)固定RDD答案:A解析:

24.[单选题]在Spark中,不属于Scala7种数值类型的是?A)CharB)IntC)FloatD)LongLong答案:D解析:

25.[单选题]在Spark中,spark-submit 参数中,以下选项中哪一个是是否发布你的驱动到 Worker节点或者作为一个本地客户端A)=--classB)=--deploy-modeC)=--confD)application-jar答案:B解析:

26.[单选题]写入数据到HDFS的Sink组件是()。A)Hive SinkB)HBase SinkC)HDFS SinkD)Hadoop Sink

答案:C解析:

27.[单选题]在Spark中,关于元组 Tuple 说法错误的是?A)元组的可以包含不同类型的元素B)元组是不可变的C)访问元组第一个元素的方式为 pair._1D)元组最多只有2个元素答案:D解析:

28.[单选题]在Spark中,"Hello".reverse(0)起什么作用?A)获取首字符B)获取尾字符C)获取第2个字符D)以上都不是答案:B解析:

29.[单选题]下列关于zookeeper描述正确的是:()A)无论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是一致的B)从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中C)在一个5个节点组成的Zookeeper集群中,如果同时有3台机器宕机,服务不受影响D)、如果客户端连接到Zookeeper集群中的那台机器突然宕机,客户端会自动切换连接到集群其他机器答案:A解析:

30.[单选题]下列描述说法错误的是?A)SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。B)Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。C)VMware Workstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系统。D)SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。答案:D解析:

31.[单选题]Hive表的数据默认存储与数据仓库目录()中。A)/user/hive/warehouseB)/opt/hive/warehouse

C)/opt/softwares/warehouseD)/modules/hive/warehouse答案:A解析:

32.[单选题]在RDD缓存级别中哪个级别CPU时间使用最低?A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_ONLY_DISKD)MEMEORY_ONLY_DISK_SER答案:A解析:

33.[单选题]下列命令中(在 zookeeper 安装文件夹的 bin 目录下执 行),哪项是停止 ZooKeeper的正确命令(C)A))))zkServer、sh start答案:C解析:

34.[单选题]()是Hadoop系统核心组件之一,主要解决海量数据的计算。A)HDFSB)MapReduceC)SparkD)HBase答案:B解析:

35.[单选题]在 Hadoop 配置文件中,以下属于 文件主 要内容的是()A)用于定义系统级别的参数,如 HDFS URL、Hadoop的临时目录等。B)名称节点和数据节点的存放位置、文件副本的个数文件读取权限等。C)配置 ResourceManager,NodeManager 的通信端口,web 监控端口等。D)包括 JobHistory Server 和应用程序参数两部分,如 reduce 任务的默认个数、任务所能够使用内存的默认上下限等。答案:A解析:

36.[单选题]在Spark中,如果Job的某个Stage阶段计算失败,重新计算的默认次数是?A)1B)2

C)3D)4答案:D解析:

37.[单选题]在Spark中,RDD转换操作的最终结果是?A)返回新的RDDB)转换成新的数据类型C)将某数据类型转换成RDDD)以上都不是答案:A解析:

38.[单选题]以下选项哪个是 MapReduce 正确的运行模型()A)Reduce-Map-ShuffleB)Shuffle-Map-ReduceC)Map-Shuffle-ReduceD)Map-Reduce-Shuffle答案:C解析:

39.[单选题]Reduce 阶段不包括以下哪一步?()A)排序B)分区C)分组D)规约答案:B解析:

40.[单选题]HBase在新建表的时候必须指定表名和(),不需要指定列,所有的列在后续添加数据的时候动态添加。A)行B)单元格C)时间戳D)列族答案:D解析:

41.[单选题]在Spark中,parallelize函数的作用是什么?A)创建RDDB)转换RDDC)调用RDD

D)固定RDD答案:A解析:

42.[单选题]在Scala中,以下选项中哪一个是合并数组A)def apply(x:T,xs:T*)B)def concat[T](xss:Array[T]*)C)def copy(src:AnyRef,srcPos:Int,dest:AnyRef,destPos:Int,length:Int)D)def empty[T]答案:B解析:

43.[单选题]在Scala中,以下选项中哪一个是创建指定对象 T的数组A)def apply(x:T,xs:T*)B)def concat[T](xss:Array[T]*)C)def copy(src:AnyRef,srcPos:Int,dest:AnyRef,destPos:Int,length:Int)D)def empty[T]答案:A解析:

44.[单选题]在Spark中,关于和Scala进行交互的基本方式REPL说法错误的是?A)R 读取(read)B)E 求值(evaluate)C)P 解析(Parse)D)L 循环(Loop)答案:C解析:

45.[单选题]以下选项中,哪种类型间的转换是被Hive查询语言所支持的()A)Double-NumberB)BigInt-DoubleC)Int-BigIntD)String--Double答案:D解析:

46.[单选题]在Spark中,函数def swap[S,T](tup: (S,T))={ tup match{ case (a,b) => (b,a) }}的作用是?A)完成2个数的交换B)完成2个数的相加C)完成2个数的相乘D)以上都不是

答案:A解析:

47.[单选题]在Scala中如何获取字符串“Hello”的首字符和尾字符?A)"Hello"(0),"Hello"(5)B)"Hello".take(1),"Hello".reverse(0)C)"Hello"(1),"Hello"(5)D)"Hello".take(0), "Hello".takeRight(1)答案:B解析:

48.[单选题]在Spark中,类和单例对象间的差别是?A)单例对象不可以定义方法,而类可以B)单例对象不可以带参数,而类可以C)单例对象不可以定义私有属性,而类可以D)单例对象不可以继承,而类可以答案:B解析:

49.[单选题]Hive是建立在()之上的一个数据仓库A)HDFSB)MapReduceC)HadoopD)HBase答案:C解析:

50.[单选题]在Spark中,RDD执行任务执行失败时,重新计算的默认次数是?A)1B)2C)3D)4答案:D解析:

51.[单选题]Sqoop 将导入或导出命令翻译成什么程序来实现导入导 出()A)SparkB)StormC)MapReduceD)Tez答案:C解析:

52.[单选题]在Spark中,first( )方法属于什么操作?A)转换操作B)行动操作C)集合操作D)以上都不是答案:B解析:

53.[单选题]()是一个分布式的基于发布/订阅模式的消息队列。A)FlumeB)KafkaC)ZookeeperD)Hive答案:B解析:

54.[单选题]在 Scala 中,什么元组的最简单形式A)对偶B)集合C)数组D)枚举答案:A解析:

55.[单选题]在Spark中,Mesos模式是否由Spark 客户端直接连接 Mesos,是否需要额外构建 Spark集群A)是,是B)是,否C)否,是D)否,否答案:B解析:

56.[单选题]在Kafka中使用()命令来创建生产者。A))))kafka- 答案:A解析:

57.[单选题]Hadoop2.x版本中的数据块大小默认是多少?A)64MB)128MC)256MD)512M答案:B解析:

58.[单选题]在Spark中,Scala Map 的常用方法中,以下选项中哪一个是返回所有的 KeyA)def isEmptyB)defkeysC)defremoveD)defsum答案:B解析:

59.[单选题]在Spark中,以下Scala变量的定义不正确的是哪项?A)val words:String=“Hello World”B)val number = 12C)var number:String = NoneD)var apple:Double = 2答案:C解析:

60.[单选题]创建一个HDFS客户端对象时,Configuration实例会自动加载HDFS的配置文件(),从中获取Hadoop集群的配置信息。A))))答案:D解析:

61.[单选题]在Scala List 的常用方法中,哪个是为列表预添加元素A)def +:(elem: A)B)def ::(x: A)C)def :::(prefix: List[A])D)def :+(elem: A)答案:A解析:

62.[单选题]在Spark中,高阶函数是指?

A)在程序中应该首先被定义的函数B)将函数作为参数,并返回结果为函数的函数C)函数参数为函数或返回结果为函数的函数D)执行时间长的函数答案:C解析:

63.[单选题]在Spark中,以下哪种不属于scala的特性?A)命令式编程B)函数式编程C)静态类型D)不可扩展性答案:D解析:

64.[单选题]Sqoop 是 Hadoop 和关系数据库服务器之间传送数据的工具,下列哪种数据库是不支持使用 Sqoop 直接进行数据 传送()A)PostgresB)OracleC)MySQLD)Redis答案:D解析:

65.[单选题]在Spark中,reduce方法有什么样的功能?A)减少计算开销B)减少计算时间C)返回第一元素D)聚集所有元素答案:D解析:

66.[单选题]在Spark中,Spark 项目采用什么语言编写?A)JavaB)htmlC)C#D)Scala答案:D解析:

67.[单选题]在Scala中,以下选项中哪一个是返回长度为 0 的数组A)def apply(x:T,xs:T*)

B)def concat[T](xss:Array[T]*)C)def copy(src:AnyRef,srcPos:Int,dest:AnyRef,destPos:Int,length:Int)D)def empty[T]答案:D解析:

68.[单选题]在读取文件过程变成RDD过程中,元素是指文件的什么?A)整个文件内容B)文件的一行C)文件的一段D)文件中特定符号答案:B解析:

69.[单选题]下列描述中,哪项不属于 Sqoop 的缺点()A)无法控制任务的并发度B)格式紧耦合C)安全机制不够完善D)connector 必须符合 JDBC 模型答案:A解析:

70.[单选题]在Spark中,关于数组的常用算法,下列说法错误的是?A)Array(1,7,2,9).sum // 等于 19B)Array(1,7,2,9).sorted // 等于 Array(9,7,2,1)C)Array("one","two","three").max // 等于 "two"D)Array("one","two","three").mkString("-") // 等于 "one-two-three"答案:B解析:

71.[单选题]()是用来解决海量大数据文件存储问题的,是目前应用最广泛的分布式文件系统。A)HDFSB)HBaseC)HIveD)Kafka答案:A解析:

72.[单选题]如果一个split文件中有3行内容,则MapReduce框架将为其分配一个任务进程MapTask,MapTask调用()次map函数。A)1B)2

C)3D)4答案:C解析:

73.[单选题]下列语句描述错误的是()A)可以通过CLI方式、Java API方式调用SqoopB)Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。C)Sqoop是独立的数据迁移工具,可以在任何系统上执行。D)如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhost或127.0.0.1。答案:C解析:

74.[单选题]在Spark中,以下单例对象,定义错误的是?A)object A{var str = “”}B)object A(str:String){}C)object A{def str = “”}D)object A{val str = “”}答案:B解析:

75.[单选题]在Scala中,方法的返回值类型是否可以不写A)必须写B)不写C)可以写,也可以不写D)所有答案都不正确答案:C解析:

76.[单选题]Hive查询语言和SQL的一个不同之处在于()操作A)Group byB)JoinC)PartitionD)Union答案:C解析:

77.[单选题]查看 HDFS 的报告命令是()A)bin/hdfs dfsadmin -reportB)bin/hdfs -reportC)bin/hdfs deadmin -reportD)bin/hdfs dfs -report

答案:A解析:

78.[单选题]在Spark中,对于函数def getGoodsPrice(goods:String) = {val prices =Map(“book” -> 5, “pen” -> 2, “sticker” -> 1)lse(goods, 0)}结果说法错误的是?A)getGoodsPrice("book") // 等于 5B)getGoodsPrice("pen") // 等于 2C)getGoodsPrice("sticker") // 等于 1D)getGoodsPrice("sock") // 等于 “sock”答案:D解析:

79.[单选题]在Spark中,Java:for(int i=10;i>=0;i-)n(i)在scala中怎么表示A)for(iB)for(iC)for(iD)for(i答案:B解析:

80.[单选题]MapReduce自定义排序规则需要重写下列那项方法()A)readFields()B)compareTo()C)map()D)reduce()答案:B解析:

81.[单选题]MapReduce 中哪一种文件输入格式可以自动切割并合并小文件?()A)NLinelmputFormatB)TextInputFormatC)CombineFileInputFormatD)KeyValueTextInputFormat答案:C解析:

82.[单选题]HDFS默认备份数量?A)0B)1C)2

D)3答案:D解析:

83.[单选题]在Spark中,"Hello".take(1) 起什么作用?A)获取首字符B)获取尾字符C)获取第2个字符D)以上都不是答案:A解析:

84.[单选题]在Spark中,spark-submit 参数中,以下选项中哪一个是打包好的应用 jar,包含依赖A)=--classB)=--deploy-modeC)=--confD)application-jar答案:D解析:

85.[单选题]idea中查看类的结构的快捷键是()。A)ctrl+0B)Shift+EnterC)Ctrl+DD)Shift+Enter答案:A解析:

86.[单选题]在Spark中,如果需要使用scala库中的sqrt函数,如sqrt(6),下列引用包的方式错误的是?A)import ._B)import sqrtC)import math._D)import 答案:B解析:

87.[单选题]在Spark中,能缓存RDD的方法有?A)map()B)filter()C)persist()D)push()

答案:C解析:

88.[单选题]按粒度大小的顺序,Hive数据被分为:数据库、数据表、()、桶?A)元祖B)栏C)分区D)行答案:C解析:

89.[单选题]在Scala中,使用什么关键词声明变量A)objectB)varC)StringD)varchar答案:B解析:

90.[单选题]在 hadoop 配置中 作用是( )A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置 JobHistory Server 和应用程序参数D)配置 ResourceManager,NodeManager 的通信端口答案:D解析:

91.[单选题]在Spark中,当缓存丢失时,RDD如何处理?A)全部数据重头计算B)从不计算丢失数据C)计算一部分丢失数据D)计算全部丢失数据答案:D解析:

92.[单选题]关于Secondary NameNode哪项是正确?A)它是 NameNode 的热B)它对内存没有要求C)它的目的是帮助 NameNode合并编辑日志,减少NameNode启动时间D)SecondaryNameNode 应与NameNode部署到一个节点答案:C解析:

93.[单选题]()使用目录节点树的方式(类似文件系统)存储数据,主要用途是维护和监听所存数据的状态变化,以实现对集群的管理。A)ZookeeperB)HBaseC)HiveD)Sqoop答案:A解析:

94.[单选题]在RDD缓存级别中哪个不是在内存中?A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_ONLY_DISKD)DISK_ONLY答案:D解析:

95.[单选题]在Spark中,对于表达式"New York".partition(_.isUpper)返回结果正确的是?A)("New", "York")B)("NY", "ew ork")C)("er ork", "NY")D)("New York", "NY")答案:B解析:

96.[单选题]Hive最重视的性能是可测量性、延展性、()和对于输入格式的宽松匹配性A)较低恢复性B)容错性C)快速查询D)可处理大量数据答案:B解析:

97.[单选题]在Spark中,Scala Set 的常用方法中,以下选项中哪一个是为集合添加新元素,并创建一个新的集合,除非元素已存在A)def &(that: Set[A])B)def &~(that: Set[A])C)def +(elem: A)D)def -(elem: A)答案:C解析:

98.[单选题]在Hadoop2.x版本下,HDFS中的文件总是按照默认大小()被切分成不同的块,且备份3份。A)256MB)128MC)512MD)1024M答案:B解析:

99.[单选题]在Spark中,下列哪一个方法有折叠的功能?A)foldB)takeOrderedC)takeSampleD)take答案:A解析:

100.[单选题]在Spark迭代中处理效率高的原因在于?A)执行代码较少B)编程语言不同C)高并发处理D)读写操作基于内存答案:D解析:

101.[单选题]下列哪些不是 ZooKeeper 的特点()A)顺序一致性B)原子性C)多样系统映像D)可靠性答案:C解析:

102.[单选题]下列哪些不是 HBase 的特点()A)高可靠性B)高性能C)面向列D)紧密性答案:D解析:

103.[单选题]在Spark中,Spark Local 模式是运行在几台计算机上的模式?A)1B)2C)3D)4答案:A解析:

104.[单选题]在Spark中,以下哪种说法是正确的?A)数组可以包括不同类型的元素B)数组是不可变的C)数组最多不可以超过50个元素D)数组最多不可以超过22个元素答案:A解析:

105.[单选题]在Scala中,使用什么关键词定义方法A)defB)varC)functionD)String答案:A解析:

106.[单选题]在 ZooKeeper 中有三种角色,下列选项中不属于 ZooKeeper 中的角色()A)ObserverB)LeaderC)ObeyerD)Follower答案:C解析:

107.[单选题]在Spark中,如下代码执行结果是?def someCurring(y: Int):(Int) => Int = {defs(y:Int) = 2*ys}val result = someCurring(4)(3)A)6B)4C)8D)9答案:A解析:

108.[单选题]在Spark中,使用collectAsMap( )时如果key对应多个value,会如何处理?

A)保留第一个valueB)保留最后一个valueC)保留所有value的值D)保留所有value的值构成的集合答案:B解析:

109.[单选题]Sqoop是一种用于在Hadoop和()之间传输数据的工具。A)HiveB)OracleC)关系型数据库D)MySQL答案:C解析:

110.[单选题]Centos 中修改文件或目录的访问权限( )命令A)chownB)passwdC)chmodD)clear答案:C解析:

111.[单选题]在Spark中,可以正确匹配" 12340 "的正则表达式是?A)"s+[0-9]+s+".rB)""s+[0-4]+s+".rC)"""s+d+s+""".rD)以上均不正确答案:C解析:

112.[单选题]大数据的分布式计算使用下面哪项技术?()A)HDFSB)MapReduceC)NutchD)Hive答案:A解析:

113.[单选题]以下哪个不是 HDFS 的进程()A)SecondaryNodeB)NameNode

C)ResourceManagerD)DataNode答案:C解析:

114.[单选题]关于 Flume 的三大组件以下说法正确的是()。A)channel 可以和任意数量的 source 和 sink 链接。B)channel 只能链接单一的 source 和 sink。C)sink 在三大组件之间起着桥梁的作用。D)sink 从 channel 消费数据并将其传递给目标地,目标 地只能是 hdfs。答案:A解析:

115.[单选题]大数据平台 Hadoop 的组件中,提供分布式协作服务的 组件是()A)HBaseB)ZooKeeperC)SqoopD)Hive答案:B解析:

116.[单选题]在Scala List 的常用方法中,哪个是在列表开头添加指定列表的元素A)def +:(elem: A)B)def ::(x: A)C)def :::(prefix: List[A])D)def :+(elem: A)答案:C解析:

117.[单选题]在Spark中,下面哪一个是Spark的最基本的数据抽象?A)PDDB)PDFC)RDDD)RDF答案:C解析:

118.[单选题]以下选项中,哪个程序负责HDFS数据存储。A)NameNodeB)DataNodeC)Secondary NameNodeD)ResourceManager

答案:B解析:

119.[单选题]将关系型数据库中的数据导入到Hadoop平台的工具是()A)importB)exportC)overwriteD)drop答案:A解析:

120.[单选题]典型的 NoSQL 数据库是( )A)HiveB)MySQLC)HbaseD)Oracle答案:C解析:

121.[单选题]在Spark中,spark-submit 参数中,以下选项中哪一个是应用程序的启动类A)=--classB)=--deploy-modeC)=--confD)application-jar答案:A解析:

122.[单选题]在HDFS文件系统根目录下创建一个名为mydir的文件夹的命令是()。A)(new Path(“hdfs:/mydir”))B)(new Path(“hdfs:/mydir”))C)(“hdfs:/mydir”)D)(new Path(“hdfs:/mydir”))答案:D解析:

123.[单选题]MapReduce适用于()A)任意应用程序B)任意可以在Windows Server 2008上的应用程序C)可以串行处理的应用程序D)可以并行处理的应用程序答案:D解析:

124.[单选题]Combiner 不适合哪一种操作?()A)最大值B)求和C)平均值D)计数答案:C解析:

125.[单选题]在 MapReduce 中,如果要编写自己的数据类型,需要实现哪个接口?()A)WritableB)NullWritableC)IntWritableD)Text答案:A解析:

126.[单选题]Hadoop 2.7.1下,以下哪一项是 DataNode 的职责?()A)管理文件系统命名空间B)根据客户端的请求执行读写操作C)存储元数据D)定期对 NameNode 中的内存元数据进行更新和备份答案:B解析:

127.[单选题]在Spark中,定义类 Class Person(private val name: String){},以下说法正确是A)name是对象私有字段B)name是类私有字段,有私有的getter方法C)name是类公有字段,有公有的getter和setter方法D)name是类私有字段,可以在类内部被改变答案:B解析:

128.[单选题]下列选项中那些是Hadoop2.x版本独有的进程()A)JobTrackerB)TaskTrackerC)NodeManagerD)NameNode答案:C解析:

129.[单选题]下面哪项是Hadoop的作者?A)Martin FowlerB)Doug cuttingC)Mark Elliot ZuckerbergD)Kent Beck答案:B解析:

130.[单选题]在Spark中,var myVar : String = "Foo"其中myVar是什么类型?A)字符序列B)LongC)IntD)Short答案:A解析:

131.[单选题]在读取文件中,如果读取文件夹,被看成RDD的是什么?A)每一个文件B)子文件夹C)整个文件夹D)看情况而定答案:C解析:

132.[单选题]在Spark中,列表的head操作起什么作用?A)返回列表第一个元素B)返回一个列表,包含除了第一元素之外的其他元素C)在列表为空时返回trueD)以上都不是答案:A解析:

133.[单选题]Zookeeper启动时会最多监听几个端口(B)A)1B)2C)3D)4答案:B解析:

134.[单选题]在Spark中,类定义如下abstract class Element{def contents:Array[String]},描述不正确的是?

A)Element是一个抽象类B)Element不能实例化C)Contents成员定义错误,没有初始化D)contents方法是类Element的抽象成员答案:C解析:

135.[单选题]在Spark中,count( )方法属于什么操作?A)转换操作B)行动操作C)集合操作D)以上都不是答案:B解析:

136.[单选题]在Spark中,对于Scala中混入了特质的对象,关于其在构造时构造器执行顺序的描述错误的是A)首先调用超类的构造器B)特质构造器在超类构造器之后、类构造器之前执行。所有特质构造完毕,子类被构造C)特质由右到左被构造。如果多个特质共有一个父特质,而那个父特质已经被构造,则不会再次构造。D)每个特质中,父特质先被构造答案:C解析:

137.[单选题]()可以为远程客户端提供执行Hive查询服务。A)Metastore ServerB)HiveServer2C)Beeline CLID)MySQL答案:B解析:

138.[单选题]以下()文件中主要用来配置 ResourceManager, NodeManager 的通信端口,web 监控端口等。A))))答案:D解析:

139.[单选题]下列选项描述错误的是?()A)Hadoop HA即集群中包含Secondary NameNode作为备份节点存在。B)ResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作C)NodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况以及接收并处理来自ApplicationMaster的启动停止容器(Container)的各种请求。D)初次启动Hadoop HA集群时,需要将格式化文件系统后的目录拷贝至另外一台NameNode节点上。答案:A解析:

140.[单选题]Flume中最小的独立运行单位是()。A)SourceB)AgentC)ChannelD)Sink答案:B解析:

141.[单选题]在Scala List 的常用方法中,哪个是在末尾添加元素A)def +:(elem: A)B)def ::(x: A)C)def :::(prefix: List[A])D)def :+(elem: A)答案:D解析:

142.[单选题]在Spark中,关于主构造器,以下说法错误的是?A)主构造器在每个类都可以定义多个B)主构造器的参数可以直接放在类名后C)主构造器的会执行类定义中的所有语句D)主构造器中可以使用默认参数答案:A解析:

143.[单选题]下列哪项通常是集群的最主要的性能瓶颈?A)CPUB)网络C)磁盘D)内存答案:C解析:

144.[单选题]在Scala List 的常用方法中,哪个是在列表开头添加元素

A)def +:(elem: A)B)def ::(x: A)C)def :::(prefix: List[A])D)def :+(elem: A)答案:B解析:

145.[多选题]在Spark中,Scala 特性有哪些?【选三项】A)函数式编程B)面向对象特性C)静态类型D)动态类型答案:ABC解析:

146.[多选题]在Spark中,创建RDD的方式大概有哪些?【选三项】A)通过集合创建RDDB)通过RDD类创建RDDC)通过外部存储创建RDDD)通过其他RDD创建新RDD答案:ACD解析:

147.[多选题]在Spark中,如果需要使用scala库中的sqrt函数,如sqrt(2),下列引用包的方式正确的是?【选三项】A)import ._B)import sqrtC)import math._D)import 答案:ACD解析:

148.[多选题]在Spark中,Standalone 模式是由 哪两部分 构成的 Spark 集群【选两项】A)MasterB)WorkerC)SlaveD)leader答案:AC解析:

149.[多选题]下列选项参数是Sqoop指令的是?()A)import

B)outputC)inputD)export答案:AD解析:

150.[多选题]在Spark中,下列RDD缓存级别中哪些CPU时间较高?【选两项】A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_ONLY_DISKD)MEMEORY_ONLY_DISK_SER答案:BD解析:

151.[多选题]在Spark中,scala语言中一个函数可以定义在?【选三项】A)构造函数里B)class内C)object内D)object外答案:ABC解析:

152.[多选题]在Spark中,以下哪几项是Spark的子项目?【选三项】A)FlumeB)Spark StreamingC)GraphXD)Spark MLlib答案:BCD解析:

153.[多选题]在Spark中,关于函数 def sumSquare(args:Int*)={ var r = 0 for(argA)sumSquare(1,2,3) = 14B)sumSquare(2,4) = 16C)sumSquare(6) = 36D)sumSquare(1,1,2,3) = 15答案:ACD解析:

154.[多选题]在Spark中,以下选项哪些是Spark的运行模式?【选三项】A)Local 模式B)Standalone 模式C)Master模式

D)Mesos模式答案:ABD解析:

155.[多选题]下面说法选项错误的是()A)在一个Agent中,同一个source可以有多个channelB)在一个Agent中,同一个sink可以有多个channelC)在一个Agent中,同一个source只能多1个channelD)在一个Agent中,同一个sink只能有1个channel答案:AD解析:

156.[多选题]在RDD缓存级别中哪些有部分需要磁盘上?【选两项】A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_ONLY_DISKD)MEMEORY_ONLY_DISK_SER答案:CD解析:

157.[多选题]在Spark中,scala使用哪些修饰符?【选两项】A)publicB)scalaC)privateD)bool答案:AC解析:

158.[多选题]在Spark中,Spark和MapReduce在迭代处理流程中不同的是?【选三项】A)第一次迭代中读取数据的位置B)第一次迭代中写入数据的位置C)非第一次迭代中读取数据的位置D)非第一次迭代中写入数据的位置答案:BCD解析:

159.[多选题]在Spark中,以下函数中不是行动操作的函数有哪些?【选三项】A)sortByB)unionC)subtractD)以上都是答案:ABC

解析:

160.[多选题]在Spark中,Spark 适用于各种各样分布式平台的场景,包括哪些?【选三项】A)批处理B)迭代算法C)交互式更新D)流处理答案:ABD解析:

161.[多选题]在Spark中,对数据的操作包含哪些?【选三项】A)创建RDDB)转换已有RDDC)调用RDDD)固定RDD答案:ABC解析:

162.[多选题]在Spark中,下列哪些是面向对象技术的特征?【选三项】A)封装B)继承C)多态D)分布性答案:ABC解析:

163.[多选题]配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?()A))profileC))ifcfg-eth0答案:AC解析:

164.[多选题]在Spark中,Spark 客户端有 哪两种模式【选两项】A)yarn-clientB)yarn-clusterC)yarn-serverD)client答案:AB解析:

165.[多选题]在Spark中,RDD具有数据流模型的特点有哪些?【选三项】A)自动容错B)位置感知性调度C)不可终止性D)可伸缩性答案:ABD解析:

166.[多选题]在Spark中,执行器主要责任有哪些?【选两项】A)负责运行组成 Spark应用的任务,并将结果返回给驱动器进程B)通过自身的块管理器(Block Manager)为用户程序中要求缓存的RDD提供内存式存储C)把用户程序转为作业(Job)D)UI展示应用运行状况答案:AB解析:

167.[多选题]在Spark中,下面的函数中有哪些是转换操作?【选三项】A)cartesianB)countC)reduceByKeyD)groupByKey答案:ACD解析:

168.[多选题]在Spark中,从物理部署层面来看,Spark 主要分为哪两个节点?【选两项】A)MasterB)WorkerC)leaderD)Slave答案:AB解析:

169.[多选题]在Spark中,驱动器主要责任有哪些?【选三项】A)把用户程序转为作业(Job)B)跟踪Executor的运行状况C)为执行器节点进行IO操作D)UI展示应用运行状况答案:ABD解析:

170.[多选题]在Spark中,关于函数def getPageNum(file:String) = { var bookMap =Map("Chinese" -> 164,"Math" -> 180,"English" -> 150,"Geography" -> 120)

lse(file,0) },执行错误的是?【选两项】A)getPageNum(“Math”)=180B)getPageNum(“Math”)=164C)getPageNum(“Physics”)=164D)getPageNum(“Geography”)=120答案:BC解析:

171.[多选题]在Spark中,RDD可以包含哪些编程语言的类型对象?【选三项】A)JavaB)CC)ScalaD)Python答案:ACD解析:

172.[多选题]在Spark中,以下哪几项是Spark Core的基本功能模块?【选三项】A)任务调度B)I/O处理C)错误恢复D)存储系统交互答案:ACD解析:

173.[多选题]在Spark中,RDD的特点有哪些?【选三项】A)闭合的B)不可变的C)可分区的D)可并行的答案:BCD解析:

174.[多选题]在Spark中,下列表达式是过程的是?【选三项】A)def foo(num:Int) = {println(num * 2)}B)def foo() {println("Hello World")}C)def foo(num:Int) = {num * 2}D)def foo():Unit = {println("Hello World")}答案:ABD解析:

175.[多选题]在Spark中,有关柯里化描述正确的是?【选三项】A)柯里化是指将原来接受两个参数的函数变成新的接受一个参数的函数的过程。新的函数返回一个

以原有第二个参数作为参数的函数B)有时,使用柯里化将某个函数参数单拎出来,可以提供更多用于类型推断的信息C)将函数def add(x: Int, y: Int) = x + y,变形为def add(x: Int)(y: Int) = x + y的过程是一个柯里化过程D)柯里化是多参数列表函数的特例答案:ABC解析:

176.[多选题]在Spark中,RDD的主要属性有?【选三项】A)分区B)分区函数C)计算分区函数D)分表答案:ABC解析:

177.[多选题]在Spark中,下列哪些操作会将pair RDD的数据量减少一半【选两项】A))Key()C)ues(x=>x+1)D)答案:AD解析:

178.[判断题]Hive的元数据存储在关系数据库中。A)正确B)错误答案:A解析:

179.[判断题]在Map阶段的分组部分,相同key的若干value会被放入一个组里。A)正确B)错误答案:A解析:

180.[判断题]Hive是一款独立的数据仓库工具,因此在启动前无需启动任何服务。A)正确B)错误答案:B解析:

181.[判断题]配置Hadoop集群只需要修改core-site、xml配置文件就可以。A)正确B)错误答案:B解析:

182.[判断题]MapReduce运行本地模式不需要启动Hadoop集群A)正确B)错误答案:A解析:

183.[判断题]Hadoop HA是两台NameNode同时执行NameNode角色的工作。A)正确B)错误答案:B解析:

184.[判断题]Secondary NameNode是NameNode的备份,可以有效解决Hadoop集群单点故障问题。A)正确B)错误答案:B解析:

185.[判断题]一个Sink可以对应多个Channel。A)正确B)错误答案:B解析:

186.[判断题]NameNode本地磁盘保存了数据块的位置信息。A)正确B)错误答案:B解析:

187.[判断题]MapTask进程的工作过程经历了输入阶段和Map阶段这2个部分。A)正确B)错误答案:A解析:

188.[判断题]NameNode负责管理元数据,客户端每次读写请求时,都会从磁盘中读取或写入元数据信息并反馈给客户端。A)正确B)错误答案:A解析:

189.[判断题]在搭建Hadoop集群时,需要为集群安装JDK环境变量。A)正确B)错误答案:A解析:

190.[判断题]在MapReduce程序中,必须开发Map和Reduce相应的业务代码才能执行程序。A)正确B)错误答案:B解析:

191.[判断题]在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。A)正确B)错误答案:A解析:

192.[判断题]Flume不提供数据存储功能而是侧重于数据采集和传输。A)正确B)错误答案:A解析:

193.[判断题]Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。A)正确B)错误答案:A解析:

194.[判断题]Sqoop 导入指的是将数据从 HDFS 迁移到关系型数据库。A)正确B)错误

答案:B解析:

195.[判断题]Hive基于Hadoop,安装Hive之前先安装好Hadoop。A)正确B)错误答案:A解析:

196.[判断题]Kafka适用于实时性要求不高的场景。A)正确B)错误答案:B解析:

197.[判断题]Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。A)正确B)错误答案:B解析:

198.[判断题]使用get命令可以将HDFS文件系统下载到本地。A)正确B)错误答案:A解析:

199.[判断题]Zookeeper集群宕机数超过集群数一半,则Zookeeper服务失效。A)正确B)错误答案:A解析:

200.[判断题]Cloudera CDH是需要付费使用的。A)正确B)错误答案:B解析:


发布者:admin,转转请注明出处:http://www.yc00.com/web/1705171521a1396979.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信