大数据平台搭建期末复习题(选择)0112|江阴雨辰互联

2023年6月29日发(作者：)

⼤数据平台搭建期末复习题（选择）0112下⾯哪个程序负责 HDFS 数据存储。secondaryNameNodeNameNodeJobtrackerDatanode （答案）HDFS是基于流数据模式访问和处理的超⼤⽂件的需求⽽开发的，适合读写的任务是？多次写⼊，少次读⼀次写⼊，少次读⼀次写⼊，多次读（答案）多次写⼊，多次读以下哪⼀项属于⾮结构化数据。财务系统数据⽇志数据视频监控数据（答案）企业ERP数据下列关于MapReduce不正确的是？MR只能⽤Java语⾔编写（答案）MR是⼀种计算框架MR隐藏了并⾏计算的细节，便于使⽤MR来源于Google的学术论⽂HDFS 中的 block 默认保存⼏个备份。不确定123 （答案）下列哪项通常是集群的最主要瓶颈。磁盘IO （答案）CPU⽹络内存Hadoop作者是下列哪⼀位？Grace HopperMartin FowlerKent BeckDoug cutting （答案）以下哪⼀项不属于Hadoop可以运⾏的模式。分布式模式伪分布式模式互联模式（答案）单机模式⼤数据的特点不包括下⾯哪⼀项？多结构化数据价值密度⾼（答案）增长速度快巨⼤的数据量HDFS2.x 默认 Block Size⼤⼩是多少。128MB （答案）64MB32MB256MB

关于Secondary NameNode的描述哪项是正确的？secondaryNameNode应与NameNode部署到⼀个节点它的⽬的是帮助NameNode合并编辑⽇志，减少NameNode启动时间（答案）它对内存没有要求它是NameNode的热备配置Hadoop集群只需要修改配置⽂件就可以。错误（答案）正确namenode默认的WebUI访问端⼝号是多少8020 （答案）50在Hadoop1.x版本中，MapReduce程序是运⾏在YARN集群之上。错误（答案）正确以下不是Linux⽂件数据块分配⽅式的是链式分配连续分配键值分配（答案）索引分配Hadooop是⽤Java语⾔开发的。正确（答案）错误不定项选择题常见的⼤数据相关服务包括：数据的统计分析（答案）数据分类数据查询分析（答案）数据的可视化（答案）以下属于分布式存储系统的特性的有易⽤（答案）⾼性能（答案）低成本（答案）可扩展性（答案）以下属于Apache HDFS的特点的有适合GB级数据的存储（答案）⾼容错性（答案）良好的扩展性（答案）功能强⼤，操作简单、易⽤（答案）配置Hadoop集群时，下列哪个Hadoop配置⽂件需要进⾏修改？（答案）（答案）在simple03节点上执⾏启动命令，NameNode进程会在哪个节点simple04simple05simple03 （答案）simple06以下哪个命令组成是错误的？hadoop namenode -formathadoop fs -cat /hadoop/data/ （答案）hdfs dfsadmin -reporthadoop dfs chmod –R 755 /hadoop dfs chmod –R 755hadoop dfs chmod –R 755 /tmp （答案）hadoop chown –R 755 /tmp在vim中保存退出的命令是:nohl:wq （答案）:qq!下列选项中哪些是Hadoop2.x版本独有的进程？JobTrackerNodeManager （答案）TaskTrackerNameNode⼀个gzip⽂件⼤⼩175MB，客户端设置Block⼤⼩为128MB，请问其占⽤⼏个Block？2 （答案）413下⾯关于MapReduce模型中Map⽅法与Reduce⽅法的描述正确的是？Map与Map之间不是相互独⽴的Reduce与Reduce之间不是相互独⽴的⼀个Map操作就是对每个Reduce所产⽣的⼀部分中间结果进⾏合并操作⼀个Map⽅法就是对⼀部分原始数据进⾏指定的操作（答案）如果我们现有⼀个安装2.7.4版本的Hadoop集群，在不修改默认配置的情况下存储200个每个200M的⽂本⽂件，请问最终会在集群中产⽣多少个数据块（包括副本）？1200 （答案）4HDFS有⼀个gzip⽂件⼤⼩175MB，客户端设置Block⼤⼩为128MB。当运⾏mapreduce任务读取该⽂件时input split⼤⼩为？175MB （答案）128MB⼀个Map读取128MB，另外⼀个Map读取47MB启动hadoop所有进程的命令是（答案）下列哪个不是HDFS的守护进程？datanodeMRappMaster （答案）secondarynamenodenamenode下列哪个属性是中的配置？ation （答案）当判断isDirectory不存在的⽂件，返回的值是true0false （答案）1假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是，，，（答案），ng s=”青春⽆悔”; int index=f(‘春’); 执⾏后，返回字符’春’的位置是2301 （答案）MapReduce适⽤于下列哪个选项？可以串⾏处理的应⽤程序可以并⾏处理的应⽤程序（答案）任意可以在Windows Server 2008上的应⽤程序任意应⽤程序分布式⽂件系统HDFS采⽤了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，存储元数据和存储具体数据分别为从节点，主节点名称节点，主节点名称节点，数据节点（答案）数据节点，名称节点在Hadoop中定义的主要公⽤InputFormat中，默认是哪⼀个？SequenceFileInputFormatKeyValueInputFormatTextInputFormat （答案）从互联⽹上的多个⽹页中，获取指定位置的数据，通常使⽤哪种数据采集⽅法？⽇志传感器众包爬⾍（答案）以下HDFS相关的shell命令不正确的是hadoop fs -ls ：显⽰指定的⽂件的详细信息hdfs dfs -rm ：删除路径指定的⽂件hadoop dfs mkdir ：创建指定的⽂件夹（答案）hadoop fs -copyFromLocal ：将路径指定的⽂件或⽂件夹复制到路径指定的⽂件夹中（答案）以下描述错误的是？SequenceFile可以⽤来作为⼩⽂件的合并存储容器TextInputFormat的key是LongWritable类型的CombineFileInputFormat是抽象类TextInputFormat的key是指该记录在⽂件中的⾏号（答案）⼀个MR程序中的Map Task的个数是由什么决定的？输⼊的总⽂件数客户端程序设置的Map Task的个数its(JobContext job)计算出的逻辑切⽚的数量（答案）输⼊的总⽂件⼤⼩/数据块⼤⼩下列哪种业务场景中，不能直接⽤Reducer充当Combiner使⽤？sum求和max求最⼤值count求计数avg求平均（答案）下列哪种类型的⽂件不是HDFS集群的元数据存储格式？fsimageeditsedits_inprogressblk_000003452 （答案）在MR中，哪个组件是⽤户不指定也不会有默认的？Combiner （答案）OutputFormatPartitionerInputFormatMR编程模型中以下组件哪个是最后执⾏的？MapperPartitionerReducer （答案）RecordReader下列关于MapReduce的描述中正确的是？MR程序必须包含Mapper和ReducerMR程序的Map Task可以任意指定MR程序的Reduce Task可以任意指定MR程序的默认数据读取组件是TextInputFormat （答案）MapReduce的Shuffle过程中哪个操作是最后做的？溢写（答案）分区排序合并HDFS集群中的namenode职责不包括？维护HDFS集群的⽬录树结构维护HDFS集群中的所有数据块的分布、副本数和负载均衡负责保存客户端上传的数据（答案）响应客户端的所有读写数据请求关于HDFS集群中的DataNode的描述不正确的是？DataNode之间都是独⽴的，相互之间不会有通信（答案）存储客户端上传的数据块⼀个DataNode上存储的所有数据块可以有相同的（答案）响应客户端的所有读写数据请求，为客户端的存储和读取数据提供⽀撑关于HDFS的⽂件写⼊，正确的是？⽀持多⽤户对同⼀⽂件的写操作复制的⽂件块默认存在同⼀机架的多个不同节点上⽤户可以在⽂件任意位置进⾏修改默认将⽂件块复制成三份分别存放（答案）执⾏⼀个job，如果这个job的输出路径已经存在，那么程序会？抛出警告，但是能够继续执⾏抛出⼀个异常，然后退出（答案）创建⼀个新的输出路径覆盖这个输出路径在 hive 中，实现修改表结构字段的关键字是modifyalter （答案）updatealertHive是由哪家公司开源的⼤数据处理组件？ApacheGoogleFacebook （答案）以下哪个组件可以指定对key进⾏Reduce分发的策略？RecordReaderPartitioner （答案）FileInputFormatCombiner如果想从 hive shell 命令中退出命令环境，需要执⾏的命令是exit （答案）awayquitout把本地数据⽂件””导⼊ hive 中的命令是load inpath '/' overwrite into table studentload data inpath '/' overwrite into table studentload data local inpath '/' overwrite into table student （答案）load data '/' overwrite into table studenthive 命令⾏中，执⾏⼀次查询的命令是？-f-V-e （答案）-SHive的计算引擎是什么？HDFSMapReduce （答案）SparkHive 查询语⾔和 SQL 语⾔，两个不同之处在于操作JoinBucket （答案）Group ByPartition （答案）下⾯与HDFS类似的框架是？NTFSEXT3GFS （答案）FAT32Mapreduce 的 input split 就是⼀个 block。正确错误（答案）如果 NameNode 意外终⽌，SecondaryNameNode 会接替它使集群继续⼯作。错误（答案）正确下列哪个程序通常与NameNode 在⼀个节点启动DataNodeJobtracker （答案）TaskTrackerSecondaryNameNodeDoug Cutting所创⽴的项⽬的名称都受到其家⼈的启发，以下项⽬不是由他创⽴的项⽬是Solr （答案）NutchLuceneHadoophadoop dfsadmin –report 命令⽤于检测 HDFS 损坏块。错误（答案）正确Slave 节点要存储数据，所以它的磁盘越⼤越好。错误（答案）正确Hadoop ⽀持数据的随机读写。正确错误（答案）Block Size 是不可以修改的。错误（答案）正确安装 Hive 所需的环境是sqoopHbaseJDK （答案）hadoop （答案）Client 端上传⽂件的时候下列哪项正确？数据经过 NameNode 传递给 DataNodeClient 只上传数据到⼀台 DataNode，然后由 NameNode 负责 Block 复制⼯作Client 端将⽂件切分为 Block，依次上传（答案）以上都不正确Hive是⼀款独⽴的数据仓库⼯具，因此在启动前⽆须启动任何服务。正确错误（答案）代码select substr('abcdef',2,3)的结果是哪⼀个cde （答案）bcd以上结果都不对bc下列关于HDFS为存储MapReduce并⾏切分和处理的数据做的设计，错误的是输⼊分⽚是⼀种记录的逻辑划分，⽽HDFS数据块是对输⼊数据的物理分割为实现细粒度并⾏，输⼊分⽚(Input Split)应该越⼩越好（答案）⼀台机器可能被指派从输⼊⽂件的任意位置开始处理⼀个分⽚FSDataInputStream扩展了DataInputStream以⽀持随机读MapReduce框架提供了⼀种序列化键/值对的⽅法，⽀持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是键和值的数据类型可以超出Hadoop⾃⾝⽀持的基本类型实现WritableComparable接⼝的类可以是值或键Hadoop的基本类型Text并不实现WritableComparable接⼝（答案）实现Writable接⼝的类是值Hive默认不⽀持动态分区功能，需要⼿动设置动态分区参数开启功能。错误正确（答案）float表⽰的数据类型是字符性浮点型（答案）布尔型整数型关于Hadoop单机模式和伪分布式模式的说法，正确的是后者⽐前者增加了HDFS输⼊输出以及可检查内存使⽤情况（答案）两者都起守护进程，且守护进程运⾏在⼀台机器上单机模式不使⽤HDFS，但加载守护进程两者都不与守护进程交互，避免复杂性配置Hadoop时，JAVA_HOME包含在哪⼀个配置⽂件中（答案）e查询语⾔和SQL的⼀个不同之处在于什么操作UnionPartition （答案）JoinGroup BY按粒度⼤⼩的顺序，Hive数据被分为数据库、数据表、（）和桶。⾏栏分区（答案）元组Hive最重视的性能是可测量性、延展性，（）和对于输⼊格式的宽松匹配性。快速查询容错性较低恢复性可处理⼤量数据（答案）下⾯哪个进程负责 MapReduce 任务调度。secondaryNameNodeJobtracker （答案）TaskTrackerNameNode代码select ceil(2.34)的结果是哪⼀个2.33 （答案）2.42以下四个Hadoop预定义的Mapper实现类的描述错误的是RegexMapper实现Mapper，为每个常规表达式的匹配项⽣成⼀个(match, 1)对TokenCountMapper实现Mapper，当输⼊的值为分词时，⽣成(taken, 1)对InverseMapper实现Mapper，反转键/值对（答案）IdentityMapper实现Mapper，将输⼊直接映射到输出HDFS的namenode保存了⼀个⽂件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。错误（答案）正确对于最⼩粒度的任务，Hive查询的反应时间约为C⼏秒⼏分钟（答案）⼏微秒⼏毫秒创建外部表的同时要加载数据⽂件，数据⽂件会移到到数据仓库指定的⽬录下。错误（答案）正确Hadoop fs中的-get和-put命令操作对象是两者均是（答案）⽬录⽂件设计分布式数据仓库hive的数据表时，为取样更⾼效，⼀般可以对表中的连续字段进⾏什么操作。分表分区索引分桶（答案）修改hive安装⽬录下conf/te⽂件，是否对hive运⾏产⽣影响影响视情况⽽定不影响（答案）hive命令⾏中，执⾏⼀次查询的命令是-s-f-d-e （答案）Hive的计算引擎是什么？HDFSMapReduce （答案）SparkDataFrame 和 RDD 最⼤的区别科学统计⽀持存储⽅式不⼀样外部数据源⽀持多了 schema （答案）下⾯哪个端⼝不是 spark ⾃带服务的端⼝8090 （答案）18Spark的四⼤组件下⾯哪个不是Spark R （答案）Spark StreamingMLlibGraphx下⾯哪个不是 RDD 的特点可持久化可序列化可分区可修改（答案）hive shell环境中，查询当前数据库所有表的命令是select databases;select tables;show tables; （答案）show databases;关于Hive与Hadoop其他组件的关系，描述错误的是Hive对Hbase有强依赖（答案）Hive最终将数据存储在HDFS中Hive是Hadoop平台的数据仓库⼯具Hive SQL 其本质是执⾏的MapReduce任务当发现hive脚本执⾏时报错信息中包含如下内容：FAILED: ClassCastException iveTypeInfo cannot be cast lTypeInfo则此脚本最可能存在的问题是什么？字符串和数值类型转换错误（答案）GROUP BY 中包含详单的字段（字段重复）⽹络问题把本地/导⼊hive中student表的命令是load data local inpath ‘/’ overwrite table ‘student’;load data local inpath ‘/’ overwrite table student; （答案）load data local inpath / overwrite table ‘student’;load data local inpath / overwrite table student;Spark RDD中没有的特性是分布式位置优先固定⼤⼩（答案）弹性Spark ⽀持的分布式部署⽅式中哪个是错误的spark on YARNSpark on local （答案）standalonespark on mesoshive 的元数据存储在 derby 和 mysql 中有什么区别数据库的区别⽀持⽹络环境多会话（答案）没区别linux在当前⽬录创建⼀个⽂件名为空⽂件的命令create table ate database ch （答案）create 关于Hive建表基本操作描述正确的是创建外部表时需要指定external关键字（答案）⼀旦表创建好，不可再修改列名⼀旦表创建好，不可再增加新列⼀旦表创建好，不可再修改表名Task 运⾏在下来哪⾥个选项中 Executor 上的⼯作单元Driver programworker node （答案）Cluster managerspark masterSpark的特点包括兼容性（答案）通⽤（答案）可延伸快速（答案）以下是Spark中executor的作⽤是向Driver反向注册（答案）做资源调度任务接受Driver端发送来的任务Task,作⽤在RDD上进⾏执⾏（答案）保存计算的RDD分区数据（答案）Hive数据表插⼊数据时，insert （　） table ……，括号中可使哪些关键字？appendinto （答案）overwrite （答案）DataFrame的groupBy⽅法返回的结果是什么类型ColumnGroupedData （答案）RDDDataFrameHadoop⽂件系统核⼼模块不包括下列哪个选项DataNodeSecondaryNameNodeResourceManager （答案）NameNode关于DataFrame的说法错误的是DataFrame是由SchemaRDD发展⽽来DataFrame直接继承了RDD （答案）DataFrame是⼀个分布式Row对象的数据集合DataFrame实现了RDD的绝⼤多数功能按下( )键能终⽌当前运⾏的命令Ctrl+ACtrl+DCtrl+C （答案）Ctrl+FSpark SQL可以处理的数据源包括数据⽂件、Hive表、RDD数据⽂件、Hive表、RDD、外部数据库（答案）Hive表数据⽂件、Hive表相⽐Spark，Spark SOL 有哪些优势①Spark SQL摆脱了对Hive的依赖②Spark SQL⽀持在Scala中写SQL语句③Spark SQL⽀持parquet⽂件的读写，且保留了Schema④Spark SQL ⽀持访问Hive，⽽Spark不⽀持②③④①②③ （答案）①②③④①②负责提交MapReduce作业的组件是JobTrackerJobClient （答案）TaskTrackerTaskClient在vi编辑器⾥，命令"dd"⽤来删除当前的变量字符⾏（答案）字NameNode周期性地从DataNode接收⼼跳信号的默认频率5分⼀次5秒⼀次3分⼀次3秒⼀次（答案）Spark 中使⽤ saveAs TextFile存储数据到HDFS，要求数据类型为SeqRDD （答案）ListArray查看DataFrame对象df前30条记录的语句为（30）（答案）（false）FS不适合的场景不包括下列哪个选项⼤量⼩⽂件低延时的数据访问多⽅读写，需要任意的⽂件修改流式⽂件访问（答案）指定HDFS⽂件块的副本数的配置⽂件（答案）ffle阶段完成了数据的去重排序（答案）分组（答案）分区（答案）Hadoop具有以下⼏个特点⾼容错性（答案）⾼可扩展性（答案）⾼效（答案）⾼可靠性（答案）Spark组成部件包括Executor （答案）RDDResourceManagerDriver （答案）下⾯哪些是Spark⽐MapReduce计算快的原因基于内存的计算（答案）基于分布式计算的框架基于DAG的调度框架（答案）基于Lineage的容错机制（答案）下列哪些是⾯向对象技术的特征继承（答案）分布性多态（答案）封装（答案）Mapper类⾥包括下列哪⼏个范型VALUEOUT （答案）KEYIN （答案）KEYOUT （答案）VALUEIN （答案）Spark driver的功能是什么负责向HDFS申请资源负责了作业的调度（答案）负责作业的解析（答案）是作业的主进程（答案）hive的元数据存储在 derby 和 mysql 中有什么区别数据库的区别⽀持⽹络环境多会话（答案）没区别Spark⽀持的分布式部署⽅式中哪个是错误的standaloneSpark on local （答案）spark on YARNspark on mesos