2023年6月29日发(作者:)
Hadoop⼤数据期末复习题1下⾯哪个选项属于⼤数据技术的“数据存储和管理”技术层⾯的功能?A、利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理B、利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全D、把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析我的答案:A2下列哪个不属于Hadoop的特性?A、成本⾼B、⾼可靠性C、⾼容错性D、运⾏在Linux平台上我的答案:A3 Hadoop框架中最核⼼的设计是什么?A、为海量数据提供存储的HDFS和对数据进⾏计算的MapReduceB、提供整个HDFS⽂件系统的NameSpace(命名空间)管理、块管理等所有服务C、Hadoop不仅可以运⾏在企业内部的集群中,也可以运⾏在云计算环境中D、Hadoop被视为事实上的⼤数据处理标准我的答案:A4在⼀个基本的Hadoop集群中,DataNode主要负责什么?A、负责执⾏由JobTracker指派的任务B、协调数据计算任务C、负责协调集群中的数据存储D、存储被拆分的数据块我的答案:D5 Hadoop最初是由谁创建的?A、LuceneB、Doug CuttingC、ApacheD、MapReduce我的答案:B6下列哪⼀个不属于Hadoop的⼤数据层的功能?A、数据挖掘B、离线分析C、实时计算D、BI分析我的答案:C7在⼀个基本的Hadoop集群中,SecondaryNameNode主要负责什么?A、帮助NameNode收集⽂件系统运⾏的状态信息B、负责执⾏由JobTracker指派的任务C、协调数据计算任务D、负责协调集群中的数据存储我的答案:A8下⾯哪⼀项不是Hadoop的特性?A、可扩展性⾼B、只⽀持少数⼏种编程语⾔C、成本低D、能在linux上运⾏我的答案:B9在Hadoop项⽬结构中,HDFS指的是什么?A、分布式⽂件系统B、分布式并⾏编程模型C、资源管理和调度器D、Hadoop上的数据仓库我的答案:A10在Hadoop项⽬结构中,MapReduce指的是什么?A、分布式并⾏编程模型B、流计算框架C、Hadoop上的⼯作流管理系统D、提供分布式协调⼀致性服务我的答案:A11下⾯哪个不是Hadoop1.0的组件:( )A、HDFSB、MapReduceC、YARND、NameNode和DataNode我的答案:C12分布式⽂件系统指的是什么?A、把⽂件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群B、⽤于在Hadoop与传统数据库之间进⾏数据传递C、⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、聚合和传输的系统D、⼀种⾼吞吐量的分布式发布订阅消息系统,可以处理消费者规模的⽹站中的所有动作流数据我的答案:A13下⾯哪⼀项不属于计算机集群中的节点?A、主节点(Master Node)B、源节点(SourceNode)C、名称结点(NameNode)D、从节点(Slave Node)我的答案:B14在Hadoop2.0以上版本中,HDFS中,默认⼀个块多⼤?A、128MBB、32KBC、128KBD、16KB我的答案:A15下列哪⼀项不属于HDFS采⽤抽象的块概念带来的好处?A、简化系统设计B、⽀持⼤规模⽂件存储C、强⼤的跨平台兼容性D、适合数据备份我的答案:C16在HDFS中,NameNode的主要功能是什么?A、维护了block id 到datanode本地⽂件的映射关系B、存储⽂件内容C、⽂件内存保存在磁盘中D、存储元数据我的答案:D17下⾯对FsImage的描述,哪个是错误的?A、FsImage⽂件没有记录每个块存储在哪个数据节点B、FsImage⽂件包含⽂件系统中所有⽬录和⽂件inode的序列化形式C、FsImage⽤于维护⽂件系统树以及⽂件树中所有的⽂件和⽂件夹的元数据D、FsImage⽂件记录了每个块具体被存储在哪个数据节点我的答案:D18下⾯对SecondaryNameNode第⼆名称节点的描述,哪个是错误的?A、SecondaryNameNode⼀般是并⾏运⾏在多台机器上B、它是⽤来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间C、SecondaryNameNode通过HTTPGET⽅式从NameNode上获取到FsImage和EditLog⽂件,并下载到本地的相应⽬录下D、SecondaryNameNode是HDFS架构中的⼀个组成部分我的答案:A19 HDFS采⽤了什么模型?A、分层模型B、主从结构模型C、管道-过滤器模型D、点对点模型我的答案:B20在Hadoop项⽬结构中,HDFS指的是什么?A、分布式⽂件系统B、流数据读写C、资源管理和调度器D、Hadoop上的数据仓库我的答案:A21下列关于HDFS的描述,哪个不正确?A、HDFS还采⽤了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能B、HDFS采⽤了主从(Master/Slave)结构模型C、HDFS采⽤了冗余数据存储,增强了数据可靠性D、HDFS采⽤块的概念,使得系统的设计变得更加复杂我的答案:D22下列关于BigTable的描述,哪个是错误的?A、爬⾍持续不断地抓取新页⾯,这些页⾯每隔⼀段时间地存储到BigTable⾥B、BigTable是⼀个分布式存储系统C、BigTable起初⽤于解决典型的互联⽹搜索问题D、⽹络搜索应⽤查询建⽴好的索引,从BigTable得到⽹页我的答案:A23下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的?A、GFS与HDFS相对应B、GFS与Zookeeper相对应C、MapReduce与Hadoop MapReduce相对应D、Chubby与Zookeeper相对应我的答案:B24在HBase中,关于数据操作的描述,下列哪⼀项是错误的?A、HBase采⽤了更加简单的数据模型,它把数据存储为未经解释的字符串B、HBase操作不存在复杂的表与表之间的关系C、HBase不⽀持修改操作D、HBase在设计上就避免了复杂的表和表之间的关系我的答案:C25 Pig主要⽤在哪个场合?A、适合Hadoop MapReduce作业并⾏批处理HBase表数据B、适合HBase管理使⽤C、适合其他异构系统在线访问HBase表数据D、适合做数据统计我的答案:A26 HBase中需要根据某些因素来确定⼀个单元格,这些因素可以视为⼀个“四维坐标”,下⾯哪个不属于“四维坐标”?A、⾏键B、关键字C、列族D、时间戳我的答案:B27关于HBase的三层结构中各层次的名称和作⽤的说法,哪个是错误的?A、Zookeeper⽂件记录了⽤户数据表的Region位置信息B、-ROOT-表记录了.META.表的Region位置信息C、.META.表保存了HBase中所有⽤户数据表的Region位置信息D、Zookeeper⽂件记录了-ROOT-表的位置信息我的答案:A28下⾯关于主服务器Master主要负责表和Region的管理⼯作的描述,哪个是错误的?A、在Region分裂或合并后,负责重新调整Region的分布B、对发⽣故障失效的Region服务器上的Region进⾏迁移C、管理⽤户对表的增加、删除、修改、查询等操作D、不⽀持不同Region服务器之间的负载均衡我的答案:D29 HBase只有⼀个针对⾏健的索引,如果要访问HBase表中的⾏,下⾯哪种⽅式是不可⾏的?A、通过单个⾏健访问B、通过时间戳访问C、通过⼀个⾏健的区间来访问D、全表扫描我的答案:B30下⾯关于Region的说法,哪个是错误的?A、同⼀个Region不会被分拆到多个Region服务器B、为了加快访问速度,.META.表的全部Region都会被保存在内存中C、⼀个-ROOT-表可以有多个RegionD、为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效问题我的答案:C31下列哪个不属于NoSQL数据库的特点?A、灵活的可扩展性B、灵活的数据模型C、与云计算紧密融合D、数据存储规模有限我的答案:D32下⾯关于NoSQL和关系数据库的简单⽐较,哪个是错误的?A、RDBMS有关系代数理论作为基础,NoSQL没有统⼀的理论基础B、NoSQL很难实现横向扩展,RDBMS可以很容易通过添加更多设备来⽀持更⼤规模的数据C、RDBMS需要定义数据库模式,严格遵守数据定义,NoSQL⼀般不存在数据库模式,可以⾃由灵活定义并存储各种不同类型的数据D、RDBMS借助于索引机制可以实现快速查询,很多NoSQL数据库没有⾯向复杂查询的索引我的答案:B33下列哪⼀项不属于NoSQL的四⼤类型?A、⽂档数据库B、图数据库C、列族数据库D、时间戳数据库我的答案:D34下列关于键值数据库的描述,哪⼀项是错误的?A、扩展性好,灵活性好B、⼤量写操作时性能⾼C、⽆法存储结构化信息D、条件查询效率⾼我的答案:D35下列关于列族数据库的描述,哪⼀项是错误的?A、查找速度慢,可扩展性差B、功能较少,⼤都不⽀持强事务⼀致性C、容易进⾏分布式扩展D、复杂性低我的答案:A36下⾯关于MongoDB说法,哪⼀项是正确的?A、具有较差的⽔平可扩展性B、设置个别属性的索引来实现更快的排序C、提供了⼀个⾯向⽂档存储,操作复杂D、可以实现替换完成的⽂档(数据)或者⼀些指定的数据字段我的答案:D37下列关于NoSQL与关系数据库的⽐较,哪个说法是错误的?A、在⼀致性⽅⾯,RDBMS强于NoSQLB、在数据完整性⽅⾯,RDBMS容易实现C、在扩展性⽅⾯,NoSQL ⽐较好D、在可⽤性⽅⾯,NoSQL优于RDBMS我的答案:D38关于⽂档数据库的说法,下列哪⼀项是错误的?A、数据是规则的B、性能好(⾼并发)C、缺乏统⼀的查询语法D、复杂性低我的答案:A39下列关于阿⾥云RDS的说法,哪个是错误的?A、RDS是阿⾥云提供的关系型数据库服务B、RDS由专业数据库管理团队维护C、RDS具有安全稳定、数据可靠、⾃动备份D、RDS实例,是⽤户购买RDS服务的基本单位,在实例中,⽤户只能创建⼀个数据库我的答案:D40下列传统并⾏计算框架,说法错误的是哪⼀项?A、⼑⽚服务器、⾼速⽹、SAN,价格贵,扩展性差上B、共享式(共享内存/共享存储),容错性好C、编程难度⾼D、实时、细粒度计算、计算密集型我的答案:B41下列关于MapReduce模型的描述,错误的是哪⼀项?A、MapReduce采⽤“ 分⽽治之”策略B、MapReduce设计的⼀个理念就是“ 计算向数据靠拢”C、MapReduce框架采⽤了Master/Slave架构D、MapReduce应⽤程序只能⽤Java来写我的答案:D42下列关于MapReduce⼯作流程,哪个描述是正确的?A、所有的数据交换都是通过MapReduce框架⾃⾝去实现的B、不同的Map任务之间会进⾏通信C、不同的Reduce任务之间可以发⽣信息交换D、⽤户可以显式地从⼀台机器向另⼀台机器发送消息我的答案:A43下列关于MapReduce的说法,哪个描述是错误的?A、MapReduce具有⼴泛的应⽤,⽐如关系代数运算、分组与聚合运算等B、MapReduce将复杂的、运⾏于⼤规模集群上的并⾏计算过程⾼度地抽象到了两个函数C、编程⼈员在不会分布式并⾏编程的情况下,也可以很容易将⾃⼰的程序运⾏在分布式系统上,完成海量数据集的计算D、不同的Map任务之间可以进⾏通信我的答案:D44下列关于Map和Reduce函数的描述,哪个是错误的?A、Map将⼩数据集进⼀步解析成⼀批对,输⼊Map函数中进⾏处理B、Map每⼀个输⼊的会输出⼀批。是计算的中间结果C、Reduce输⼊的中间结果中的List(v 2 )表⽰是⼀批属于不同k 2 的valueD、Reduce输⼊的中间结果中的List(v 2 )表⽰是⼀批属于同⼀个k 2 的value我的答案:C45下⾯哪⼀项不是MapReduce体系结构主要部分?A、ClientB、JobTrackerC、TaskTracker以及TaskD、Job我的答案:D46关于MapReduce1.0的体系结构的描述,下列说法错误的?A、Task 分为Map Task 和Reduce Task 两种,分别由JobTracker 和TaskTracker 启动B、slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使⽤C、TaskTracker 使⽤“slot”等量划分本节点上的资源量(CPU、内存等)D、TaskTracker 会周期性接收JobTracker 发送过来的命令并执⾏相应的操作(如启动新任务、杀死任务等)我的答案:A47下列说法错误的是?A、Hadoop MapReduce是MapReduce的开源实现,后者⽐前者使⽤门槛低很多B、MapReduce采⽤⾮共享式架构,容错性好C、MapReduce主要⽤于批处理、实时、计算密集型应⽤D、MapReduce采⽤“ 分⽽治之”策略我的答案:A48下⾯哪个选项不属于Hadoop1.0 的问题?A、单⼀名称节点,存在单点失效问题B、单⼀命名空间,⽆法实现资源隔离C、资源管理效率低D、很难上⼿我的答案:D49下列哪项是Hadoop⽣态系统中Spark的功能?A、处理⼤规模数据的脚本语⾔B、⼯作流和协作服务引擎,协调Hadoop上运⾏的不同任务C、不⽀持DAG作业的计算框架D、基于内存的分布式并⾏编程框架,具有较⾼的实时性,并且较好⽀持迭代计算我的答案:D50在Hadoop⽣态系统中,Kafka主要解决Hadoop 中存在哪些的问题?A、Hadoop⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介B、不同的MapReduce任务之间存在重复操作,降低了效率C、延迟⾼,⽽且不适合执⾏迭代计算D、抽象层次低,需要⼿⼯编写⼤量代码我的答案:A51下列哪⼀个不属于HDFS1.0 中存在的问题?A、⽆法⽔平扩展B、单点故障问题C、单⼀命名空间D、系统整体性能受限于单个名称节点的吞吐量我的答案:A52关于HDFS Federation 的设计的描述,哪个是错误的?A、属于不同命名空间的块可以构成同⼀个“块池”B、HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报C、设计了多个相互独⽴的名称节点D、HDFS的命名服务能够⽔平扩展我的答案:A53下列关于MapReduce1.0的描述,错误的是?A、JobTracker“⼤包⼤揽”导致任务过重B、不存在单点故障C、容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)D、资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)我的答案:B54下列哪个不属于YARN体系结构中ResourceManager的功能?A、处理客户端请求B、监控NodeManagerC、资源分配与调度D、处理来⾃ApplicationMaster的命令我的答案:D55下列哪个不属于YARN体系结构中ApplicationMaster的功能?A、任务调度、监控与容错B、为应⽤程序申请资源C、将申请的资源分配给内部任务D、处理来⾃ResourceManger的命令我的答案:D56下列关于Hive基本操作命令的解释错误的是:( )A、create database userdb;//创建数据库userdbB、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,ageC、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把⽬录’/usr/local/data’下的数据⽂件中的数据以追加的⽅式装载进usr表D、insert overwrite table student select * from user where age>10; //向表usr1中插⼊来⾃usr表的age⼤于10的数据并覆盖student表中原有数据我的答案:C57下⾯哪个不可能是Hive的执⾏引擎:( )A、MapReduceB、TezC、StormD、Spark我的答案:C58下⾯描述错误的是:( )A、Hive的功能⼗分强⼤,可以⽀持采⽤SQL⽅式查询Hadoop平台上的数据B、在实际应⽤中,Hive也暴露出不稳定的问题,在极少数情况下,甚⾄会出现端⼝不响应或者进程丢失的问题C、在Hive HA中,在Hadoop集群上构建的数据仓库是由单个Hive实例进⾏管理的D、在Hive HA中,客户端的查询请求⾸先访问HAProxy,由HAProxy对访问请求进⾏转发我的答案:C59以下哪个不是数据仓库的特性:( )A、⾯向主题的B、集成的C、动态变化的D、反映历史变化的我的答案:C60下⾯关于Hive的描述错误的是:( )A、Hive是⼀个构建在Hadoop之上的数据仓库⼯具B、Hive是由Facebook公司开发的C、Hive在某种程度上可以看作是⽤户编程接⼝,其本⾝并不存储和处理数据D、Hive定义了简单的类似SQL的查询语⾔–HiveQL,它与⼤部分SQL语法⽆法兼容我的答案:D61下⾯关于Hive的描述错误的是:( )A、HBase与Hive的功能是互补的,它实现了Hive不能提供的功能B、当采⽤MapReduce作为执⾏引擎时,⽤HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运⾏C、Hive⼀般⽤于处理静态数据,主要是BI报表数据D、Hive主要是⽤于满⾜实时数据流的处理需求我的答案:D62关于Hive和传统关系数据库的对⽐分析,下⾯描述错误的是:( )A、Hive⼀般依赖于分布式⽂件系统HDFS,⽽传统数据库则依赖于本地⽂件系统B、传统的关系数据库可以针对多个列构建复杂的索引,Hive不⽀持索引C、Hive和传统关系数据库都⽀持分区D、传统关系数据库很难实现横向扩展,Hive具有很好的⽔平扩展性我的答案:B63以下哪个不是Hive的⽤户接⼝模块:( )A、PMIB、HWI(Hive Web Interface)C、JDBC/ODBCD、Thrift Server我的答案:A64下⾯关于 zookeeper 的描述,错误的是A、zookeeper是⼀个分布式⼩⽂件存储系统B、zookeeper可以为其他软件进⾏选主服务C、zookeeper中的znode共⽤有两种类型D、在Dubbo中,zookeeper提供了注册中⼼服务我的答案:C65下⾯属于 zookeeper 特殊的性质有A、提供了抽象为⽬录树的⽂件系统B、⽀持⼩⽂件存储C、事务性请求由⽼⼤统⼀处理D、⽬录树中节点兼具⽬录和⽂件特点我的答案:D66 Zookeeper 中为什么会有 LeaderA、统⼀管理B、⼀台机器操作,其他集群都可以共享C、提⾼性能D、以上说法都正确我的答案:D67在安装hdfs时其中tFS+是配置在下列哪个⽂件( )A、、、、我的答案:A68在安装Hadoop时,需要配置Hadoop依赖的JAVA_HOME配置项是属于以下哪个⽂件( )A、、、、我的答案:D69在Hadoop中,端⼝50070默认是Hadoop哪个服务的端⼝?A、NamenodeB、DataNodeC、SecondNameNodeD、Yarn我的答案:A70想要修改Hadoop上的HDFS默认副本数需要修改修改哪个配置⽂件的配置项?A、slavesB、、、我的答案:C71下⾯哪个⽬录保存了Hadoop集群的配置⽂件( )A、binB、sbinC、etc/hadoopD、share我的答案:C72 Hadoop有三种安装模式,下列安装模式中没有HDFS、只能测试MapReduce程序是( )A、单机模式B、伪分布式模式C、完全分布式模式D、分布模式我的答案:A73Hadoop完全分布模式配置免密登录是要?( )A、实现主节点到其他节点免密登录B、实现从节点到其他节点免密登录C、主节点和从节点任意两个节点之间免密登录D、以上都正确我的答案:C⼆、多选题1⼤数据具有哪些特点?A、数据的“⼤量化”B、数据的“快速化”C、数据的“多样化”D、数据的“价值密度⽐较低”我的答案:ABC2下⾯哪个属于⼤数据的应⽤领域?A、智能医疗研发B、监控⾝体情况C、实时掌握交通状况D、⾦融交易我的答案:ABCD3⼤数据的两个核⼼技术是什么?A、分布式存储B、分布式应⽤C、分布式处理D、集中式存储我的答案:AC4云计算关键技术包括什么?A、分布式存储B、虚拟化C、分布式计算D、多租户我的答案:ABCD5⼤数据对社会发展的影响有哪些?A、⼤数据成为⼀种新的决策⽅式B、⼤数据应⽤促进信息技术与各⾏业的深度融合C、⼤数据开发推动新技术和新应⽤的不断涌现D、⼤数据对社会发展没有产⽣积极影响我的答案:ABC6 Hadoop的特性包括哪些?A、⾼可扩展性B、⽀持多种编程语⾔C、成本低D、运⾏在Linux平台上我的答案:ABCD7下⾯哪个是Hadoop2.0的组件?A、ResourceManagerB、JobTrackerC、TaskTrackerD、NodeManager我的答案:AD8⼀个基本的Hadoop集群中的节点主要包括什么?A、DataNode:存储被拆分的数据块B、JobTracker:协调数据计算任务C、TaskTracker:负责执⾏由JobTracker指派的任务D、SecondaryNameNode:帮助NameNode收集⽂件系统运⾏的状态信息我的答案:BC9下列关于Hadoop的描述,哪些是正确的?A、为⽤户提供了系统底层细节透明的分布式基础架构B、具有很好的跨平台特性C、可以部署在廉价的计算机集群中D、曾经被公认为⾏业⼤数据标准开源软件我的答案:ABC10 Hadoop集群的整体性能主要受到什么因素影响?A、CPU性能B、内存C、⽹络D、存储容量我的答案:ABCD11下列关于Hadoop的描述,哪些是错误的?A、只能⽀持⼀种编程语⾔B、具有较差的跨平台特性C、可以部署在廉价的计算机集群中D、曾经被公认为⾏业⼤数据标准开源软件我的答案:AB12下列哪⼀项不属于Hadoop的特性?A、较低可扩展性B、只⽀持java语⾔C、成本低D、运⾏在Linux平台上我的答案:AB13 HDFS要实现以下哪⼏个⽬标?A、兼容廉价的硬件设备B、流数据读写C、⼤数据集D、复杂的⽂件模型我的答案:ABC14 HDFS特殊的设计,在实现优良特性的同时,也使得⾃⾝具有⼀些应⽤局限性,主要包括以下哪⼏个⽅⾯?A、较差的跨平台兼容性B、⽆法⾼效存储⼤量⼩⽂件C、不⽀持多⽤户写⼊及任意修改⽂件D、不适合低延迟数据访问我的答案:BCD15 HDFS采⽤抽象的块概念可以带来以下哪⼏个明显的好处?A、⽀持⼤规模⽂件存储B、⽀持⼩规模⽂件存储C、适合数据备份D、简化系统设计我的答案:ACD16在HDFS中,名称节点( )主要保存了哪些核⼼的数据结构?A、FsImageB、DN8C、BlockD、EditLog我的答案:AD17数据节点( )的主要功能包括哪些?ABCA、负责数据的存储和读取B、根据客户端或者是名称节点的调度来进⾏数据的存储和检索C、向名称节点定期发送⾃⼰所存储的块的列表D、⽤来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间我的答案:ABC18 HDFS的命名空间包含什么?A、磁盘B、⽂件C、块D、⽬录我的答案:BCD19下列对于客服端的描述,哪些是正确的?A、客户端是⽤户操作HDFS最常⽤的⽅式,HDFS在部署时都提供了客户端B、HDFS客户端是⼀个库,暴露了HDFS⽂件系统接⼝C、严格来说,客户端并不算是HDFS的⼀部分D、客户端可以⽀持打开、读取、写⼊等常见的操作我的答案:ABCD20 HDFS只设置唯⼀⼀个名称节点,这样做虽然⼤⼤简化了系统设计,但也带来了哪些明显的局限性?A、命名空间的限制B、性能的瓶颈C、隔离问题D、集群的可⽤性我的答案:ABCD21 HDFS数据块多副本存储具备以下哪些优点?A、加快数据传输速度B、容易检查数据错误C、保证数据可靠性D、适合多平台上运⾏我的答案:ABC22 HDFS具有较⾼的容错性,设计了哪些相应的机制检测数据错误和进⾏⾃动恢复?A、数据源太⼤B、数据节点出错C、数据出错D、名称节点出错我的答案:BCD23关系数据库已经流⾏很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?A、Hadoop可以很好地解决⼤规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的⾼延迟数据处理机制,使得Hadoop⽆法满⾜⼤规模数据实时处理应⽤的需求上B、HDFS⾯向批量访问模式,不是随机访问模式C、传统的通⽤关系型数据库⽆法应对在数据规模剧增时导致的系统扩展性和性能问题D、传统关系数据库在数据结构变化时⼀般需要停机维护;空列浪费存储空间我的答案:ABC24 HBase与传统的关系数据库的区别主要体现在以下哪⼏个⽅⾯?A、数据类型B、数据操作C、存储模式D、数据维护我的答案:ABCD25 HBase访问接⼝类型包括哪些?A、Native Java APIB、HBase ShellC、Thrift GatewayD、REST Gateway我的答案:ABCD26下列关于数据模型的描述,哪些是正确的?A、HBase采⽤表来组织数据,表由⾏和列组成,列划分为若⼲个列族B、每个HBase表都由若⼲⾏组成,每个⾏由⾏键(row key)来标识C、列族⾥的数据通过列限定符(或列)来定位D、每个单元格都保存着同⼀份数据的多个版本,这些版本采⽤时间戳进⾏索引我的答案:ABCD27 HBase的实现包括哪三个主要的功能组件?A、库函数:链接到每个客户端B、⼀个Master主服务器C、许多个Region服务器D、廉价的计算机集群我的答案:ABC28 HBase的三层结构中,三层指的是哪三层?A、Zookeeper⽂件B、-ROOT-表C、.META.表D、数据类型我的答案:ABC29以下哪些软件可以对HBase进⾏性能监视?A、Master-status(⾃带)B、GangliaC、OpenTSDBD、Ambari我的答案:ABCD30 Zookeeper是⼀个很好的集群管理⼯具,被⼤量⽤于分布式计算,它主要提供什么服务?A、配置维护B、域名服务C、分布式同步D、负载均衡服务我的答案:ABC31下列关于Region服务器⼯作原理的描述,哪些是正确的?A、每个Region服务器都有⼀个⾃⼰的HLog ⽂件B、每次刷写都⽣成⼀个新的StoreFile,数量太多,影响查找速度C、合并操作⽐较耗费资源,只有数量达到⼀个阈值才启动合并D、Store是Region服务器的核⼼我的答案:ABCD32下列关于HLog⼯作原理的描述,哪些是正确的?A、分布式环境必须要考虑系统出错。HBase采⽤HLog保证B、HBase系统为每个Region服务器配置了⼀个HLog⽂件C、Zookeeper会实时监测每个Region服务器的状态D、Master⾸先会处理该故障Region服务器上⾯遗留的HLog⽂件我的答案:ABCD33关系数据库已经⽆法满⾜Web2.0的需求,主要表现在以下⼏个⽅⾯?A、⽆法满⾜海量数据的管理需求B、⽆法满⾜数据⾼并发的需求C、⽆法满⾜⾼可扩展性和⾼可⽤性的需求D、使⽤难度⾼我的答案:ABC34下列关于MySQL集群的描述,哪些是正确的?A、复杂性:部署、管理、配置很复杂B、数据库复制:MySQL主备之间⼀般采⽤复制⽅式,很多时候是异步复制C、扩容问题:如果系统压⼒过⼤需要增加新的机器,这个过程涉及数据重新划分D、动态数据迁移问题:如果某个数据库组压⼒过⼤,需要将其中部分数据迁移出去我的答案:ACD35关系数据库引以为傲的两个关键特性(完善的事务机制和⾼效的查询机制),到了Web2.0时代却成了鸡肋,主要表现在以下哪⼏个⽅⾯?A、Web2.0 ⽹站系统通常不要求严格的数据库事务B、Web2.0 ⽹站系统基本上不⽤关系数据库来存储数据C、Web2.0 并不要求严格的读写实时性D、Web2.0 通常不包含⼤量复杂的SQL 查询我的答案:ACD36下⾯关于NoSQL与关系数据库的⽐较,哪些是正确的?A、关系数据库以完善的关系代数理论作为基础,有严格的标准B、关系数据库可扩展性较差,⽆法较好⽀持海量数据存储C、NoSQL可以⽀持超⼤规模数据存储D、NoSQL 数据库缺乏数学理论基础,复杂查询性能不⾼我的答案:ABCD37下列关于⽂档数据库的描述,哪些是正确的?A、性能好(⾼并发),灵活性⾼B、具备统⼀的查询语法C、⽂档数据库⽀持⽂档间的事务D、复杂性低,数据结构灵活我的答案:AD38下列关于图数据库的描述,哪些是正确的?A、专门⽤于处理具有⾼度相互关联关系的数据B、⽐较适合于社交⽹络、模式识别、依赖分析、推荐系统以及路径寻找等问题C、灵活性⾼,⽀持复杂的图算法D、复杂性⾼,只能⽀持⼀定的数据规模我的答案:ABCD39 NoSQL的三⼤基⽯?A、CAPB、最终⼀致性C、BASED、DN8我的答案:ABC40关于NoSQL的三⼤基⽯之⼀的CAP,下列哪些说法是正确的?A、⼀致性,是指任何⼀个读操作总是能够读到之前完成的写操作的结果量B、⼀个分布式系统可以同时满⾜⼀致性、可⽤性和分区容忍性这三个需求C、可⽤性,是指快速获取数据D、分区容忍性,是指当出现⽹络分区的情况时(即系统中的⼀部分节点⽆法和其他节点进⾏通信),分离的系统也能够正常运⾏我的答案:ACD41当处理CAP的问题时,可以有哪⼏个明显的选择?A、CA:也就是强调⼀致性©和可⽤性(A),放弃分区容忍性§B、CP:也就是强调⼀致性C、和分区容忍性§,放弃可⽤性(A)© AP:也就是强调可⽤性(A)和分区容忍性§,放弃⼀致性©D、CAP:也就是同时兼顾可⽤性(A)、分区容忍性§和⼀致性©,当时系统性能会下降很多我的答案:ABC42数据库事务具有ACID四性,下⾯哪⼏项属于四性?A、原⼦性B、持久性C、间断性D、⼀致性我的答案:ABD43云数据库具有以下哪些特性?A、动态可扩展B、⾼可⽤性C、免维护D、安全我的答案:ABCD44下列关于云数据库的描述,哪些是正确的?A、Amazon是云数据库市场的先⾏者B、Google Cloud SQL是⾕歌公司推出的基于MySQL的云数据库C、从数据模型的⾓度来说,云数据库并⾮⼀种全新的数据库技术D、云数据库并没有专属于⾃⼰的数据模型我的答案:ABCD45 UMP系统架构依赖的哪些开源组件?A、MnesiaB、LVSC、RabbitMQD、ZooKeeper我的答案:ABCD46下列关于UMP系统架构的描述,哪些是正确的?A、信息统计服务器定期将采集到的⽤户的连接数B、Web控制台⽆法向⽤户提供系统管理界⾯C、LVS(Linux Virtual Server)即Linux虚拟服务器D、UMP系统借助于LVS来实现集群内部的负载均衡我的答案:ACD47为什么说云数据库是个性化数据存储需求的理想选择?A、云数据库可以满⾜⼤企业的海量数据存储需求B、云数据库可以满⾜中⼩企业的低成本数据存储需求C、云数据库可以满⾜企业动态变化的数据存储需求D、前期零投⼊、后期免维护的数据库服务,可以很好满⾜它们的需求我的答案:ABCD48下列关于云数据库与其他数据库的关系,哪些是正确的?A、从数据模型的⾓度来说,云数据库并⾮⼀种全新的数据库技术B、云数据库并没有专属于⾃⼰的数据模型,云数据库所采⽤的数据模型可以是关系数据库所使⽤的关系模型C、同⼀个公司只能提供采⽤不同数据模型的单个云数据库服务D、许多公司在开发云数据库时,后端数据库都是直接使⽤现有的各种关系数据库或NoSQL数据库产品我的答案:ABD49以下哪些是Amazon的云数据库产品?A、Amazon RDS:云中的关系数据库B、Amazon SimpleDB:云中的键值数据库C、Amazon DynamoDB:云中的数据仓库D、Amazon ElastiCache:云中的分布式内存缓存我的答案:ABC50 Microsoft的云数据库产品SQL Azure具有以下哪些特性?A、属于关系型数据库:⽀持使⽤TSQL来管理、创建和操作云数据库B、⽀持存储过程:它的数据类型、存储过程和传统的SQL Server具有很⼤的相似性C、⽀持⼤量数据类型D、⽀持云中的事务:⽀持局部事务,但是不⽀持分布式事务我的答案:ABCD51 MapReduce相较于传统的并⾏计算框架有什么优势?A、⾮共享式,容错性好B、普通PC机,便宜,扩展性好C、编程简单,只要告诉MapReduce做什么即可D、批处理、⾮实时、数据密集型我的答案:ABD52 MapReduce体系结构主要由以下那⼏个部分构成?A、ClientB、JobTrackerC、TaskTrackerD、Task我的答案:ABCD53下列关于MapReduce的体系结构的描述,说法正确的有?A、⽤户编写的MapReduce程序通过Client提交到JobTracker端B、JobTracker负责资源监控和作业调度C、TaskTracker监控所有TaskTracker与Job的健康状况D、TaskTracker 使⽤“slot”等量划分本节点上的资源量(CPU、内存等)我的答案:ABD54 MapReduce的作业主要包括什么?A、从磁盘或从⽹络读取数据,即IO密集⼯作B、计算数据,即CPU密集⼯作C、针对不同的⼯作节点选择合适硬件类型D、负责协调集群中的数据存储我的答案:AB55对于MapReduce ⽽⾔,其处理单位是split。split 是⼀个逻辑概念,它包含哪些元数据信息?A、数据起始位置B、数据长度C、数据所在节点D、数据⼤⼩我的答案:ABCD56下列关于Map 端的Shuffle的描述,哪些是正确的?A、MapReduce默认为每个Map任务分配1000MB缓存B、多个溢写⽂件归并成⼀个或多个⼤⽂件,⽂件中的键值对是排序的C、当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给ReduceD、每个Map任务分配多个缓存,使得任务运⾏更有效率我的答案:BC57 MapReduce的具体应⽤包括哪些?A、关系代数运算(选择、投影、并、交、差、连接)B、分组与聚合运算C、矩阵-向量乘法D、矩阵乘法我的答案:ABCD58 MapReduce执⾏的全过程包括以下哪⼏个主要阶段?A、从分布式⽂件系统读⼊数据B、执⾏Map任务输出中间结果C、通过 Shuffle阶段把中间结果分区排序整理后发送给Reduce任务D、执⾏Reduce任务得到最终结果并写⼊分布式⽂件系统我的答案:ABCD59下列说法正确的是?A、MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及TaskB、Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动C、在MapReduce⼯作流程中,所有的数据交换都是通过MapReduce框架⾃⾝去实现的D、在MapReduce⼯作流程中,⽤户不能显式地从⼀台机器向另⼀台机器发送消息我的答案:ABCD60 Hadoop1.0的核⼼组件( ),下列哪项是它的不⾜?BA、抽象层次⾼B、表达能⼒有限,抽象层次低,需⼈⼯编码C、价格昂贵D、可维护性低我的答案:B61下列选项中,哪些属于Hadoop1.0的核⼼组件的不⾜之处?A、实时性差(适合批处理,不⽀持实时交互式)B、资源浪费(Map和Reduce分两阶段执⾏)C、执⾏迭代操作效率低D、难以看到程序整体逻辑我的答案:ABCD62 Hadoop的优化与发展主要体现在哪⼏个⽅⾯?A、Hadoop⾃⾝核⼼组件MapReduce的架构设计改进B、Hadoop⾃⾝核⼼组件HDFS的架构设计改进C、Hadoop⽣态系统其它组件的不断丰富D、Hadoop⽣态系统减少不必要的组件,整合系统我的答案:ABC63下列哪些属于Hadoop2.0相对于Hadoop1.0的改进?A、设计了HDFS HAB、提供名称节点热备机制C、设计了HDFS Federation,管理多个命名空间D、设计了新的资源管理框架YARN我的答案:ABCD64下⾯哪个属于不断完善的Hadoop⽣态系统中的组件?A、PigB、TezC、KafkaD、DN8我的答案:ABC65 HDFS1.0 主要存在哪些问题?A、单点故障问题B、不可以⽔平扩展C、单个名称节点难以提供不同程序之间的隔离性D、系统整体性能受限于单个名称节点的吞吐量我的答案:ACD66 HDFS Federation 相对于HDFS1.0 的优势主要体现在哪⾥?A、能够解决单点故障问题B、HDFS 集群扩展性C、性能更⾼效D、良好的隔离性我的答案:BCD67 JobTracker主要包括哪三⼤功能?A、资源管理B、任务调度C、任务监控D、数据即服务我的答案:ABC68 YARN 体系结构主要包括哪三部分?A、ResourceManagerB、NodeManagerC、DataManagerD、ApplicationMaster我的答案:ABD69在YARN体系结构中,ApplicationMaster主要功能包括哪些?A、当⽤户作业提交时,ApplicationMaster与ResourceManager协商获取资源,ResourceManager会以容器的形式为ApplicationMaster分配资源B、把获得的资源进⼀步分配给内部的各个任务(Map任务或Reduce任务),实现资源的“⼆次分配”C、定时向ResourceManager发送“⼼跳”消息,报告资源的使⽤情况和应⽤的进度信息D、向ResourceManager汇报作业的资源使⽤情况和每个容器的运⾏状态我的答案:ABC70下列说法正确的是:( )A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储B、Impala和Hive、HDFS、HBase等⼯具可以统⼀部署在⼀个Hadoop平台上C、Hive本⾝不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D、HiveQL语法与传统的SQL语法很相似我的答案:BCD71以下属于Hive的基本数据类型是:( )A、TINYINTB、FLOATC、STRINGD、BINARY我的答案:ABCD72数据仓库Hive的执⾏引擎可以是:( )A、TezB、MapReduceC、PigD、Spark我的答案:ABD73以下哪些是数据仓库的特性:( )A、⾯向主题的(Subject Oriented)B、集成的(Integrated)C、相对稳定的(Non-Volatile)D、反映历史变化我的答案:ABCD74传统数据仓库⾯临哪些挑战:( )A、⽆法满⾜快速增长的海量数据存储需求B、⽆法有效处理不同类型的数据C、具有很强的扩展性D、计算和处理能⼒不⾜我的答案:ABD75 Hadoop⽣态系统中Hive与其他部分的关系的描述正确的是:( )A、HDFS作为⾼可靠的底层存储,⽤来存储Hive的海量数据B、MapReduce对这些海量数据进⾏批处理,实现Hive的⾼性能计算C、当采⽤MapRedue作为Hive的执⾏引擎时,⽤HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运⾏D、HBase与Hive的功能是互补的,它实现了Hive不能提供的功能我的答案:ABCD76关于Hive与传统关系数据库的对⽐分析,下⾯描述正确的是:( )A、在数据存储⽅⾯,Hive⼀般依赖于分布式⽂件系统HDFS,⽽传统数据库则依赖于本地⽂件系统B、在索引⽅⾯,传统的关系数据库可以针对多个列构建复杂的索引,⼤幅度提升数据查询性能,⽽Hive不像传统的关系型数据库那样有键的概念,它只能提供有限的索引功能C、在分区⽅⾯,传统的数据库提供分区功能来改善⼤型表以及具有各种访问模式的表的可伸缩性、可管理性,以及提⾼数据库效率;Hive不⽀持分区功能D、在执⾏引擎⽅⾯,传统的关系数据库依赖⾃⾝的执⾏引擎,⽽Hive则依赖于MapReduce、Tez和Spark等执⾏引擎我的答案:ABD77 Hive主要由哪三个模块组成:( )A、⽤户接⼝模块B、⽤户查询模块C、驱动模块D、元数据存储模块我的答案:ABD78当采⽤MapReduce作为Hive的执⾏引擎时,下⾯描述正确的是:( )A、当⽤户向Hive输⼊⼀段命令或查询(即HiveQL语句)时,Hive需要与Hadoop交互⼯作来完成该操作B、命令或查询⾸先进⼊到驱动模块,由驱动模块中的编译器进⾏解析编译,并由优化器对该操作进⾏优化计算,然后交给执⾏器去执⾏C、执⾏器通常的任务是启动⼀个或多个MapReduce任务,有时也不需要启动MapReduce任务D、执⾏器通常的任务⼀定会包含Map和Reduce操作我的答案:ABC三、填空题1在Pig Latin语⾔中,除了LOAD和STORE,在执⾏所有其他操作时,Pig Latin语句采⽤( )作为输⼊、输出。我的答案:关系2 Pig是⼀个基于Hadoop的⼤规模数据分析平台,它提供的类SQLE语⾔叫( ),该语⾔的编译器会把类SQL的数据分析请求转换为⼀系列经过优化处理的( )运算。我的答案:第⼀空:Pig Latin第⼆空:MapReduce3Pig 拥有⼤量的数据类型,不仅⽀持( )、( )和映射等⾼级概念,还⽀持简单的数据类型,如 int、long、float、double、chararray和 bytearray。我的答案:第⼀空:包第⼆空:元组4在Apache Pig 中,元组(⾮唯⼀)的集合被称为( )。我的答案:包5 Sqoop⼯作机制是将导⼊或导出命令翻译成( )程序来实现。我的答案:MapReduce6 HBase依赖( )提供消息通信机制我的答案:Zookeeper7 HBase 靠( )存储底层数据依我的答案:HDFS8 HBase 分布式模式最少需要的节点数是( )我的答案:19在安装hdfs时其中tFS参数是配置⽂件( )中配置定义的。我的答案:四、判断题1在Pig Latin中。 GROUP 运算符⽤于在⼀个或多个关系中对数据进⾏分组,它收集具有相同key的数据我的答案: √2在Pig Latin中,JOIN 运算符⽤于组合来⾃两个或多个关系的记录。在执⾏连接操作时,我们从每个关系中声明⼀个(或⼀组)元组作为key。 当这些key匹配时,两个特定的元组匹配,否则记录将被丢弃。我的答案: √3在Pig Latin中,CROSS 运算符计算两个或多个关系的向量积。我的答案: √4 pache Sqoop是在Hadoop⽣态体系和RDBMS体系之间传送数据的⼀种⼯具。我的答案: √5 Sqoop是实现Hadoop⽣态系统与关系数据库之间传送数据的⼀种客户端 ⼯具。我的答案: ×6 Sqoop2⽀持将关系数库的内容导⼊到Hive或HBase.我的答案: √7 HBase 中的数据都是字节,且有各种类型。我的答案: ×五、简答题1 Hadoop是什么?其核⼼由两⼤部分组成,分别是什么?我的答案:Hadoop是⼀种分析和处理⼤数据的软件平台,是Appach的⼀个⽤java语⾔所实现的开源软件的架框,在⼤量计算机组成的集群当中实现了对于海量的数据进⾏的分布式计算。主要由分布式处理,分布式储存两⼤部分组成。2 MapReduce是什么?MapReduce的处理过程分为哪两部分?我的答案:MapReduce是⼀种编程模型,⽤于⼤规模数据集的并⾏运算。处理过程分为Map(映射)和Reduce(归约)两个部分。3 ZooKeeper是什么?Zookeeper的应⽤场景主要有哪些?我的答案:Zookeeper是⼀个分布式的,开放源码的分布式应⽤程序协调服务,是Google的Chubby的⼀个开源的实现。它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进⾏下⼀步的合理操作。最终,将简单易⽤的接⼝和性能⾼效、功能稳定的系统提供给⽤户。主要应⽤场景为:分布式协调、分布式锁、元数据、配置信息管理、HA⾼可⽤性。4 Zookeeper的⾓⾊分为⼏种?分别有什么功能?我的答案:分三种。Leader:负责响应所有对Zookeeper状态变更状态的请求。Follower:响应本服务器上的读请求,处理leader的提议,并在leader提交该协议时在本地也进⾏提交。Observe:除了⽆选举权,其余和Follower⼀样,设置⼀些Observe以提⾼读取的吞吐量。5 Znode的节点分为哪⼏种类型?我的答案分为两种:临时节点和永久节点。六、计算题1根据要求完成,在HbaseShell中以下操作:(1)创建表t1,有1个family name:f1,版本数均为5;(2)给表t1的添加⼀⾏记录,其中,rowkey是rowkey001,family name是f1,column name是col1,value是value01,timestamp为系统默认。(3)查询表t1,"rowke001"中的f1下的所有列值我的答案:hbase(main)>create ‘t1’,{NAME=>‘f1’,VERSIONS=>5}hbase(main)>put ‘t1’,‘rowkey001’,‘f1:col1’,‘value 01’hbase(main)>get ‘t1’,‘rowkey001’2 请简述在V3个节点(Master,Slave1,Slave2)的Hadoop分布式集群中安装操作步骤(只描述主要操作步骤,不⽤描述实现的细节)。我的答案:解压安装包;修改配置⽂件,设置JDk⽬录;配置核⼼组件;修改⽂件配置;配置计算框架;在master节点配置slaves⽂件;将hadoop⽂件复制到其它两个节点;同时在三个节点配置Hadoop启动的系统环境变量;同时在三个节点上创建数据⽬录。3根据下⾯的要要求,在Hive Shell中执⾏相应的命令完成相应的操作。(1)创建⼀个外部表bigdata_user,其结构信息如下所⽰。数据在hdfs中的存放路径为:‘hdfs://localhost:9000/bigdatacase/dataset’,分隔符为‘t’id intuid stringitem_id stringbehavior_type intitem_category stringvisit_date dateprovince string(2)计算出表内有多少条⾏数据(3)查看前10条信息我的答案:create external table bigdata_user(id int,uid string,item_id string,behavior_type int,item_category string,visit_datedate,province string)row format delimitedfields terminated by ‘t’location ‘hdfs://localhost:9090/bigdatacase/dataset’;select count(*) from bigdata_user;select* from bigdata_user where 1=1 limit 10;
发布者:admin,转转请注明出处:http://www.yc00.com/xiaochengxu/1687987081a64121.html
评论列表(0条)