2024年2月26日发(作者:笔记本散热器排行榜)
大数据开发基础(试卷编号1412)
说明:答案和解析在试卷最后
1.[单选题]下列选项中,哪一个可以对Hadoop集群进行格式化()A)hadoop namenode -formatB)hadoop namenode -lsC)hdfs datanode -lsD)hdfs datanode -format
2.[单选题]以下对信息描述不正确的是( )。A)信息与能源、材料属于同一层次的概念B)信息是客观的存在C)信息是人类社会赖以生存和发展的三大资源之一D)信息是对数据进行计量形成的记录
3.[单选题]在 IBMPASS 中,聚类算法分为分层聚类、Kohonennetwork、K 均值聚类和( ) 四种。A)系统聚类B)两步聚类C)模型聚类D)其他聚类
4.[单选题]大数据的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可视)D)Variety(多样)
5.[单选题]输入图片大小为100×100×3,依次经过一层卷积(kernel size 5×5,paddingsame,stride 2),pooling(kernel size 3×3,padding same,stride 2),又一层卷积(kernel size 3×3,padding valid,stride 1)之后,输出特征图大小为:( )A)25×25B)50×50C)48×48D)23×23
6.[单选题]IBM在3V的基础上又归纳总结了第4个V是指A)真实和准确B)无时不在
C)巨量D)极速
7.[单选题]在Zookeeper中,路径由( )字符串构成。A)UnicodeB)UTF-8C)GBKD)ASCII
8.[单选题]关于 Spark 的说法中,( )是错误的。A)采用内存计算模式B)可利用多种语言编程C)主要用于批处理D)可进行map()操作
9.[单选题]Spark诞生于哪所学院A)加州大学芝加哥分校B)哈佛大学加州分校C)加州大学伯克利分校D)斯坦福大学圣地亚哥分校
10.[单选题]在概率图模型中,(__)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模。A)马尔可夫随机场B)隐马尔可夫模型C)条件随机场D)逆误差传播
11.[单选题]某地区级网络提供商使用Maxcompute存储、分析宽带用户的流量信息,用户每登陆一次产生一条纪录,日均记录数在2000万条左右,目前最常见为基于区县(该市共有12个区县)、日期(天)的各种查询,其中部分查询只带有区县信息。架构师在设计用户登陆信息表时,决定建成分区表,对于分区列的选取,以下性能最好的是:( )。A)以字符串型日期信息(天)为分区别B)以字段组合(字符串型区县信息,字符串型日期信息(天))为分区列C)以字符串型区县信息为分区列D)以字符串型日期信息(天)为第一级分区列,以字符串型区县为第二级分区列
12.[单选题]引用集合数据类型中的元素选择sub数组中第一个元素进行查询,正确的是( )A)select name,subordinates[0] from emplyees;B)select name,subordinates[1] from emplyees;C)select name,subordinates from emplyees;D)以上都不正确
13.[单选题]本行()负责牵头开展数据治理风险管理工作,规范数据风险管理A)风险管理部B)内审监督部C)科技部D)数据运管部
14.[单选题]对于随机森林和 GBDT,下面说法正确的是()。A)在随机森林的单个树中,树和树之间是有依赖的,而 GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集,来生成许多单个的树C)我们可以并行地生成 GBDT单个树,因为它们之间是没有依赖的D)GBDT训练模型的表现总是比随机森林好
15.[单选题]一个关系只有一个( )A)外码B)候选码C)超码D)主码
16.[单选题]根据《泛在电力物联网2019年建设方案》,多维精益管理体系变革工作不包含以下哪一项( )A)重点推进业务流程在线贯通、企业级数据标准建设和信息频道化输出,实现电网运营数据全面连接、经营状态多维展示B)按人资、设备、营销、物资等业务条线细化管理颗粒度,实现投入产出精准分析评价C)搭建市场化业务精益管理体系,支撑新兴业务开拓D)提高业务数字化和线上化水平,增强精益化管理能力,支撑市场开拓和价值创造,提升企业经营绩效
17.[单选题]随机森林是在(__)上的一个扩展变体。A)BoostingB)AdaBoostC)RFD)Bagging
18.[单选题]把图像分割问题与图的最小割(mincut)问题相关联的方法是( )。A)基于图论的分割方法B)分水岭算法C)SLIC 算法D)基于阈值的方法
19.[单选题]Maxcompute 的屏显行数可以通过管理控制台实现,最大的显示条数是:( )。A)100条B)10000条
C)1000条D)5000条
20.[单选题]下列关于对Zookeeper的ruok命令描述正确的是( )。A)输出服务器的配置信息B)输出服务器的统计信息C)如果服务器正在运行并且未处于出错状态,则输出imokD)输出服务器的环境信息
21.[单选题]以下哪项不属于图像分割的目的。()A)把不同类标分开。B)提取不同区域的特征。C)识别图像内容,或对图像进行分类。D)对未处理噪声的图像进行平滑。
22.[单选题]考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是A)2B)3C)3.5D)5
23.[单选题]以()为指导,结合业务数据资产需求和数据资产管理现状,编制专业数据资产发展规划,统筹编制公司数据资产发展规划。A)公司战略B)公司数据安全战略C)公司管理制度D)公司数据资产发展战略
24.[单选题]关联规则的评价指标是( )A)均方误差、均方根误差B)kappa 统计、显著性检验C)支持皮、置信度D)平均绝对误差、相对误差
25.[单选题]下列关于计算机存储容量单位的说法中,错误的是( )。A)1KB<1MB<1GBB)基本单位是字节(Byte)C)一个汉字需要一个字节的存储空间D)一个字节能够容纳一个英文字符
26.[单选题]在支持向量机中,“间隔”是指(__)。A)非支持向量到划分超平面间的距离之和
B)支持向量之间的距离C)支持向量和非支持向量之间的距离D)支持向量到超平面的距离之和
27.[单选题]“for”是一种常用的循环语句。下列语句运行后,变量sum的值为( )sum=0for i inrange(10): sum=sum+iA)55B)10C)11D)45
28.[单选题]Apache Hadoop可以在(___)平台上运行。A)UbuntuB)DebianC)WindowsD)跨平台
29.[单选题]如果只写 open(lename),那就是用( )模式打开。A)rB)wC)aD)b
30.[单选题]就数据的量级而言,1PB数据是( )TB。A)1000B)1024C)512D)2048
31.[单选题]在Spark中( )是弹性分布式数据集,是最重要的一类数据抽象。A)RDDB)Driver进程C)SparkContextD)ClusterManager
32.[单选题]( )不是长短时记忆神经网络兰个门中的一个门A)输入门B)输出门C)遗忘门D)进化门
33.[单选题]MOS系统的开发者是()。
A)微软公司B)惠普公司C)苹果公司D)IBM公司
34.[单选题]在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)A)200B)40000C)600D)1200
35.[单选题]对数几率回归(logistics regression)和一般回归分析有什么区别?A)对数几率回归是设计用来预测事件可能性的B)对数几率回归可以用来度量模型拟合程度C)对数几率回归可以用来估计回归系数D)以上所有
36.[单选题]下面这条GaussDB 200语句"call dbms_job. broken(1, true):”的意思是() ?A)停止任务TD为1的Job.B)启动任务ID为1的Job.C)延时任务ID为1的Job.D)删除任务ID为1的Job.
37.[单选题]哪种不是Flink提供的部署方式?A)ClusterB)CloudC)VMD)Local
38.[单选题]选项( )可以令下面的代码输出结果为Truea = foo(2)b = foo(3)print(a < b)A)class foo: def __init__(self, x): self.x = x def __lt__(self, other): if self.x 39.[单选题]信息增益、增益率分别对可取值数目( )的属性有所偏好。A)较高,较高 B)较高,较低C)较低,较高D)较低,较低 40.[单选题]Hadoop 的 MapReduce 组件擅长处理哪些场景的计算任务?A)迭代计算B)离线计算C)实时交互计算D)流式计算 41.[单选题]hbase 的底层数据以答案:的形式存在的?A)keyvalueB)列存储C)行 存 储D)实时存储 42.[单选题]下列选项中,存放Hadoop配置文件的目录是()A)includeB)binC)libexecD)etc 43.[单选题]以下关于n刚说法不正确的是( )A)层数多B)抽象能力强C)模拟更复杂模型D)广义上包含CNN、DBN、SVM等 44.[单选题]迪士尼MagicBand手环,体现了哪种大数据思维方式:()A)我为人人,人人为我B)全样而非抽样C)效率而非精确D)相关而非因果 45.[单选题]以下哪种工作是Flume无法处理的?A)多个Flume级联合并B)按照用户定制采集数据C)直接写到Fink特定task中D)从固定目录下采日信息到目的地 46.[单选题]在回归分析中,说法正确的是()。A)解释变量和被解释变量都是随机变量 B)解释变量为非随机变量,被解释变量为随机变量C)解释变量和被解释变量都为非随机变量D)解释变量为随机变量,被解释变量为非随机变量 47.[单选题]数据清洗的方法不包括()。A)缺失值处理B)噪声数据清除C)一致性检查D)重复数据记录处理 48.[单选题]SQL语言中,删除一个视图的命令是( )A)REMOVEB)CLEARC)DELETED)DROP 49.[单选题]数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A)暂时隔离B)暂时删除C)永久删除D)不做处理 50.[单选题]下列选项中用于查询数据的是( )。--A)INSERTB)SELECTC)UPDATED)DELETE 51.[单选题]以下关于数据中心、业务系统访问权限的说法正确的有()。A)数据中心、业务系统权限账号仅供责任人登录使用,不得借与他人B)数据中心、业务系统权限账号密码不超过6个月要更换一次C)为了保密,对数据中心、业务系统权限账号的登录时间、时长等实行无痕迹管理D)数据中心 、业务系统访问权限实行匿名制管理 52.[单选题]HBASE中使用的压缩算法是()A)gzipB)LZOC)SnappyD)ZAPPY 53.[单选题]Spark 的()组件用于支持实时计算需求。 A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib 54.[单选题]以下选项中哪个不属于数据预处理的方法()。A)数据清洗B)数据集成C)数据变换D)数据统计 55.[单选题]根据泛在电力物联网建设战略安排,第二个阶段是到()年,建成泛在电力物联网。A)2020B)2021C)2024D)2025 56.[单选题]下列语句会无限循环下去的是( )。A)for a in range(10): timesleep(10)B)while i<10:Timesleep(10)C)while True:BreakD)a = [3,-1,',']For i in a[:]: if not a:Break 57.[单选题]哪个不是Flume的 channel 类型?A)Memory ChannelB)File ChannelC)JDBC CHannelD)HDFS Channel 58.[单选题]kNN 最近邻方法在( )情况下效果较好。A)样本较多但典型性不好B)样本呈团状分布C)样本呈链状分布D)样本较少但典型性好 59.[单选题]以下哪项用于左连接( )A)JOINB)RIGHT JOIN C)LEFT JOIND)INNER JOIN 60.[单选题]使用sklearn库进行预测结果的交叉验证,需要导入一下哪个包( )。A)_modelB)_selectionC)_bayesD)le 61.[单选题]Flink不包含以下哪些数据处理场景?()A)高可靠性B)图形分析C)毫秒级低时延D)高并发 62.[单选题]以下关于 Kafka Partition 偏移量的描述不正确的是?A)每条消息在文件中的位置称为 offset答案:偏移量B)消费者通过答案:跟踪记录C)唯一标记一条消息D)Offset 是一个 String 型字符串 63.[单选题]耦合性和内聚性是对模块独立性度量的两个标准。下面叙述中正确的是A)降低耦合性提高内聚性有利于提高模块的独立性B)耦合性是指一个模块内部个元素间彼此结合的紧密程度C)提高耦合性降低内聚性有利于提高模块的独立性D)内聚性是模块间相互连接的紧密程度 64.[单选题]创建存储过程的关键字是( )。--A)CREATE PROCB)CREATE DATABASEC)CREATE FUNCTIOND)CREATE PROCEDURE 65.[单选题]执行以下代码段class Graph(): def __init__(self): self.a = 10 defaction(self): self.a //= 4class MyGraph(Graph): def __init__(self): self.a = 8 self.b =4 def action(self): self.a += 7 * 2 self.b //= 2class LastGraph(MyGraph): passg2 =LastGraph()()print(g2.a)时,输出为( )。A)22B)84C)16D)34 66.[单选题]()是指个体对视觉感知信息的进一步加工处理过程,包括视觉信息的抽取、转换、存储、简化、合并、理解和决策加工活动。A)视觉感知B)视觉认知C)视觉编码D)视觉转换 67.[单选题]数据使用环节的安全技术措施除防火墙、()、防病毒、防 DDOS、漏洞检测等网络安全防护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。A)入侵检测B)病毒检测C)程序检测D)进程检测 68.[单选题]下列关于数据处理流程,说法有误的是?( )A)在传统的数据处理流程中,存储的数据是旧的B)在传统的数据处理流程中,需要用户主动发出查询来获取结果C)传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中D)流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务 69.[单选题]执行以下代码段alien_1 = {'color': 'green', 'points': 5}alien_2 = {'color':'blue', 'points': 1}print(alien_1 < alien_2)时,输出为( )。A)TrueB)FalseC)ErrorD)None 70.[单选题]CsvAssemble数据转换器的作用是( )A)数值组装B)把文本按照分词规则转化为CSNC)把多个字符串拼接成CSV格式的字符串D)逆标准化 71.[单选题]医疗大数据的主要来源不包括()。A)制药企业/生命科学B)临床医疗/实验室数据C)费用报销/利用率D)健康管理/社交网络 72.[单选题]在SELECT语句中,使用关键字( )可以把重复行屏蔽A)TOP B)ALLC)UNIOND)DISTINCT 73.[单选题]pynlpir 是一种常用的自然语言理解工具包,其中进行分词处理的函数是( )。A)open()B)segment()C)AddUserWord()D)generate() 74.[单选题]从数据到智慧的转换依次递进过程是( )。A)数据、知识、信息、理解、智慧B)数据、信息、理解、知识、智慧C)数据、信息、知识、理解、智慧D)数据、理解、信息、知识、智慧 75.[单选题]ID、F 采用了 IWF 的几次平方?()A)、一次B)、二次C)、三次D)、四次 76.[单选题]( )主要提供内存计算框架。A)Spark 核心层B)资源计算层C)服务核心层D)Spark 层 77.[单选题]Metastore是Hive的( )的集中存放地,它保存了Hive的元数据信息A)元数据B)配置信息C)登录信息D)权限设置 78.[单选题]FusionInsight Manager 用户权限管理不支持哪个配置?A)给用户配置角色B)给用户组配置角色C)给角色配置权限D)给用户组配置权限 79.[单选题]为了得到和 SVD 一样的投射(projection),你需要在 PCA 中怎样做A)将数据转换成零均值 B)将数据转换成零中位数C)将数据转换成最大值D)以上方法不行 80.[单选题]数据仓库是随着时间变化的,下面的描述不正确的是()。A)数据仓库随时间的变化不断增加新的数据内容B)捕捉到的新数据会覆盖原来的快照C)数据仓库随事件变化不断删去旧的数据内容D)数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 81.[单选题]下面不属于脏数据的是(__)。A)有缺失值B)冗余数据C)噪声数据D)无序数据 82.[单选题]ADS可以使用explain命令查看执行计划。下面说法中正确的是:( )。A)当用户发起一个explain查询到ADS系统后,ADS会根据所有活跃节点上的数据来分析执行计划B)当用户通过查询的方式,想要获取文本格式的explain语句后,将会得到一个XML格式的串C)逻辑计划汇总,TableExecutor节点表示参与计算后的信息,JoinExecutor表示join的节点信息D)explain正确执行后返回信息中,第一行为逻辑计划,第二行为物理计划 83.[单选题]( )情况下,LDA 会失败。A)如果有辨识性的信息不是平均值,而是数据的方差B)如果有辨识性的信息是平均值,而不是数据方差C)如果有辨识性的信息是数据的均值和方差D)以上答案都不正确 84.[单选题]( )用于将非线性引入神经网络,它会将值缩小到较小的范围内。A)损失函数B)优化函数C)激活函数D)目标函数 85.[单选题]Python如何定义一个函数:()A)classB)functionC)defD)template 86.[单选题]常用的数据归约方法可以分为()。A)维归约、数据压缩 B)维归约、参数归约C)维归约、值归约D)数据压缩、值归约 87.[单选题]下面几种梯度下降方法中,哪种是速度最慢的: ( )A)SGDB)AdagradC)RMSPropD)Adam 88.[单选题]下面不属于探索性统计中常用集中趋势统计量的是(__)。A)和B)方差C)平均数D)四分位数 89.[单选题]根据泛在电力物联网建设战略安排,第一个阶段是到()年,初步建成泛在电力物联网。A)2020B)2021C)2024D)2025 90.[单选题]假设属性income的最大最小值分别是98000元和12000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为( )。A)0.821B)1.224C)1.45D)0.716 91.[单选题]关于数据产品,以下说法错误的是( )。A)数据产品的存在形式是数据集B)与传统物质产品不同的是,数据产品的消费者不仅限于人类用户.还可以是计 算机以及其他软硬件系统C)数据产品不仅包括数据科学项目的最终产品,也包括其中间产品以及副产品D)数据产品开发涉及数据科学项目流程的全部活动 92.[单选题]在面积图中,面积是指( )A)坐标系中不同的点围成的最大图形面积B)坐标系中不同的点所连成的折现投影于纵轴的面积C)坐标系中不同的点所连成的折现投影于横轴的面积D)坐标系中不同的点围成的最小图形面积 93.[单选题]在 Zookeeper 和Yarn 的协同工作中,当 Active ResourceManager 产生故障时,Standby ResourceManager 会从以下哪些目录中获取 Application 相关信息?A)metastoreB)StatestoreC)StoreageD)Warehouse 94.[单选题]以下哪个不是大数据的“4V”特性:()A)数据量大B)数据类型繁多C)处理速度快D)价值密度高 95.[单选题]开发人员在使用大数据计算服务的图计算时,主要的输入数据在表中,另外还有一些非结构化的配置信息存在一个本地文件中,则可以采用( )方式使得这些配置信息在图计算过程中可用。A)将这个配置信息做为resource上传到大数据计算服务中,在图计算过程中可以读取resource中的数据B)输入输出只能是Table,必须要把这部分数据放到表中C)在group程序中直接读取本地的文件信息D)输入只能是一张表,因此无法满足这个场景 96.[单选题]( )返回模块名称空间的字典,( )返回当前名称空间的字典。A)locals()locals()B)global()locals()C)locals()global()D)globals()globals() 97.[单选题]()是表示数据分布是否为对称性的统计量。A)方差B)中位数C)偏态D)峰态 98.[单选题]下面说法正确的是A)基于像素的图像增强方法是一种线性灰度变换B)基于像素的图像增强方法是基于空间域的图像增强方法的一种C)基于频域的图像增强方法由于常用到傅里叶变换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高D)基于频域的图像增强方法比基于空域的图像增强方法的增强效果好 99.[单选题]以下描述中错误的是( )。A)数据化与数字化是两个不同概念B)数据与数值是一个概念C)大数据与海量数据是两个不同的概念D)数据和信息是两个不同的概念 100.[单选题]( )与 HDFS 类似。A)NTFSB)FAT32C)GFSD)EXT3 101.[单选题]对长度为n的线性表作快速排序,在最坏情况下,比较次数为___________。A)n(n-1)/2B)n(n-1)C)n-1D)n 102.[单选题]HDfS中的block默认保存几份?A)3份B)2份C)1份D)不确定 103.[单选题]shuffle和sort输出的key实现了下面哪个接口()A)WritableB)WritableComparableC)ConfigurableD)ComparableWritable 104.[单选题]图像中虚假轮廓的出现就其本质而言是()。A)图像的灰度级数不够多而造成的B)图像的空间分辨率不够高而造成的C)图像的灰度级数过多而造成的D)图像的空间分辨率过高而造成的 105.[单选题]以下不属于数据审计的是()A)预定义审计B)自定义审计C)可视化审计D)特征审计 106.[单选题]MaxCompute表中的列,不支持:( )数据类型。A)booleanB)varcharC)bigintD)double 107.[单选题]跨平台基础设施和分析工具不包括A)亚马逊Web服务B)微软CortanaC)Google云平台D)微软Azure 108.[单选题]用决策树法训练大量数据集时,( )最节约时间。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个数 109.[单选题]YARN 中默认的资源调度器是?A)FIFO 调度器B)容量调度器C)Fair 调度器D)以上全不是 110.[多选题]关干大数据的主要特征理解和描述正确的有A)来源多,格式多B)增长速度快,处理速度快C)存储量大 计算量大D)数据的价值密度较低 111.[多选题]下面不属于机器学习的先天本能是?( )A)人们依据现有数据抽象出来的数学模型B)学习training data set中输入输出数据间的关系C)举一反三学习training data set中数据D)优化输入数据和输出数据的映射关系/函数好坏的评价函数 112.[多选题]下列关于 AUC 面积的描述正确的有( )。A)AUC 被定义为 ROC 曲线下与坐标轴围成的面积B)AUC 面积的值大于 1C)AUC 面积的值等于 0.5 时,真实性最低,无应用价值D)AUC 面积的值越接近 1.0,检测方法真实性越高 113.[多选题]下列关于情感分析的说法正确的是?A)简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B)情感分析的发展得益于社交媒体的兴起C)按照处理文本的粒度不同,情感分析大致可分为词语级,句子级、篇章级三个D)情感分析可以应用于文本挖掘 114.[多选题]关系型数据库计费项包括哪些()A)实例规格B)数据备份空间C)存储空间D)公网带宽 115.[多选题]Spark 支持的计算模型有()。A)批处理B)实时计算C)机器学习模型D)交互式查询 116.[多选题]数据产品“以数据为中心”的特征不仅体现在“以数据为核心生产要素”,而且还表现在以下哪些方面( )。A)数据驱动B)数据密集型C)数据范式D)知识范式 117.[多选题]下列关于脏数据的说法中,正确的是( )A)格式不规范B)编码不统一C)意义不明确D)与实际业务关系不大 118.[多选题]相对于Hadoop MapReduce,Spark 的特点有()。A)通用性B)易用性C)速度快D)容错性 119.[多选题]下列属于卷积神经网络组成部分的有( )。A)卷积层B)中间层C)池化层D)全连接层 120.[多选题]下列关于Map 端的Shuffle的描述,哪些是正确的?A)MapReduce默认为每个Map任务分配1000MB缓存B)多个溢写文件归并成一个或多个大文件,文件中的键值对是排序的C)当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给ReduceD)每个Map任务分配多个缓存,使得任务运行更有效率 121.[多选题]以下关于Loader的描述中,正确的有哪几项?A)提供可视化向导式的作业配置管理界面。B)是基于开源Flume研发,做了大量优化和扩展。C)提供定时调度任务,周期性执行Loader作业。D)在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统。 122.[多选题]图像识别技术的过程分以下几步:信息的获取、(__)、(__)、分类器设计和分类决策。A)辨认B)预处理C)统计D)特征抽取和选择 123.[多选题](__)是数据科学的主要理论基础之一。A)机器学习B)统计学C)数据D)黑客精神与技能 124.[多选题]Redis使用场景包含以下哪些特点?A)低延时B)高性能C)丰富数据结构存取D)支持持久化 125.[多选题]RNN在NLP领域的应用包括( )A)语言模型与文本生成B)机器翻译C)语音识别D)图像描述生成 126.[多选题]Zookeeper的设计特点为()A)最终一致性B)顺序一致性C)原子性 D)(最终)实时性 127.[多选题]不同的计算框架统一运行在YARN中,可以带来哪些好处:( )A)减少了所使用的编程语言的种类B)计算资源按需伸缩C)不用负载应用混搭,集群利用率高D)共享底层存储,避免数据跨集群迁移 128.[多选题]HBase的可视化Web界面可以查询到()。A)表的信息B)Region信息C)Region起始RowKeyD)以上全不正确 129.[多选题]下列Python文件模式中,可写的模式是(___)。A)“r”B)“W”C)“a”D)“W+” 130.[多选题]不会对基本K-均值算法产生影响的因素是A)样本输入顺序B)模式相似性测度C)聚类准则D)初始类中心的选取 131.[多选题]HAVING 与 WHERE 的不同之处有()A)WHERE语句可以使用聚合函数,而HAVING不能使用。B)HAVING只用于GROUP BY分组统计语句中。C)HAVING子句中的每一个元素必须出现在SELECT列表中。D)HAVING 针对表中的列发挥作用,查询数据;WHERE 针对查询结果中的列发挥作用,筛选数据。 132.[多选题]信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:()A)存储设备容量不断増加B)CPU处理能力大幅提升C)量子计算机全面普及D)网络带寛不断増加 133.[多选题]对于通过纸质、磁介质、光介质及半导体介质等各类物品形式提供给社会第三方的重要数据,说法正确的是()A)须经省级单位业务主管部门以及分管领导审核,并通过总部业务主管部门审批,B)严格限制数据知悉范围 C)与社会第三方签署数据安全保密协议D)不得私自复制、保存、打印相关数据 134.[多选题]下列Python语句正确的是()()A)min = x if xB)max = x > y ? x : yC)if(x>y) :print(x)D)while True:pass 135.[多选题]下面数据库名称合法的是( )A)db1/studentB)tC)db1_studentD)db1&student 136.[多选题]以下哪些项属于Flink常见的窗口类型?A)滑动计数窗口B)会话窗口C)滚动时间窗口D)滚动计数窗口 137.[多选题]对于GaussDB 200而言,字段的设计应该注意以下哪些事项()?A)在满足业务精度的情况下,NUKREIC的优先级比浮点数高。B)尽量使用符合实际业务描述的字段。C)尽量使用高效率的字段类型D)考虑数据美观,尽量使用同一种数据类型,比如Text. 138.[多选题]Hadoop启动方法有(ABC)A)))) 139.[多选题]下列关于集成学习的说法正确的有( )。A)随机森林是减少模型的方差,而 GBDT 是减少模型的偏差B)组成随机森林的树可以并行生成,而 GBDT 是串行生成C)随机森林的结果是多数表决的,而 GBDT 则是多棵树累加之和D)随机森林对异常值不敏感,而 GBDT 对异常值比较敏感 140.[多选题]为TIME类型字段添加(),其插入数据库中的时间为48:20:50。--A)'482050'B)482050 C)'2 00:20:50'D)以上答案都不正确 141.[多选题]Spark是一种类MapReduce计算框架,相比较MapReduce有何优势A)内存计算,速度快B)架构支持广泛,可多平台运行C)融合流计算、算法等功能于一体D)分布式计算架构 142.[多选题]在华为大数据解决方案中,hadoop 底层包含以下那些组件?A)finkB)hiveC)minerD)spark 143.[多选题]下面属于数据科学主要研究内容的有(__)。A)理论基础B)数据加工C)数据计算D)数据产品开发 144.[多选题]项目空间(project)是大数据计算服务(MaxCompute,原ODPS )的基本组织单元,它类似于传统数据库的Database。以下关于项目空间的说法中正确的有:( )。A)所有的对象都会属于某个项目空间B)一个帐号可以拥有多个项目空间的权限C)一个帐号可以创建多个项目空间,最多不能超过10个D)通过安全授权,可以在一个项目空间中访问另一个项目空间中的数据 145.[多选题]ADS中不同型号的ECU标识着( )不同的配置。A)内存大小B)磁盘空间C)带宽D)Vcpu核数 146.[多选题]以下选项中,属于MapReduce 特征的有( )。A)以主从结构的形式运行B)容错机制的复杂性C)任务备份机制的必要性D)数据存储位置固定 147.[多选题]大数据安全表现出与传统数据安全不同的特征,具体来说包括哪几个方面:A)大数据成为冋络攻击的显著目标 B)大数据加大隐私泄露风险C)大数据技术被应用到攻击手段中D)大数据成为高级可持续攻击(APT)的载体 148.[多选题]以下哪些学科和数据挖掘有密切联系?A)统计B)计算机组成原理C)人工智能D)矿产挖掘 149.[多选题]HIS 表色系的三属性包含( )。A)色调B)饱和度C)亮度D)色度 150.[多选题]根据数据流如何在两个 TransFormation 之间传输数据,数据流可以分为那些类型?A)一对一流B)distributing 流C)一对多流D)redistributig 流 151.[多选题]层次聚类试图在不同层次对数据集进行划分。这里数据集的划分可采用(__)或(__)策略。A)自顶向下B)自底向上 C)自左至右D)自右至左 152.[多选题]网站个性化推荐的背后,可以使用哪些类型的数据实现A)半结构化B)结构化C)非结构化D)无结构化 153.[多选题]训练CNN时,GPU显存溢出,此时可以采取什么办法?()A)减少mini_batch大小B)移除一些卷积层C)减少图片输入大小D)增加激活函数 154.[多选题]关于语句limit 5,5,说法正确的是A)表示检索出第5行开始的5条记录B)表示检索出行6开始的5条记录C)表示检索出第6行开始的5条记录D)表示检索出行5开始的5条记录 155.[多选题]在HBase系统架构中,HMaster的主要职责有( )【选三项】A)管理用户对表的增、删、改和查的操作B)管理HRegionServer的负载均衡(Load Balancer),调整Region分布C)Region分片(Region Split)后,负责新Region的分布D)在HRegionServer停机后,负责失效HRegionServer上的Region恢复 156.[多选题]研发大数据分析软件,主要具备的功能有A)用户登录及权限划分B)数据检索及挖掘C)数据分析D)持续监控E)实时共享 157.[判断题]增量同步通过解析日志等技术,将源端产生的增量数据同步至 目标端。 无需中断业务,实现同步过程中源业务和数据库继续对外提供访问。A)正确B)错误 158.[判断题]Flume中轮询调度(Round Robin Scheduling)算法就是以轮询的方式依次请求不同的服务器,它是一种有状态调度。A)正确 B)错误 159.[判断题]在 Spark中引人 RDD 概念的目的是实现 Spark的串行操作和灵活的容错能力。A)正确B)错误 160.[判断题]表达式(i**2 for i in range(100))的结果是个元组。A)正确B)错误 161.[判断题]奥巴马认为,对大数据的占有与控制,反映的是一个国家的核心能力之大小。因此,他已经将大数据上升到国家战略高度。A)正确B)错误 162.[判断题]谷歌翻译这所以更好,因为它拥有一个更好的算法机制,而不是因为增加了各种各样的数据A)正确B)错误 163.[判断题]Mapreduce的input split就是一个block。( )A)正确B)错误 164.[判断题]在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟舍不足的问题。( )A)正确B)错误 165.[判断题]Flink适用于高并发处理数据、毫秒级时延应用。A)正确B)错误 166.[判断题]主键用于唯一标识表中的记录。--A)正确B)错误 167.[判断题]深度学习是机器学习的一部分,机器学习又是人工智能的一部分。A)正确B)错误 168.[判断题]数据中台汇聚数据类型包括结构化、非结构化、采集量测。 A)正确B)错误 169.[判断题]安全域是指基于相同安全防护需求、可采用相似安全策略且不改变维护界面等原则划分的区域。A)正确B)错误 170.[判断题]strip()方法默认会删除字符串头尾的空格。( )A)正确B)错误 171.[判断题]集合中 in 的测试速度比列表快很多。A)正确B)错误 172.[判断题]回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。( )A)正确B)错误 173.[判断题]导入数据字典的excel中,字典类型代码在系统中不存在且在excel中不存在,否则导入失败。A)正确B)错误 174.[判断题]我国互联网发展成就巨大,但是还没有进入融合创新期A)正确B)错误 175.[判断题]在没有大数据的条件下,人才的发现与选拔都很难做到“全信息”,大数据能够帮助人们解决这个问题。A)正确B)错误 176.[判断题]异常处理结构中的 finally 块中代码仍然有可能出错从而再次引发异常。A)正确B)错误 177.[判断题]回归问题和分类问题都有可能发生过拟合。( )A)正确B)错误 178.[判断题]Kafka中的Broker在收到新消息后会立即存入磁盘。A)正确B)错误 179.[判断题]DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。( )A)正确B)错误 180.[判断题]对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。A)正确B)错误 181.[判断题]SQL 数据库主要称为关系数据库。A)正确B)错误 182.[判断题]( )create table 语句中有定义主键的选项。A)正确B)错误 183.[判断题]量化是一种把定性指标转换为定量指标的方法,用具体的数据表示出来。A)正确B)错误 184.[判断题]Logistic 回归目标函数是最小化后验概率。( )A)正确B)错误 185.[判断题]pandas 中 head(n)的意思是获取最后的 n 行数据A)正确B)错误 186.[判断题]大数据安全与大数据应用是一体之两翼,同等重要,不可偏废。A)正确B)错误 187.[判断题]关系型数据库管理系统简称RDBMS。( )A)正确B)错误 188.[判断题]移动互联网实现了人人相连、人物相联、物物相连。A)正确B)错误 189.[问答题]Spark相较于MapReduce将中间数据放在 ( ) (请填写中文)中,因此迭代效率更高。 190.[问答题]Flume 的tises 配置文件中可以配置多个channel 来传输数据A)TrueB)False 191.[问答题]Kafka Consumer写数据的总体流程是,Consumer连接指定的Topic Partition所在的LeaderBroker,用主动的方式从Kafka中获取消息。A)TRUEB)FALSE 192.[问答题]reduce的输出通常存储在( )中以实现可靠存储。 193.[问答题]r命令的作用? 194.[问答题]MapReduce在操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为()和()两个阶段。 195.[问答题]Flume的核心是把数据从数据源通过()收集过来,再将收集的数据通过(Channel)汇集到指定的()。 196.[问答题]请列举几个常用的统计计算方法,并说明它们的作用。 197.[判断题]大数据分析是对总体数据,尤其是针对传统手段捕捉到的数据之外的非结构化数据 进行分析。A)正确B)错误 198.[判断题]大数据分析结果可直接用于项目决策,不需要行业专家参与。A)正确B)错误 199.[判断题]政府信息公开的意义主要体现在提高了政府透明度。A)正确B)错误 200.[判断题]物联网是收集大数据的唯一途径 A)正确B)错误 1.答案:A解析:通过执行“hadoop namenode -format”指令对Hadoop集群进行格式化 2.答案:D解析: 3.答案:B解析: 4.答案:C解析: 5.答案:D解析: 6.答案:A解析: 7.答案:A解析: 8.答案:C解析: 9.答案:C解析: 10.答案:B解析: 11.答案:B解析: 12.答案:A解析: 13.答案:A解析: 14.答案:B解析:组成随机森林的树可以并行生成;而 GBDT只能是串行生成。 15.答案:D解析: 16.答案:D解析: 17.答案:D解析: 18.答案:A解析:基于图论的分割方法把图像分割问题与图的最小割(mincut)问题相关联。首先将图像映射为带权无向图,图中每个节点对应于图像中的每个像素,每条边的权值表示了相邻像素之间在灰度、颜色或纹理方面的非负相似度。 19.答案:D解析: 20.答案:C解析: 21.答案:D解析: 22.答案:C解析: 23.答案:D解析: 24.答案:C解析: 25.答案:D解析: 26.答案:D解析: 27.答案:D 解析: 28.答案:D解析: 29.答案:A解析:默认以读模式打开。 30.答案:B解析: 31.答案:A解析: 32.答案:D解析: 33.答案:C解析: 34.答案:D解析: 35.答案:D解析: 36.答案:A解析: 37.答案:C解析: 38.答案:C解析: 39.答案:B解析: 40.答案:B解析: 41.答案:A 解析: 42.答案:D解析: 43.答案:D解析: 44.答案:A解析: 45.答案:C解析: 46.答案:B解析:在回归分析中,解释变量可以理解为自变量,具有确定性,因此为非随机变量;被解释变量可以理解为因变量,具有随机性,因此为随机变量。 47.答案:D解析: 48.答案:D解析: 49.答案:C解析:数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永久删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。 50.答案:B解析: 51.答案:A解析: 52.答案:C解析: 53.答案:B解析:SparkStreaming 用于实时处理。 54.答案:D解析:数据统计并非为数据预处理的常见内容。 55.答案:C解析: 56.答案:B解析:B 中条件 1<10 恒成立。 57.答案:D解析: 58.答案:D解析: 59.答案:C解析: 60.答案:B解析: 61.答案:B解析: 62.答案:D解析: 63.答案:A解析: 64.答案:D解析: 65.答案:A解析: 66.答案:B解析:视觉感知(Visual Perception)是指客观事物通过视觉感觉器官(眼睛等)在人脑中产生直接反应的过程。视觉感知是产生视觉认知的前提条件。视觉认知(Visual Cognition)是指个体对视觉感知信息的进一步加工处理过程,包括视觉信息的抽取、转换、存储、简化、合并、理解和决策等加工活动。 67.答案:A解析:数据使用环节的安全技术措施除防火墙、入侵检测、防病毒、防DDOS、漏洞检测等网络安全防 护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。 68.答案:D解析: 69.答案:C解析: 70.答案:C解析: 71.答案:A解析: 72.答案:D解析: 73.答案:B解析: 74.答案:C解析: 75.答案:A解析: 76.答案:A解析: 77.答案:A解析: 78.答案:D解析: 79.答案:A解析: 80.答案:C解析:一旦某个数据进入数据合库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 81.答案:D解析: 82.答案:D解析: 83.答案:A解析:LDA 的思想是投影后类内方差最小、类间方差最大。 84.答案:C解析: 85.答案:C解析: 86.答案:C解析:常用的数据归约方法有维归约和值归约两种。 87.答案:A解析: 88.答案:B解析: 89.答案:B解析: 90.答案:D解析: 91.答案:A解析: 92.答案:C解析: 93.答案:B解析: 94.答案:D解析: 95.答案:A解析: 96.答案:B解析: 97.答案:C解析:偏态(Skewness)描述数据分布的对称性。当"偏态系数"等于0时,对应数据的分布为对称,否则分布为非对称;峰态(Kurtosis)描述数据分布的平峰或尖峰程度。当"峰态系数"等于0时,数据分布为标准正态分布,否则比正态分布更平或更尖。 98.答案:B解析: 99.答案:B解析: 100.答案:C解析: 101.答案:A解析: 102.答案:A解析:HDFS默认Block Size 64MB,block默认保存3份。记住即可 103.答案:B解析: 104.答案:B解析: 105.答案:D解析: 106.答案:B解析: 107.答案:B解析: 108.答案:C解析:减少树的深度,相当于加入了一个正则化项,可以降低模型复杂度。 109.答案:B解析: 110.答案:ABCD解析: 111.答案:BCD解析: 112.答案:ACD解析:AUC 面积的值不大于 1。 113.答案:ABCD解析: 114.答案:ABCD解析: 115.答案:ABCD解析:Spark 支持的计算模型有批处理、实时计算、机器学习模型、交互式查询。 116.答案:ABC解析: 117.答案:ABCD解析: 118.答案:ABC解析:相对于Hadoop MapReduce,Spark 的特点包括速度快、通用性和易用性。 119.答案:ACD解析:卷积神经网络的组成部分不包括中间层。51 120.答案:BC解析: 121.答案:ACD解析: 122.答案:BD解析: 123.答案:AB解析: 124.答案:ABCD解析: 125.答案:ABCD解析: 126.答案:ABCD解析: 127.答案:BCD解析: 128.答案:ABC解析: 129.答案:BCD解析: 130.答案:AC解析: 131.答案:BC解析: 132.答案:ABD解析: 133.答案:ABCD解析: 134.答案:CD解析: 135.答案:CD解析: 136.答案:ABCD解析: 137.答案:ABC解析: 138.答案:ABC解析: 139.答案:ABCD解析:随机森林与 GBDT 之间的区别:①组成随机森林的树可以是分类树也可以是回归树,而 GBDT只由回归树组成;②组成随机森林的树可以并行生成,而 GBDT 是串行生成;③随机森林的结果是多数表决的,而 GBDT 则是多棵树累加之和;④随机森林对异常值不敏感,而 GBDT 对异常值比较敏感;⑤随机森林是通过减少模型的方差来提高性能,而GBDT 是减少模型的偏差来提高性能的;⑥随机森林不需要进行数据预处理即特征归一化, 而 GBDT 则需要进行特征归一化。156 140.答案:ABC解析: 141.答案:ABCD解析: 142.答案:ABD解析: 143.答案:BCD解析: 144.答案:ABD解析: 145.答案:ABD解析: 146.答案:ABC解析: 147.答案:ABCD解析: 148.答案:AC解析: 149.答案:ABC解析: 150.答案:AC解析: 151.答案:AB解析: 152.答案:ABC解析: 153.答案:ABC解析: 154.答案:CD解析: 155.答案:ABC解析: 156.答案:ABCDE解析: 157.答案:A解析: 158.答案:B解析: 159.答案:B解析: 160.答案:B解析: 161.答案:A解析: 162.答案:B解析: 163.答案:B解析:InputSplit是MapReduce对文件进行处理和运算的输入单位,只是一个逻辑概念,每个InputSplit并没有对文件实际的切割,只是记录了要处理的数据的位置(包括文件的path和hosts)和长度(由start和length决定) 164.答案:B解析: 165.答案:A解析: 166.答案:A解析: 167.答案:A解析: 168.答案:A解析: 169.答案:A解析: 170.答案:A解析: 171.答案:A解析: 172.答案:B解析: 173.答案:A解析: 174.答案:B解析: 175.答案:A 解析: 176.答案:A解析: 177.答案:A解析: 178.答案:B解析: 179.答案:A解析: 180.答案:B解析: 181.答案:A解析: 182.答案:A解析: 183.答案:A解析: 184.答案:B解析:Logistic 回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。Logisitic 仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。 185.答案:B解析: 186.答案:A解析: 187.答案:A解析: 188.答案:A解析: 189.答案:内存解析: 190.答案:A解析: 191.答案:A解析: 192.答案:HDFS解析: 193.答案:可以让你知道哪个节点是Job Tracker。解析: 194.答案:Map|Reduce解析:MapReduce在操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和Reduce两个阶段。 195.答案:Source|Sink解析: 196.答案:常用的统计方法有sum、mean、median、max、min等,其中sum表示计算运算结果的和;mean表示计算运算结果的平均值;median表示计算运算结果的中位数;max/min表示计算运算结果的最大值/最小值。解析: 197.答案:A解析: 198.答案:B解析: 199.答案:A解析: 200.答案:B解析:
发布者:admin,转转请注明出处:http://www.yc00.com/num/1708931805a1594599.html
评论列表(0条)