2023年6月30日发(作者:)
数据采集与处理-题库带答案
1、( )是指对客观事件记录的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合。
A、
数据
B、
字段
C、
记录
D、
大数据
答案: A
2、在数据表中,表的“列”称为( )
A、
数据
B、
字段
C、
记录
D、
大数据
答案: B
3、在数据表中,表的“行”称为( )
A、
数据
B、
字段
C、
记录
D、
大数据
答案: C
4、数据表是由行(记录)和列(字段)构成,因此也称(A、
数据
B、
二维表
C、
表格
D、
大数据
答案: B
5、大数据具有以下特征
)
A、
大容量、多种类、高速度
B、
复杂性、高价值
C、
可变性、真实性
D、
以上都是
答案: D
6、数据的获取途径有( )
A、
产品自有数据
B、
调查问卷
C、
互联网数据导入
D、
从别人数据库窃取
答案: ABC
7、产品自有数据就是自身产品销售过程中产生的数据。
答案: 正确
8、调查问卷是以问题的形式系统的记载调查内容的一种印件。
答案: 正确
9、互联网数据分布在网页的不同位置,我们很难采集下来。
答案: 错误
10、Excel是按照数据结构来组织,存储和管理数据的仓库。
答案: 错误
11、商务数据指用户在电子商务网站购买商品的过程中,网站记录用户行为的大量数据。
答案: 正确
12、商务数据包括( )
A、
电子商务平台的基础数据
B、
电子商务专业网站的研究数据
C、
电子商务媒体报道
D、
评论数据
答案: ABCD 13、商品数据一般包括( )
A、
商品分类
B、
商品价格
C、
商品展示
D、
商品评价
答案: ABC
14、采集交易数据主要是为了通过数据分析评估客户价值,将潜在客户变为价值客户。
答案: 正确
15、评价数据主要以图片的形式出现。
答案: 错误
16、新闻网站有( )
A、
腾讯网
B、
百度贴吧
C、
凤凰网
D、
博客
答案: AC
17、社交网站有 ( )
A、
腾讯网
B、
百度贴吧
C、
凤凰网
D、
博客
答案: BD
18、商务数据可用于多种行业( )
A、
制造业
B、
金融业
C、
个人娱乐
D、
餐饮行业
答案: ABCD 19、商务数据可以监控竞争对手的动态。
答案: 正确
20、商务数据不同帮助企业和个人共享客户信息。
答案: 错误
21、商务数据的来源包括( )
A、
电子商务平台
B、
社交平台
C、
O2O数据
D、
个人数据
答案: ABC
22、B2B是企业对企业之间通过互联网进行产品、服务及信息的交换。
答案: 正确
23、B2C是个人对企业开展的电子商务活动。
答案: 错误
24、下列常用的B2C平台有( )
A、
阿里巴巴
B、
京东
C、
唯品会
D、
亚马逊
答案: BCD
25、常见的C2C平台有( )
A、
阿里巴巴
B、
咸鱼
C、
淘宝
D、
eBay
答案: BCD
26、社交电商指基于社交关系、利用互联网社交媒介实现电子商务中的流量获取、商品推广和交易等其中一个或多个环节,产生间接或直接交易行为的在线经营活动。 答案: 正确
27、抖音属于社交内容电商。
答案: 正确
28、社交分享电商主要包括( )
A、
拼多多
B、
微信
C、
蘑菇街
D、
微博
答案: ABD
29、O2O电商模式是线上(Online)引流线下(Offline)消费模式。
答案: 正确
30、O2O数据主要有O2O电商平台数据和展销平台组成。
答案: 正确
31、数据采集又称数据获取,是利用设备或技术手段从现实环境及网络获取数据并放入系统内部进行使用。
答案: 正确
32、大多数互联网页编写都是用HTML语言。
答案: 正确
33、电子商务数据主要归类为( )
A、
文本
B、
图片
C、
视频
D、
音频
答案: ABC
34、配置一种采集任务可以采集多个数据源。
答案: 错误
35、防采集措施有( ) A、
封IP
B、
验证码识别
C、
登录
D、
不允许打开网页
答案: ABC
36、常见的采集方法包括web爬虫采集和API接口采集。
答案: 正确
37、Web爬虫主要分为通用网络爬虫和聚焦网络爬虫。
答案: 正确
38、通用网络爬虫基本工作流程包含( )
A、
打开浏览器
B、
抓取网页
C、
数据存储
D、
预处理
答案: BCD
39、调用网站自身提供的应用程序编程接口,可以实现网络数据采集。
答案: 正确
40、数据的存储方式有( )
A、
Excel
B、
CSV
C、
数据库
D、
Python
答案: ABC
41、数据采集工具分为编程类和可视化采集工具两类。
答案: 正确
42、数据采集工具可以针对某个主题从微博爬取相关信息。
答案: 正确 43、数据采集工具不能爬取学术信息。
答案: 错误
44、常见的爬虫语言有( )
A、
HTML
B、
Python
C、
Java
D、
PHP
答案: BCD
45、Python是一款服务器端解释性开源非编译脚本语言。
答案: 正确
46、数据采集器是进行数据采集的机器或者工具。
答案: 正确
47、数据采集器建立的任务也称之为规则。
答案: 正确
48、数据采集器采集不同字段时,建立一种规则就可以了。
答案: 错误
49、数据采集器不能采集以下哪种数据( )
A、 图片
B、 文字
C、 网站信息
D、 专利
答案: D
50、哪种不是数据采集器
A、
Python爬虫
B、
八爪鱼采集器
C、
火车头采集器
D、
后羿采集器
答案: A 51、简易采集模式是利用系统内置模板进行数据采集的模式。
答案: 正确
52、简易采集可根据不同的参数进行不同程度的自定义采集。
答案: 正确
53、简易采集模板所有用户都可以使用。
答案: 错误
54、单页采集只能采集列表数据。
答案: 错误
55、表格数据采集要先选中表格中的一行数据。
答案: 正确
56、单网页采集主要是采集一个网页中的数据。
答案: 正确
57、列表详情页数据采集比单网页数据采集复杂。
答案: 正确
58、列表详情页需要从每个商品的标题进入到商品的详情页。
答案: 正确
59、采集列表详情页数据不需要循环步骤。
答案: 错误
60、单个网页上有很多相同链接,点击链接后进入 ,再进行详情页数据采集,。
答案:
详情页
;
61、当配置好任务,进行数据采集是, 即用自己的本地电脑进行数据采集。
答案:
启动本地采集
; 62、如果想使用云服务集群进行采集,可以选择
答案:
启动云采集
;
63、数据导出可以导出的文件类型为( )
A、 Excel
B、 csv
C、 HTML
D、 MySql数据表
答案: ABCD
64、文本循环是通过输入关键字采集跟关键字相关的数据。
答案: 正确
65、URL循环是通过使用多个URL地址进行数据采集。
答案: 正确
66、循环采集包括( )
A、
URL循环
B、
文本循环
C、
单个元素循环
D、
随机循环
答案: ABC
67、采集京东商品详情页数据,字段可任意。
要求:叙述采集步骤
或
使用采集器采集数据截图
答案:
解析:
68、分页循环采集是指把一页数据分成多页进行采集。 答案: 错误
69、网址中有多个页面需要采集叫分页循环采集。
答案: 正确
70、点击页面上的 “下一页” 按钮翻页,是最常见的翻页方式。
答案: 正确
71、需要登录时就不能进行采集。
答案: 错误
72、登录采集分 登录采集和 登录采集。
答案:
账号密码;Cookie
;
73、使用登录采集时,输入账号密码需要用到 模块。
答案:
输入文字
;
74、采集器无法识别验证码。
答案: 错误
75、 登录利用浏览器中的缓存设置,缓存了当前的一个网页状态,可以快速进入当前状态的页面。
答案:
Cookie
;
76、Cookie登录的方式不需要输入账号和密码,直接打开网页就是登录状态。
答案: 正确 77、Cookie登录中Cookie长期存在,所以是登录采集中,最方便的采集方式。
答案: 错误
78、使用简易模式采集任意网站数据
要求:叙述采集步骤
或
使用采集器采集数据截图
答案:
解析:
79、使用单页采集模式,采集任意一个网页的数据
要求:叙述采集步骤
或
使用采集器采集数据截图
答案:
解析:
80、ajax即 、异步更新的一种脚本技术。
答案:
延时加载
;
81、ajax可以通过在后台与服务器进行少量数据交换,可以重新加载整个网页。
答案: 错误
82、使用ajax技术的网页,点击网页中某个按钮或下拉页面,网址一般不发生改变,网址栏不出现加载状态,但网页局部有新的数据加载出来,有所变化。
答案: 正确
83、Ajax技术包括( )
A、
ajax点击
B、
ajax翻页
C、
ajax滚动 D、
定位
答案: ABC
84、Ajax点击可以对一个按钮进行多次点击。
答案: 错误
85、如果设置了ajax技术的网页,在采集设置时,没有勾选ajax加载,则不能进行采集。
答案: 错误
86、Ajax滚动包括( )
A、
直接滚动到底部
B、
动到下一行
C、
滚动到下一页
D、
向下滚动一屏
答案: AD
87、XPath 语言是网页内容定位语言,它可以帮助采集工具查找网页内容在网页中的位置。
答案: 正确
88、XPath语言,也称为HTML路径语言。
答案: 错误
89、XPath语言由 、 、
、内容构成。
答案:
名称;位置;属性
;
90、 被设计用来显示网页数据, 就是用来在HTML 中定位元素的。
答案:
HTML;XPath
; 91、HTML称为超文本标记语言。
答案: 正确
92、 是构成网页的基本元素。
答案:
节点
;
93、节点有多种类型,分别是( )
A、
元素、属性、文本
B、
命名空间、处理指令
C、
注释、文档节点
D、
属性值
答案: ABC
94、节点关系是指节点与节点之间的关系,通过包含与被包含关系区分。
答案: 正确
95、 是对于节点的描述性语句,用来选取指定节点。
答案:
路径表达式
;
96、XPath中,
表示不论该元素在Html 中的任何位置,均选取该元素。
答案:
//
;
97、XPath中, 用于选择某一元素的子元素,不能跨多层关系进行选择
答案:
/
; 98、XPath中, 用来表示属性,需写在属性前方
答案:
@
;
99、XPath中, 选取父元素,其中“..”表示父元素。 选取元素自身,其中“.”表示元素自身。
答案:
/..;/.
;
100、XPath中, 选取某元素下的所有子元素
答案:
/*
;
101、XPath中, 选取某元素下的所有后代元素
答案:
//*
;
102、XPath中, 用来查找某个特定的节点或包含某个指定的值的节点
答案:
谓语
;
103、XPath中,谓语对元素的 、 及 做限制,只要符合限制的元素,使用中括号“[ ]”表示。
答案:
位置;属性;内容
;
104、XPath中,Text()函数,主要功能为选中指定文本内容的元素。 答案: 正确
105、XPath中,contains(参数1,参数2),主要功能为选中参数1 中包含参数2 中内容的元素。
答案: 正确
106、XPath中,last(),主要功能为选中同胞元素中最后一位的元素。
答案: 正确
107、XPath中,position(),主要功能为描述元素在同胞元素中的位置。
答案: 正确
108、哪些行业需要用到数据采集( )
A、 企业
B、 政府
C、 金融
D、 教育
答案: ABCD
109、使用采集器采集需要大量的专业知识。
答案: 错误
110、个人进行数据采集是,主要用于( )
A、
网页信息收集
B、
商务数据采集
C、
市场数据采集
D、
社会公开信息
答案: AB
111、在公安经侦领域通过对网络敏感信息监控比对管理,帮助公安经济侦查工作的开展和提供数据层面的支持。
答案: 正确
112、商务数据采集多用于采购分析、市场分析、项目运行和论文编写。
答案: 正确 113、数据的质量因素包括 、 、 、 、 、可信性和可解释性
答案:
准确性 ;完整性;一致性;时效性;相关性
;
114、数据的质量问题从采集的角度划分,可分为( )
A、 准确性
B、 完整性
C、 一致性
D、 时效性
答案: ABC
115、数据的质量问题从应用的角度划分,可分为( )
A、 准确性
B、 相关性
C、 时效性
D、 可信性
答案: BC
116、数据的质量问题从用户使用的角度划分,可分为( )
A、 准确性
B、 完整性
C、 可信性
D、 可解释性
答案: CD
117、准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。
答案: 正确
118、某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。这时要求采集的数据必须有( )
A、 准确性 B、 完整性
C、 一致性
D、 相关性
答案: A
119、数据质量完整性是指信息具有一个实体描述的所有必需的部分
答案: 正确
120、空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。
答案: 正确
121、数据质量的数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
答案: 正确
122、数据质量的数据相关性是指数据与特定的应用和领域有关。
答案: 正确
123、数据质量的时效性是指有些数据会随时间而变化的
答案: 正确
124、数据质量的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的时间。
答案: 正确
125、数据质量的可解释性,也称为可读性,是指数据被人理解的难易程度
答案: 正确
126、数据处理的4大流程步骤中的一个大体流向图,就是( )
A、
数据清理
B、
数据集成
C、
数据变换
D、
数据归约
答案: ABCD 127、由于操作员重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据也可以用在数据分析里。
答案: 错误
128、数据的缺失值是指现有数据集中某个或某些属性的值时不完整的。
答案: 正确
129、处理空缺值的基本方法有6种,包括忽略元组、人工填写空缺值、使用全局常量替换空缺值、使用属性的中心度量填充空缺值、使用与给定元组属同一类的所有样本的平均值来填充空缺值、使用最可能的值填充空缺值。
答案: 正确
130、若一条记录中有多个属性值被遗漏了,则可将该记录排除在数据挖掘之外。
答案: 正确
131、噪声数据是指一个测量变量中的随机错误或偏差
答案: 正确
132、噪声数据也可以用于数据挖掘进行分析。
答案: 错误
133、孤立点的是不符合数据模型的数据。
答案: 正确
134、孤立点并不真实存在,是人们无意中弄出的偏差比较大的数据。
答案: 错误
135、处理噪声数据可以使用( )方法。
A、 分箱法
B、 回归法
C、 聚类
D、 忽略元组
答案: ABC
136、数据集成是指将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
答案: 正确 137、数据集成的方法有( )
A、
联邦数据库
B、
中间件集成
C、
数据仓库
D、
聚类
答案: ABC
138、数据仓库是数据集成最常用的方法
答案: 正确
139、数据仓库来集成数据时需要处理的问题包括( )
A、
实体识别
B、
冗余
C、
相关分析
D、
数据冲突和检测
答案: ABCD
140、实体识别,它所解决的问题是如何匹配多个信息源在现实世界中的实体事物
答案: 正确
141、数据规约就是为了压缩数据量,帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性。
答案: 正确
142、数据规约的策略有( )
A、
维归约
B、
数量归约
C、
数据压缩
D、
实体识别
答案: ABC
143、主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标
答案: 正确 144、属性子集选择,主要用于检测并删除不相关、弱相关或冗余的属性。目的是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布
答案: 正确
145、数量规约中有参数的方法一般使用( )
A、
回归
B、
对数的线性模型
C、
直方图
D、
聚类
答案: AB
146、数量规约中无参数的方法一般使用( )
A、
直方图
B、
聚类
C、
抽样
D、
数据立方体聚集
答案: ABCD
147、数据变换是将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。
答案: 正确
148、数据变换的方法有很多种,包括光滑、属性构造、聚集、数据规范化、数据离散化、概念分层等
答案: 正确
149、数据规范化包括( )
A、
最大-最小规范化
B、
零-均值规范化
C、
小数定标规范化
D、
数据离散化
答案: ABC
使用简易模式采集任意网站数据 要求:叙述采集步骤
或
使用采集器采集数据截图
答案:
151、ETL,全称为Extraction-Transformation-Loading,中文名为数据抽取、转换和加载。
答案: 正确
152、安装kettle,必须先安装jdk(java的运行环境)。
答案: 正确
153、安装jdk之后需要配置环境变量才能使用。
答案: 正确
154、ETL是Kettle的一种工具。
答案: 错误
155、( )是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。
A、
步骤
B、 跳
C、 注释
D、 转换
答案: A
156、Kettle中的( )定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。
A、 步骤
B、 跳
C、 注释
D、 转换
答案: B
157、csv、txt文件等都属于文本文件。
答案: 正确 158、Excel的数据可分为结构化的表格数据和非结构化的表格数据。
答案: 正确
159、Excel是一种( )
A、 办公软件
B、 开发软件
C、 操作系统软件
D、 数据库
答案: A
160、Excel文件在kettle中可使用( )步骤,进行excel的输入输出
A、
excel输入
B、
excel输出
C、
Microsoft Excel 输出
D、
Microsoft Excel 输入
答案: ABC
161、“Microsoft Excel 输出”步骤则可以设置Excel 97文件或Excel 2007版本的文件的输出。
答案: 正确
162、“Excel输出”步骤,仅能输出Excel 97版本的文件。
答案: 正确
163、JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。
答案: 正确
164、JSON核心概念包括( )
A、 数组
B、 对象
C、 属性
D、 路径
答案: ABC
165、JsonPath表达式通常是用来路径检索或设置Json的。
答案: 正确 166、JsonPath表达式有两种表示方法,分别是( )
A、 点记法
B、 括号记法
C、 逗号记法
D、 操作符记法
答案: AB
167、XML 指可扩展标记语言(EXtensible Markup Language), XML 被设计用来传输和存储数据。
答案: 正确
168、XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
答案: 正确
169、数据库分为关系型数据库和非关系型数据库。
答案: 正确
170、MySQL数据的连接参数与Oracle的连接参数是完全相同的。
答案: 错误
171、连接名称是设定一个在作业或转换范围内唯一的名称。
答案: 正确
172、数据库连接步骤中在列表里可以选择可用的访问方式有( )
A、
JDBC连接
B、
ODBC数据源
C、
JNDI数据源
D、
Oracle的OCI连接
答案: ABCD
173、数据库连接时,一般连接参数包括( )
A、
主机名
B、
数据库名
C、
端口号 D、
用户名和密码
答案: ABCD
174、数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。
答案: 正确
175、Kettle只能用单一的清洗步骤清洗工作,所以比较麻烦。
答案: 错误
176、常用的转换步骤一般在( )
A、
转换目录
B、
脚本目录
C、
校验目录
D、
输出目录
答案: ABC
177、字符串做剪切的功能,该步骤需要在剪切字符串版面添加需要剪切的(A、
字符串字段(输入流字段)
B、
输出字段(输出流字段)
C、
剪切的起始位置
D、
剪切的结束位置
答案: ABCD
178、字符串替换(Replace in string)步骤对字符串做查找替换。
答案: 正确
179、字符串操作功能包括( )
A、
首尾去除空白字符
B、
大小写
C、
数字移除/提取
D、
删除特殊字符
答案: ABCD
)180、能使用正则表达式的是( )
A、
字符串剪切
B、
字符串替换
C、
字符串操作
D、
以上都不行
答案: B
181、拆分字段成多行(Split filed to rows)可将一行记录拆分成多行记录,新的记录里有一个新的字段,由拆分后的子字符串填充。
答案: 正确
182、拆分字段(Split Fields)根据分隔符将输入的一个字段拆分成多个字段。
答案: 正确
183、合并字段(Concat Fields)将多个字段用分隔符连接起来输出到一个新的字段。
答案: 正确
184、字段选择(Select values)可以对输入流的字段做选择、删除、重命名等操作,还可以更改字段的数据类型和精度等。
答案: 正确
185、字段选择(Select values)有( )3个选项卡。
A、
选择和修改
B、
移除
C、
元数据
D、
替换
答案: ABC
186、计算器步骤是一个函数集合来创建新的字段,还可以设置字段是否移除(临时字段)
答案: 正确
187、流查询在查询前把数据都加载到内存中,并且只能进行等值查询。
答案: 正确
188、过滤记录让数据流从一路到两路。
答案: 正确 189、重复数据产生原因有( )
A、
录入出错
B、
数据不完整
C、
数据缩写
D、
硬件设备出错
答案: ABC
190、不完全重复数据,客观上表示现实世界中的同一实体,但由于表达方式不同或拼写错误等原因,导致数据存在了多条重复记录。
答案: 正确
191、“唯一行(哈希值)”步骤可以附加比较存储在内存中的记录值,防止哈希碰撞冲突。
答案: 正确
192、“唯一行(哈希值)”步骤必须先使用排序,不然无法去重。
答案: 错误
193、“去除重复记录”步骤要求输入的数据是事先排好序的,因为它是通过比较相邻记录的值来判断是否重复的。
答案: 正确
194、一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。
答案: 正确
195、作业的组成包括( )
A、
作业项
B、
作业跳
C、
注释
D、
输入
答案: ABC
196、作业项结果有两个作用,一是决定作业的执行路径,二是向下一个作业项传递一个结果对象。
答案: 正确
197、作业跳是作业项之间的连接线,定义了作业的执行路径。 答案: 正确
198、在Kettle里,作业是使用一种回溯算法来执行作业里所有作业项的。
答案: 正确
199、作业的执行结果是唯一的。
答案: 错误
200、作业中的变量代表一个任意长度的字符串值。
答案: 正确
201、变量的格式是${变量名}或者%%变量名%%。
答案: 正确
202、数据的质量因素包括 、 、 、 、
可信性和可解释性
答案:
准确性 ;完整性;一致性;时效性;相关性
;
203、数据的质量问题从采集的角度划分,可分为( )
A、 准确性
B、 完整性
C、 一致性
D、 时效性
答案: ABC
204、数据的质量问题从应用的角度划分,可分为( )
A、 准确性
B、 相关性
C、 时效性
D、 可信性
答案: BC
205、数据的质量问题从用户使用的角度划分,可分为( )
、A、 准确性
B、 完整性
C、 可信性
D、 可解释性
答案: CD
206、准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。
答案: 正确
207、某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。这时要求采集的数据必须有( )
A、 准确性
B、 完整性
C、 一致性
D、 相关性
答案: A
208、数据质量完整性是指信息具有一个实体描述的所有必需的部分
答案: 正确
209、空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。
答案: 正确
210、数据质量的数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
答案: 正确
211、数据质量的数据相关性是指数据与特定的应用和领域有关。
答案: 正确
212、数据质量的时效性是指有些数据会随时间而变化的
答案: 正确
213、数据质量的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的时间。
答案: 正确 214、数据质量的可解释性,也称为可读性,是指数据被人理解的难易程度
答案: 正确
215、数据处理的4大流程步骤中的一个大体流向图,就是( )
A、
数据清理
B、
数据集成
C、
数据变换
D、
数据归约
答案: ABCD
216、由于操作员重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据也可以用在数据分析里。
答案: 错误
217、数据的缺失值是指现有数据集中某个或某些属性的值时不完整的。
答案: 正确
218、处理空缺值的基本方法有6种,包括忽略元组、人工填写空缺值、使用全局常量替换空缺值、使用属性的中心度量填充空缺值、使用与给定元组属同一类的所有样本的平均值来填充空缺值、使用最可能的值填充空缺值。
答案: 正确
219、若一条记录中有多个属性值被遗漏了,则可将该记录排除在数据挖掘之外。
答案: 正确
220、噪声数据是指一个测量变量中的随机错误或偏差
答案: 正确
221、噪声数据也可以用于数据挖掘进行分析。
答案: 错误
222、孤立点的是不符合数据模型的数据。
答案: 正确
223、孤立点并不真实存在,是人们无意中弄出的偏差比较大的数据。
答案: 错误
224、处理噪声数据可以使用( )方法。 A、 分箱法
B、 回归法
C、 聚类
D、 忽略元组
答案: ABC
225、数据集成是指将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
答案: 正确
226、数据集成的方法有( )
A、
联邦数据库
B、
中间件集成
C、
数据仓库
D、
聚类
答案: ABC
227、数据仓库是数据集成最常用的方法
答案: 正确
228、数据仓库来集成数据时需要处理的问题包括( )
A、
实体识别
B、
冗余
C、
相关分析
D、
数据冲突和检测
答案: ABCD
229、实体识别,它所解决的问题是如何匹配多个信息源在现实世界中的实体事物
答案: 正确
230、数据规约就是为了压缩数据量,帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性。
答案: 正确
231、数据规约的策略有( ) A、
维归约
B、
数量归约
C、
数据压缩
D、
实体识别
答案: ABC
232、主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标
答案: 正确
233、属性子集选择,主要用于检测并删除不相关、弱相关或冗余的属性。目的是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布
答案: 正确
234、数量规约中有参数的方法一般使用( )
A、
回归
B、
对数的线性模型
C、
直方图
D、
聚类
答案: AB
235、数量规约中无参数的方法一般使用( )
A、
直方图
B、
聚类
C、
抽样
D、
数据立方体聚集
答案: ABCD
236、数据变换是将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。
答案: 正确
237、数据变换的方法有很多种,包括光滑、属性构造、聚集、数据规范化、数据离散化、概念分层等
答案: 正确 238、数据规范化包括( )
A、
最大-最小规范化
B、
零-均值规范化
C、
小数定标规范化
D、
数据离散化
答案: ABC
239、ETL,全称为Extraction-Transformation-Loading,中文名为数据抽取、转换和加载。
答案: 正确
240、安装kettle,必须先安装jdk(java的运行环境)。
答案: 正确
241、安装jdk之后需要配置环境变量才能使用。
答案: 正确
242、ETL是Kettle的一种工具。
答案: 错误
243、( )是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。
A、
步骤
B、 跳
C、 注释
D、 转换
答案: A
244、Kettle中的( )定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。
A、 步骤
B、 跳
C、 注释
D、 转换
答案: B
245、csv、txt文件等都属于文本文件。 答案: 正确
246、Excel的数据可分为结构化的表格数据和非结构化的表格数据。
答案: 正确
247、Excel是一种( )
A、 办公软件
B、 开发软件
C、 操作系统软件
D、 数据库
答案: A
248、Excel文件在kettle中可使用( )步骤,进行excel的输入输出
A、
excel输入
B、
excel输出
C、
Microsoft Excel 输出
D、
Microsoft Excel 输入
答案: ABC
249、“Microsoft Excel 输出”步骤则可以设置Excel 97文件或Excel 2007版本的文件的输出。
答案: 正确
250、“Excel输出”步骤,仅能输出Excel 97版本的文件。
答案: 正确
251、JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。
答案: 正确
252、JSON核心概念包括( )
A、 数组
B、 对象
C、 属性
D、 路径
答案: ABC
253、JsonPath表达式通常是用来路径检索或设置Json的。 答案: 正确
254、JsonPath表达式有两种表示方法,分别是( )
A、 点记法
B、 括号记法
C、 逗号记法
D、 操作符记法
答案: AB
255、XML 指可扩展标记语言(EXtensible Markup Language), XML 被设计用来传输和存储数据。
答案: 正确
256、XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
答案: 正确
257、数据库分为关系型数据库和非关系型数据库。
答案: 正确
258、MySQL数据的连接参数与Oracle的连接参数是完全相同的。
答案: 错误
259、连接名称是设定一个在作业或转换范围内唯一的名称。
答案: 正确
260、数据库连接步骤中在列表里可以选择可用的访问方式有( )
A、
JDBC连接
B、
ODBC数据源
C、
JNDI数据源
D、
Oracle的OCI连接
答案: ABCD
261、数据库连接时,一般连接参数包括( )
A、
主机名
B、
数据库名 C、
端口号
D、
用户名和密码
答案: ABCD
262、数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。
答案: 正确
263、Kettle只能用单一的清洗步骤清洗工作,所以比较麻烦。
答案: 错误
264、常用的转换步骤一般在( )
A、
转换目录
B、
脚本目录
C、
校验目录
D、
输出目录
答案: ABC
265、字符串做剪切的功能,该步骤需要在剪切字符串版面添加需要剪切的(A、
字符串字段(输入流字段)
B、
输出字段(输出流字段)
C、
剪切的起始位置
D、
剪切的结束位置
答案: ABCD
266、字符串替换(Replace in string)步骤对字符串做查找替换。
答案: 正确
267、字符串操作功能包括( )
A、
首尾去除空白字符
B、
大小写
C、
数字移除/提取
D、
删除特殊字符
答案: ABCD
)268、能使用正则表达式的是( )
A、
字符串剪切
B、
字符串替换
C、
字符串操作
D、
以上都不行
答案: B
269、拆分字段成多行(Split filed to rows)可将一行记录拆分成多行记录,新的记录里有一个新的字段,由拆分后的子字符串填充。
答案: 正确
270、拆分字段(Split Fields)根据分隔符将输入的一个字段拆分成多个字段。
答案: 正确
271、合并字段(Concat Fields)将多个字段用分隔符连接起来输出到一个新的字段。
答案: 正确
272、字段选择(Select values)可以对输入流的字段做选择、删除、重命名等操作,还可以更改字段的数据类型和精度等。
答案: 正确
273、字段选择(Select values)有( )3个选项卡。
A、
选择和修改
B、
移除
C、
元数据
D、
替换
答案: ABC
274、计算器步骤是一个函数集合来创建新的字段,还可以设置字段是否移除(临时字段)
答案: 正确
275、流查询在查询前把数据都加载到内存中,并且只能进行等值查询。
答案: 正确
276、过滤记录让数据流从一路到两路。
答案: 正确 277、重复数据产生原因有( )
A、
录入出错
B、
数据不完整
C、
数据缩写
D、
硬件设备出错
答案: ABC
278、不完全重复数据,客观上表示现实世界中的同一实体,但由于表达方式不同或拼写错误等原因,导致数据存在了多条重复记录。
答案: 正确
279、“唯一行(哈希值)”步骤可以附加比较存储在内存中的记录值,防止哈希碰撞冲突。
答案: 正确
280、“唯一行(哈希值)”步骤必须先使用排序,不然无法去重。
答案: 错误
281、“去除重复记录”步骤要求输入的数据是事先排好序的,因为它是通过比较相邻记录的值来判断是否重复的。
答案: 正确
282、一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。
答案: 正确
283、作业的组成包括( )
A、
作业项
B、
作业跳
C、
注释
D、
输入
答案: ABC
284、作业项结果有两个作用,一是决定作业的执行路径,二是向下一个作业项传递一个结果对象。
答案: 正确
285、作业跳是作业项之间的连接线,定义了作业的执行路径。 答案: 正确
286、在Kettle里,作业是使用一种回溯算法来执行作业里所有作业项的。
答案: 正确
287、作业的执行结果是唯一的。
答案: 错误
288、作业中的变量代表一个任意长度的字符串值。
答案: 正确
289、变量的格式是${变量名}或者%%变量名%%。
答案: 正确
290、读入文件,输出以Tab分隔符分隔的文件。文件以逗号为分隔符
要求:1. 运行流程图截图和运行结果文件内容截图
或 2. 书写分析执行步骤
答案:
解析:
291、读入文件,输出分隔符为逗号的文件和命名为的文件
要求:1.
运行流程图截图、运行结果文件内容截图
或 2.
书写分析执行步骤
答案:
解析:
292、读入“”文件,输出“”文件和“”的文件。
要求:1.
运行流程图截图、运行结果文件内容截图
或 2.
书写分析执行步骤
答案:
293、读入“”文件,输出标准格式“lsx”文件
答案:
294、将个人信息.xlsx表中数据Gender字段改为Sex,统一数据为F、M,并去除重复数据
排重-个人信息.xlsx
要求:1.
运行流程图截图、运行结果文件内容截图
或 2.
书写分析执行步骤
答案:
295、先从Excel读取数据,保存到Excel,再从文本文件中读取数据保存到Excel,如果产生错误就发送邮件,并且停止作业,如果成功发送成功邮件
01文本文件输入.txt
01Excel输入.xlsx
要求:1.
运行流程图截图、运行结果文件内容截图 或 2.
书写分析执行步骤
答案:
发布者:admin,转转请注明出处:http://www.yc00.com/xiaochengxu/1688109350a82886.html
评论列表(0条)