2023年7月19日发(作者:)
python数据挖掘试题_机器学习算法与Python学习-数据挖掘过关40题1.某超市研究销售纪录数据后发现,买啤酒的⼈很⼤概率也会购买尿布,这种属于数据挖掘的哪类问题?A.关联规则发现B.聚类C.分类D.⾃然语⾔处理2.以下两种描述分别对应哪两种对分类算法的评价标准?(a)警察抓⼩偷,描述警察抓的⼈中有多少个是⼩偷的标准。(b)描述有多少⽐例的⼩偷给警察抓了的标准。ion,,ion,,ROC3.将原始数据进⾏集成、变换、维度规约、数值规约是在以下哪个步骤的任务?A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签时,可以使⽤哪种技术促使带同类标签的数据与带其他标签的数据相分离?A.分类B.聚类C.关联分析D.隐马尔可夫链5.什么是KDD?A.数据挖掘与知识发现B.领域知识发现C.⽂档知识发现D.动态知识发现6.使⽤交互式的和可视化的技术,对数据进⾏探索属于数据挖掘的哪⼀类任务?A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪⼀类任务?A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则8.建⽴⼀个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪⼀类任务?A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则9.⽤户有⼀种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪⼀类任务?A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则10.以下属于可伸缩聚类算法的是。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM11.下⾯哪种不属于数据预处理的⽅法?A 变量代换B 离散化C 聚集D估计遗漏值12.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使⽤如下每种⽅法将它们划分成四个箱。等频(等深)划分时,15在第⼏个箱⼦内?A 第⼀个B 第⼆个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15⼜在哪个箱⼦⾥?A 第⼀个B 第⼆个C 第三个D 第四个14.下⾯哪个不属于数据的属性类型:A 标称B 序数C 区间D 相异15.在上题中,属于定量的属性类型是:A 标称B 序数C 区间D 相异16.只有⾮零值才重要的⼆元属性被称作:A 计数属性B 离散属性C ⾮对称的⼆元属性D 对称属性17.以下哪种⽅法不属于特征选择的标准⽅法:A 嵌⼊B 过滤C 包装D 抽样18.下⾯不属于创建新属性的相关⽅法的是:A 特征提取B 特征修改C 映射数据到新的空间D 特征构造19.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是A 2B 3C 3.5D 520.下⾯哪个属于映射数据到新的空间的⽅法?A 傅⽴叶变换B 特征加权C 渐进抽样D 维归约21.熵是为消除不确定性所需要获得的信息量,投掷均匀正六⾯体骰⼦的熵是:A1 ⽐特B 2.6⽐特C 3.2⽐特D 3.8⽐特22.假设属性income的最⼤最⼩值分别是12000元和98000元。利⽤最⼤最⼩规范化的⽅法将属性的值映射到0⾄1的范围内。对属性income的73600元将被转化为:A 0.821B 1.224C 1.458D 0.71623.假定⽤于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使⽤按箱平均值平滑⽅法对上述数据进⾏平滑,箱的深度为3。第⼆个箱⼦值为:A 18.3B 22.6C 26.8D 27.924.考虑值集{826},其四分位数极差是:A 31B 24C 55D 325.⼀所⼤学内的各年级⼈数分别为:⼀年级200⼈,⼆年级160⼈,三年级130⼈,四年级110⼈。则年级属性的众数是:A ⼀年级B ⼆年级C 三年级D 四年级26.下列哪个不是专门⽤于可视化时间空间数据的技术:A 等⾼线图B 饼图C 曲⾯图D ⽮量场图27.在抽样⽅法中,当合适的样本容量很难确定时,可以使⽤的抽样⽅法是:A 有放回的简单随机抽样B ⽆放回的简单随机抽样C 分层抽样D 渐进抽样28.数据仓库是随着时间变化的,下⾯的描述不正确的是A.数据仓库随时间的变化不断增加新的数据内容;B.捕捉到的新数据会覆盖原来的快照;C.数据仓库随事件变化不断删去旧的数据内容;D.数据仓库中包含⼤量的综合数据,这些综合数据会随着时间的变化不断地进⾏重新综合.29.关于基本数据的元数据是指:A.基本元数据与数据源,数据仓库,数据集市和应⽤程序等结构相关的信息;B.基本元数据包括与企业相关的管理⽅⾯的数据和信息;C.基本元数据包括⽇志⽂件和简历执⾏处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理⽅⾯的信息30.下⾯关于数据粒度的描述不正确的是:A.粒度是指数据仓库⼩数据单元的详细程度和级别;B.数据越详细,粒度就越⼩,级别也就越⾼;C.数据综合度越⾼,粒度也就越⼤,级别也就越⾼;D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.31.有关数据仓库的开发特点,不正确的描述是:A.数据仓库开发要从数据出发;B.数据仓库使⽤的需求在开发出去就要明确;C.数据仓库的开发是⼀个不断循环的过程,是启发式的开发;D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式32.在有关数据仓库测试,下列说法不正确的是:A.在完成数据仓库的实施过程中,需要对数据仓库进⾏各种测试.测试⼯作中要包括单元测试和系统测试.B.当数据仓库的每个单独组件完成后,就需要对他们进⾏单元测试.C.系统的集成测试需要对数据仓库的所有组件进⾏⼤量的功能测试和回归测试.D.在测试之前没必要制定详细的测试计划.技术的核⼼是:A.在线性;B.对⽤户的快速响应;C.互操作性.D.多维分析;34.关于OLAP的特性,下⾯正确的是:(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A.(1)(2)(3)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)35.关于OLAP和OLTP的区别描述,不正确的是:主要是关于如何理解聚集的⼤量不同的数据.它与OTAP应⽤程序不同.B.与OLAP应⽤程序不同,OLTP应⽤程序包含⼤量相对简单的事务.的特点在于事务量⼤,但事务内容⽐较简单且重复率⾼.是以数据仓库为基础的,但其最终数据来源与OLTP⼀样均来⾃底层的数据库系统,两者⾯对的⽤户是相同的.技术⼀般简称为”数据联机分析挖掘”,下⾯说法正确的是:和OLAM都基于客户机/服务器模式,只有后者有与⽤户的交互性;B.由于OLAM的⽴⽅体和⽤于OLAP的⽴⽅体有本质的区别.C.基于WEB的OLAM是WEB技术与OLAM技术的结合.服务器通过⽤户图形借⼝接收⽤户的分析指令,在元数据的知道下,对超级⽴⽅体作⼀定的操作.37.关于OLAP和OLTP的说法,下列不正确的是:事务量⼤,但事务内容⽐较简单且重复率⾼.的最终数据来源与OLTP不⼀样.⾯对的是决策⼈员和⾼层管理⼈员.以应⽤为核⼼,是应⽤驱动的.38.设X={1,2,3}是频繁项集,则可由X产⽣____个关联规则。A、4B、5C、6D、739.频繁项集、频繁闭项集、最⼤频繁项集之间的关系是:A、频繁项集频繁闭项集=最⼤频繁项集B、频繁项集=频繁闭项集最⼤频繁项集C、频繁项集频繁闭项集最⼤频繁项集D、频繁项集=频繁闭项集=最⼤频繁项集40.概念分层图是____图。A、⽆向⽆环B、有向⽆环C、有向有环D、⽆向有环答案:AACBA, ABCAA,DBADC, CDBCA,BDAAA, BDCDC,ADDDC, DACCB
发布者:admin,转转请注明出处:http://www.yc00.com/xiaochengxu/1689766055a284385.html
评论列表(0条)