2023年11月25日发(作者:需要wifi但是不想安宽带)
《数据仓库与数据挖掘》试题答案整理
《数据仓库与数据挖掘》试题与答案整理
2013级智能系高飙
1.名词解释5x4
(1)主题
主题(Subject):宏观分析领域所涉及的分析对象。是在较高层
次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象
概念,每一个主题基本对应一个宏观的分析领域。
面向主题的数据组织方式:在较高的层次上对分析对象的数据的
一个完整、一致的描述。(2)事实(P联机分析)
事实是数值度量的;存储一个多维数据,表达期望分析的主题
(目的、感兴趣的事情、事件或者指标等);具有一定的粒度,粒度
的大小与维层次相关;
一个事实中通常包含一个或者多个度量
一个事实的两个组件:数字型指标、聚集函数
(3)数据归约(P数据预处理)
在可能获得相同或相似结果的前提下,对数据的容量进行有效的
缩减
数据归约的方法:
1数据立方体聚集:聚集操作作用于立方体中的数据
2减少数据维度(维归约):可以检测并删除不相关、弱相关或者
冗余的属性或维
3数据压缩:使用编码机制压缩数据集
4数值压缩:用替代的、较小的数据表示替换或估计数据
5数据离散化以及概念层次的建立:属性的原始值用区间值或较高
层的概念予以替换(4)兴趣度(P数据挖掘)
一个数据挖掘系统的挖掘结果可能会产生成千上万个模式,但是
并不是所有的模式都有意义。兴趣度度量用于将不感兴趣的模式从知
识中分开。他们可以用于指导挖掘过程,或在挖掘之后,评估发现的
模式。不同类型的数据需要不同的兴趣度量。
兴趣度的度量:一个模式是否感兴趣,取决于它是否容易被用户
所理解,是否有效可信,是否潜在有用,是否新颖等
兴趣度的度量:
客观的度量: 从模式的角度出发,基于模式结构的某些统计的结果,
如:支持度(support)、置信度(confidence)等。
主观的度量:从用户的角度出发,对模式的信任程度,如:新颖性、
可操作性等。
(5)数据分区(片)(P数据仓库设计)
把逻辑上统一的数据分割成较小的、可以独立管理的物理单元
(分片)进行存储。
可按时间、按地区、按业务类型进行数据分片
(6)数据挖掘
数据挖掘是识别数据中有效的、新颖的、潜在有用的和最终可被
理解的模式(Pattern)的非平凡过程。
(7)关联分析
是数据挖掘的分析方法之一,发现数据库中数据间的相互关联。
关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中
也一起出现的条件。
(7‘)关联规则
形如X=>Y,即“A1?…?Am=>B1?…?Bn”的规则,其中Ai,Bj是属
性-值对。关联规则X=>Y解
释为“满足X中条件的数据库元组多半也满足Y中的条件”。
发现海量数据中项集之间有趣的关联;
在交易数据、关系数据或其他信息载体中,查找存在于项目集合
或对象集合之间的相关性或因果结构
(8)维度(P8)
数据仓库中的每一维对应于模式中的一个或一组属性。
或者(P联机分析):对数据进行分类的一种结构,以用于从特定
的角度观察数据。(例如:时间、地区、产品)
(9)度量(指标)
数据的实际意义,一般是一个数值度量指标
2.简答10x4
(1)描述ROLAP、MOLAP、HOLAP的特点(P46+P联机分析)
MOLAP:
1数据存储容量较ROLAP少,往往利用RDB存储细节数据,
MDB存储综合数据
2元数据以内在方式处理,元数据描述了层次关系、时间序列信息、
报表项、安全存取控制、数据源以及预综合等等。
3利用多维查询语言直接访问MDB(不借助附加程序)
ROLAP:
1以关系数据库系统方法进行数据存储和管理;安全控制和存取控
制基于表;封锁基于表、页面或行;
2多维概念下的安全及存取控制,RDBMS不支持,需由OLAP
Server实现
3数据存储容量大(因为RDB技术成熟)但为了提高性能,须建
中间表(预综合),数据冗余大
4元数据作为应用的一部分,由ROLAP Server管理
5用户的分析(查询)请求,需SQL和附加的应用程序共同完成,
可以直接在细节数据上提供OLAP 的功能
(2)数据粒度的概念及它在DW(数据仓库)建模中的作用
粒度:数据的综合程度。例如:细节—轻度综合—高度综合。数
据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,
层次级别就越高。
作用:合理的粒度划分是提高数据仓库性能的途径之一。粒度影
响着数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类
型。粒度大小需要数据仓库在设计时在数据量大小和查询的详细程度
之间做出权衡。
一张表的数据量很大时,就需要两个级别的粒度。粒度的划分,
主要考虑行数。因为按行组织索引,索引依赖于行数,索引大小直接
影响I/O次数。
(3)最大频繁项集与闭合项集的区别与联系(P关联规则挖掘)
最大频繁项集:自身是频繁项集,任何直接后继超集都不是频繁
项集
闭合项集:自身是频繁项集,所有直接后继超集项集的支持度均
小于当前的频繁项集(4)多维数据模型的概念及优势(P联机分析)
概念:多维数据模型又称多维概念视图,通常用Cube来表示。
多维数据模型的基本组成:维、度量(变量、指标)
多维数据模型是为了满足用户从多角度多层次进行数据查询和分
析的需要而建立起来
的基于事实和维的数据库模型,其基本的应用是为了实现OLAP
优势:多维数据模型最大的优点就是其基于分析优化的数据组织
和存储模式。多维数据
模型可以更加直观的表示现实中的复杂关系;
(5)数据挖掘的分类
针对的数据源不同
关系数据库、对象数据库、空间数据库、时序数据库、文档数据
库、多媒体数据库、Web等采用的不同的分析方法
关联分析、分类分析、聚类分析、趋势分析、偏差分析以及异常
点分析等
采用的不同技术
利用数据库或数据仓库的方法、机器学习的方法、统计的方法、
神经网络的方法等。
不同的应用领域
金融、电信、商业、DNA分析、……、股市分析等
(6)置信度,支持度的概念和联系(P关联规则挖掘)
他们都是关联规则有效性和确定性的度量值,或者说是模式兴趣
度的客观度量。
(7)数据仓库和数据集市的区别与联系(P9)
数据集市包含企业范围数据的一个子集,对于特定的用户是有用
的。其范围限于选
定的主题。是数据仓库的三种模型之一。
数据仓库收集了整个组织的主题信息,因此它是企业范围的。数
据集市是数据仓库
的一个部门子集。它聚焦在选定的主题上,是部门范围的。
一般来说,数据仓库更倾向于是一个战略,但不是一个未完成的
概念;而数据集市
更倾向于战术,它的目标在于满足企业客户营销即时的需求。
补充:P45
(8)聚类分析和分类分析的区别和联系(P数据挖掘)
他们是数据挖掘的不同分析方法。
聚类分析:
1描述型。了解数据中潜在的规律、规则。以简洁概要的方式描述
数据,并提供数
据的有趣的一般性质
2每个类的标识事先不确定,把一组对象按照相似性归成若干类别,
即“物以类聚”。
成绩,对学生进行
分类。
方法表述: 决策树、分类规则、神经网络等
(9)简述数据仓库建模中数据项集(DIS)的概念
数据仓库设计的Inmon方法中,数据建模的三级数据模型中的中
级数据模型(称为
数据项集DIS),一个dis与E—R中的一个主题域(实体)对应。
另外两层模型是
高级数据模型(采用E-R方法)和低级数据模型(物理模型)。
3.论述15x2
(1)有一个事务集T如下,最小支持度为62.5%,求其1-3阶频
繁项集
001 ABCD
002 BCDE
003 ABCDE
004 ADE
005 BDE
006 ACEF
007 BCDE
008 BCDEF
(2)K-means算法和K-中心点算法的详细步骤与特点,并比较
两种算法
步骤:
K-means:
给定k,算法的处理流程如下:
1. 随机的把所有对象分配到k个非空的簇中;
2. 计算每个簇的平均值,并用该平均值代表相应的簇;
3. 将每个对象根据其与各个簇中心的距离,重新分配到与它最近
的簇中;
4. 回到第二步,直到不再有新的分配发生。
K-中心点:
用真实的数据对象来代表簇
随机选择k个对象作为初始的中心点;
Repeat
对每一个由非中心对象h 和中心对象i, 计算i被h替代的总代价
Tcih
对每一个有h和i组成的对象对
If TCih < 0, i 被h替换
然后将每一个非中心点对象根据与中心点的距离分配给离它最近
的中心点
Until不发生变化。
特点:
K-means:
优点
相对高效的: 算法复杂度O(tkn), 其中n 是数据对象的个数, k 是簇
的个数, t是迭代的次数,通常k, t << n.
算法通常终止于局部最优解;
缺点
只有当平均值有意义的情况下才能使用,对于类别字段不适用;
必须事先给定要生成的簇的个数;
对“噪声”和异常数据敏感;
不能发现非凸面形状的数据。
K-mediods:
a) K-mediods算法具有能够处理大型数据集,结果簇相当紧凑,
并且簇与簇之间明显分明
的优点,这一点和K-means算法相同。
b) 同时,该算法也有K-means同样的缺点,如,必须事先确定类
簇数和中心点,簇数和
中心点的选择对结果影响很大;一般在获得一个局部最优的解后
就停止了;对于除数值型以外的数据不适合;只适用于聚类结果为凸
形的数据集等。
c) 与K-means相比,K-mediods算法对于噪声不那么敏感,这
样对于离群点就不会造成划
分的结果偏差过大,少数数据不会造成重大影响。
d) K-mediods由于上述原因被认为是对K-means的改进,但由
于按照中心点选择的方式进
行计算,算法的时间复杂度也比K-means上升了O(n)。
比较:
存在“噪声”或者孤立点数据时,K-中心点的方法比K-平均方法
健壮;
K-中心点方法的执行代价比K-平均方法高;
四(15')
列举4种面向数据仓库实际需求的索引技术,并说明其特点和适
应性
五.
就你感兴趣的领域,说说数据仓库和数据挖掘技术的应用及在该
领域的应用10x1
数据挖掘见PPT
数据仓库技术在金融信息化中的定位和作用(引言)
金融业务和信息技术的紧密融合,已经成为金融行业打造核心竞
争力的重要途径。随着国内外金融行业竞争的日益加剧,如何利用信
息技术提升业务管理水平,增强业务创新能力,为客户提供更优质的
服务,成为我国金融行业面临的重大课题。
近年来,我国金融信息化按照“数据集中化、业务综合化、管理
扁平化、服务网络化、决策科学化”的理念,构建了两大数据平台:
一个是基于数据大集中的策略,面向金融业务
数据处理,构建高效、统一的核心业务数据平台;另一个是面向
分析处理,构建完整、一致、反映时间变化的数据仓库平台。
数据仓库平台的建设实现了企业异构数据的集成,企业按照分析
主题重组数据库,建立了面向整个企业的、一致的信息视图,提升了
数据的利用价值。在此基础上,结合联机分析处理技术(Online
Analytical Processing)和数据挖掘技术(Data Mining),为有效
控制企业风险、实现金融企业经营资源的优化配置等提供了数据基础,
也为相关金融企业的经营决策提供有力支撑,大大增强了决策的科学
性。
数据仓库技术是金融信息化发展到一定阶段的必然选择。数据仓
库技术在金融行业的应用,将为推进金融业务的发展和创新,促进我
国金融行业的改革和发展,起到积极的作用。目前,部分银行、保险、
证券等企业的数据仓库建设主要围绕资产负债管理、客户关系管理、
风险管理、绩效管理等业务主题展开,实现了对历史数据的集成和重
组,为各类分析型应用提供了较好的数据基础。
七结合你熟悉的领域,说明(1)构建数据仓库和数据挖掘应用的必要
性.(2)建设数据仓库
涉及的主题及其内容.(3)数据挖掘的主要应用. 15
(1)构建数据仓库和数据挖掘应用的必要性
数据采集、数据存储、数据处理、数据共享能力的持续增强
数据极大丰富,知识极其匮乏;数据挖掘的动机:在海量数据集
中挖掘知识
从金融信息化的角度
“数据集中化、业务综合化”,极大推动了金融行业的信息化建
设进程,提高了劳动生产率,同时也积累了大量的数据
“管理扁平化、决策科学化”成为金融行业在激烈竞争中创造优
势的重要手段
优化客户管理,提供高质量、个性化的服务
客户分类分析、行为分析、满意度分析、忠诚度分析
发挥金融创新,推出创新产品
交叉销售、营销策略
构建企业级数据仓库、开发深层次的数据挖掘应用
呼唤强大的智能型自动数据分析技术和工具, 对数据进行有效预处
理; 对数据进行智能分析(数据分割、数据分类等)
(2)建设数据仓库涉及的主题及其内容
从金融信息化的角度
主题:客户、产品、收入
保险公司:
面向主题:客户、保单、保费、理赔(赔款)
(3)数据挖掘的主要应用. (见PPT)
数据仓库技术为企业提供企业级的数据存储,数据挖掘技术为企
业提供智能
发布者:admin,转转请注明出处:http://www.yc00.com/num/1700850809a1031280.html
评论列表(0条)