《数据仓库与数据挖掘》试题答案整理|江阴雨辰互联

2023年11月25日发(作者：需要wifi但是不想安宽带)

《数据仓库与数据挖掘》试题答案整理

《数据仓库与数据挖掘》试题与答案整理

2013级智能系高飙

1.名词解释5x4

（1）主题

主题（Subject）：宏观分析领域所涉及的分析对象。是在较高层

次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象

概念，每一个主题基本对应一个宏观的分析领域。

面向主题的数据组织方式：在较高的层次上对分析对象的数据的

一个完整、一致的描述。（2）事实（P联机分析）

事实是数值度量的；存储一个多维数据，表达期望分析的主题

（目的、感兴趣的事情、事件或者指标等）；具有一定的粒度，粒度

的大小与维层次相关；

一个事实中通常包含一个或者多个度量

一个事实的两个组件：数字型指标、聚集函数

（3）数据归约（P数据预处理）

在可能获得相同或相似结果的前提下，对数据的容量进行有效的

缩减

数据归约的方法：

1数据立方体聚集：聚集操作作用于立方体中的数据

2减少数据维度（维归约）：可以检测并删除不相关、弱相关或者

冗余的属性或维

3数据压缩：使用编码机制压缩数据集

4数值压缩：用替代的、较小的数据表示替换或估计数据

5数据离散化以及概念层次的建立：属性的原始值用区间值或较高

层的概念予以替换（4）兴趣度（P数据挖掘）

一个数据挖掘系统的挖掘结果可能会产生成千上万个模式，但是

并不是所有的模式都有意义。兴趣度度量用于将不感兴趣的模式从知

识中分开。他们可以用于指导挖掘过程，或在挖掘之后，评估发现的

模式。不同类型的数据需要不同的兴趣度量。

兴趣度的度量：一个模式是否感兴趣，取决于它是否容易被用户

所理解，是否有效可信，是否潜在有用，是否新颖等

兴趣度的度量:

客观的度量: 从模式的角度出发，基于模式结构的某些统计的结果，

如：支持度（support）、置信度（confidence）等。

主观的度量:从用户的角度出发，对模式的信任程度，如：新颖性、

可操作性等。

（5）数据分区（片）（P数据仓库设计）

把逻辑上统一的数据分割成较小的、可以独立管理的物理单元

（分片）进行存储。

可按时间、按地区、按业务类型进行数据分片

（6）数据挖掘

数据挖掘是识别数据中有效的、新颖的、潜在有用的和最终可被

理解的模式（Pattern）的非平凡过程。

（7）关联分析

是数据挖掘的分析方法之一，发现数据库中数据间的相互关联。

关联分析发现关联规则，这些规则展示属性-值频繁地在给定数据集中

也一起出现的条件。

（7‘）关联规则

形如X=>Y,即“A1?…?Am=>B1?…?Bn”的规则，其中Ai,Bj是属

性-值对。关联规则X=>Y解

释为“满足X中条件的数据库元组多半也满足Y中的条件”。

发现海量数据中项集之间有趣的关联；

在交易数据、关系数据或其他信息载体中，查找存在于项目集合

或对象集合之间的相关性或因果结构

（8）维度（P8）

数据仓库中的每一维对应于模式中的一个或一组属性。

或者（P联机分析）：对数据进行分类的一种结构，以用于从特定

的角度观察数据。（例如：时间、地区、产品）

（9）度量（指标）

数据的实际意义，一般是一个数值度量指标

2.简答10x4

（1）描述ROLAP、MOLAP、HOLAP的特点（P46+P联机分析）

MOLAP：

1数据存储容量较ROLAP少，往往利用RDB存储细节数据，

MDB存储综合数据

2元数据以内在方式处理，元数据描述了层次关系、时间序列信息、

报表项、安全存取控制、数据源以及预综合等等。

3利用多维查询语言直接访问MDB（不借助附加程序）

ROLAP：

1以关系数据库系统方法进行数据存储和管理；安全控制和存取控

制基于表；封锁基于表、页面或行；

2多维概念下的安全及存取控制，RDBMS不支持，需由OLAP

Server实现

3数据存储容量大（因为RDB技术成熟）但为了提高性能，须建

中间表（预综合），数据冗余大

4元数据作为应用的一部分，由ROLAP Server管理

5用户的分析（查询）请求，需SQL和附加的应用程序共同完成，

可以直接在细节数据上提供OLAP 的功能

（2）数据粒度的概念及它在DW（数据仓库）建模中的作用

粒度：数据的综合程度。例如：细节—轻度综合—高度综合。数

据越详细，粒度越小，层次级别就越低；数据综合度越高，粒度越大，

层次级别就越高。

作用：合理的粒度划分是提高数据仓库性能的途径之一。粒度影

响着数据仓库中数据量的大小，同时影响数据仓库所能回答的查询类

型。粒度大小需要数据仓库在设计时在数据量大小和查询的详细程度

之间做出权衡。

一张表的数据量很大时，就需要两个级别的粒度。粒度的划分，

主要考虑行数。因为按行组织索引，索引依赖于行数，索引大小直接

影响I/O次数。

（3）最大频繁项集与闭合项集的区别与联系（P关联规则挖掘）

最大频繁项集：自身是频繁项集，任何直接后继超集都不是频繁

项集

闭合项集：自身是频繁项集，所有直接后继超集项集的支持度均

小于当前的频繁项集（4）多维数据模型的概念及优势（P联机分析）

概念：多维数据模型又称多维概念视图，通常用Cube来表示。

多维数据模型的基本组成：维、度量（变量、指标）

多维数据模型是为了满足用户从多角度多层次进行数据查询和分

析的需要而建立起来

的基于事实和维的数据库模型，其基本的应用是为了实现OLAP

优势：多维数据模型最大的优点就是其基于分析优化的数据组织

和存储模式。多维数据

模型可以更加直观的表示现实中的复杂关系；

（5）数据挖掘的分类

针对的数据源不同

关系数据库、对象数据库、空间数据库、时序数据库、文档数据

库、多媒体数据库、Web等采用的不同的分析方法

关联分析、分类分析、聚类分析、趋势分析、偏差分析以及异常

点分析等

采用的不同技术

利用数据库或数据仓库的方法、机器学习的方法、统计的方法、

神经网络的方法等。

不同的应用领域

金融、电信、商业、DNA分析、……、股市分析等

（6）置信度,支持度的概念和联系（P关联规则挖掘）

他们都是关联规则有效性和确定性的度量值，或者说是模式兴趣

度的客观度量。

（7）数据仓库和数据集市的区别与联系（P9）

数据集市包含企业范围数据的一个子集，对于特定的用户是有用

的。其范围限于选

定的主题。是数据仓库的三种模型之一。

数据仓库收集了整个组织的主题信息，因此它是企业范围的。数

据集市是数据仓库

的一个部门子集。它聚焦在选定的主题上，是部门范围的。

一般来说，数据仓库更倾向于是一个战略，但不是一个未完成的

概念；而数据集市

更倾向于战术，它的目标在于满足企业客户营销即时的需求。

补充：P45

（8）聚类分析和分类分析的区别和联系（P数据挖掘）

他们是数据挖掘的不同分析方法。

聚类分析：

1描述型。了解数据中潜在的规律、规则。以简洁概要的方式描述

数据，并提供数

据的有趣的一般性质

2每个类的标识事先不确定，把一组对象按照相似性归成若干类别，

即“物以类聚”。

成绩，对学生进行

分类。

方法表述: 决策树、分类规则、神经网络等

（9）简述数据仓库建模中数据项集(DIS)的概念

数据仓库设计的Inmon方法中，数据建模的三级数据模型中的中

级数据模型（称为

数据项集DIS），一个dis与E—R中的一个主题域（实体）对应。

另外两层模型是

高级数据模型（采用E-R方法）和低级数据模型（物理模型）。

3.论述15x2

（1）有一个事务集T如下，最小支持度为62.5%，求其1-3阶频

繁项集

001 ABCD

002 BCDE

003 ABCDE

004 ADE

005 BDE

006 ACEF

007 BCDE

008 BCDEF

（2）K-means算法和K-中心点算法的详细步骤与特点，并比较

两种算法

步骤：

K-means:

给定k，算法的处理流程如下:

1. 随机的把所有对象分配到k个非空的簇中；

2. 计算每个簇的平均值，并用该平均值代表相应的簇；

3. 将每个对象根据其与各个簇中心的距离，重新分配到与它最近

的簇中；

4. 回到第二步，直到不再有新的分配发生。

K-中心点：

用真实的数据对象来代表簇

随机选择k个对象作为初始的中心点；

Repeat

对每一个由非中心对象h 和中心对象i, 计算i被h替代的总代价

Tcih

对每一个有h和i组成的对象对

If TCih < 0, i 被h替换

然后将每一个非中心点对象根据与中心点的距离分配给离它最近

的中心点

Until不发生变化。

特点：

K-means:

优点

相对高效的: 算法复杂度O(tkn), 其中n 是数据对象的个数, k 是簇

的个数, t是迭代的次数，通常k, t << n.

算法通常终止于局部最优解；

缺点

只有当平均值有意义的情况下才能使用，对于类别字段不适用；

必须事先给定要生成的簇的个数；

对“噪声”和异常数据敏感；

不能发现非凸面形状的数据。

K-mediods:

a) K-mediods算法具有能够处理大型数据集，结果簇相当紧凑，

并且簇与簇之间明显分明

的优点，这一点和K-means算法相同。

b) 同时，该算法也有K-means同样的缺点，如，必须事先确定类

簇数和中心点，簇数和

中心点的选择对结果影响很大；一般在获得一个局部最优的解后

就停止了；对于除数值型以外的数据不适合；只适用于聚类结果为凸

形的数据集等。

c) 与K-means相比，K-mediods算法对于噪声不那么敏感，这

样对于离群点就不会造成划

分的结果偏差过大，少数数据不会造成重大影响。

d) K-mediods由于上述原因被认为是对K-means的改进，但由

于按照中心点选择的方式进

行计算，算法的时间复杂度也比K-means上升了O(n)。

比较：

存在“噪声”或者孤立点数据时，K-中心点的方法比K-平均方法

健壮；

K-中心点方法的执行代价比K-平均方法高；

四（15'）

列举4种面向数据仓库实际需求的索引技术，并说明其特点和适

应性

五.

就你感兴趣的领域，说说数据仓库和数据挖掘技术的应用及在该

领域的应用10x1

数据挖掘见PPT

数据仓库技术在金融信息化中的定位和作用（引言）

金融业务和信息技术的紧密融合，已经成为金融行业打造核心竞

争力的重要途径。随着国内外金融行业竞争的日益加剧，如何利用信

息技术提升业务管理水平，增强业务创新能力，为客户提供更优质的

服务，成为我国金融行业面临的重大课题。

近年来，我国金融信息化按照“数据集中化、业务综合化、管理

扁平化、服务网络化、决策科学化”的理念，构建了两大数据平台：

一个是基于数据大集中的策略，面向金融业务

数据处理，构建高效、统一的核心业务数据平台；另一个是面向

分析处理，构建完整、一致、反映时间变化的数据仓库平台。

数据仓库平台的建设实现了企业异构数据的集成，企业按照分析

主题重组数据库，建立了面向整个企业的、一致的信息视图，提升了

数据的利用价值。在此基础上，结合联机分析处理技术（Online

Analytical Processing）和数据挖掘技术（Data Mining），为有效

控制企业风险、实现金融企业经营资源的优化配置等提供了数据基础，

也为相关金融企业的经营决策提供有力支撑，大大增强了决策的科学

性。

数据仓库技术是金融信息化发展到一定阶段的必然选择。数据仓

库技术在金融行业的应用，将为推进金融业务的发展和创新，促进我

国金融行业的改革和发展，起到积极的作用。目前，部分银行、保险、

证券等企业的数据仓库建设主要围绕资产负债管理、客户关系管理、

风险管理、绩效管理等业务主题展开，实现了对历史数据的集成和重

组，为各类分析型应用提供了较好的数据基础。

七结合你熟悉的领域,说明(1)构建数据仓库和数据挖掘应用的必要

性.(2)建设数据仓库

涉及的主题及其内容.(3)数据挖掘的主要应用. 15

(1)构建数据仓库和数据挖掘应用的必要性

数据采集、数据存储、数据处理、数据共享能力的持续增强

数据极大丰富，知识极其匮乏；数据挖掘的动机：在海量数据集

中挖掘知识

从金融信息化的角度

“数据集中化、业务综合化”，极大推动了金融行业的信息化建

设进程，提高了劳动生产率，同时也积累了大量的数据

“管理扁平化、决策科学化”成为金融行业在激烈竞争中创造优

势的重要手段

优化客户管理，提供高质量、个性化的服务

客户分类分析、行为分析、满意度分析、忠诚度分析

发挥金融创新，推出创新产品

交叉销售、营销策略

构建企业级数据仓库、开发深层次的数据挖掘应用

呼唤强大的智能型自动数据分析技术和工具, 对数据进行有效预处

理; 对数据进行智能分析（数据分割、数据分类等）

(2)建设数据仓库涉及的主题及其内容

从金融信息化的角度

主题：客户、产品、收入

保险公司：

面向主题：客户、保单、保费、理赔（赔款）

(3)数据挖掘的主要应用. （见PPT）

数据仓库技术为企业提供企业级的数据存储，数据挖掘技术为企

业提供智能

发布者：admin，转转请注明出处：http://www.yc00.com/num/1700850809a1031280.html

《数据仓库与数据挖掘》试题答案整理

发表回复

评论列表（0条）

联系我们

400-800-8888

《数据仓库与数据挖掘》试题答案整理

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888