数据仓库技术概述

数据仓库技术概述


2024年2月22日发(作者:)

数据仓库技术概述

数据仓库技术

随着数据库技术的日趋成熟以及应用系统逐渐完善,不管是利用早期的RDB、Dbase,依旧后来以其领先的核心技术日渐垄断关系数据库市场的Oracle、Sysbase、DB2,企业差不多积存了大量的数据,这些数据信息为企业的开展提供了客瞧依据。毫无疑咨询,在竞争剧烈的商业环境下,信息将是取胜的要害因素,决策者必须能快速可靠、随时自主地访咨询企业数据,才能有效地做出方案和决策。在这种需求牵引下,形成了数据仓库〔DataWarehouse〕的新概念、新技术。

1数据仓库的概念

数据仓库的提出是以关系数据库、并行处理和分布式技术的飞速开展为根底,是解决信息技术〔IT〕在开展中存在的拥有大量数据,而其中有用信息贫乏的综合解决方案。数据仓库是一种新的数据处理体系结构,是对企业内部各部门业务数据进行统一和综合的中心数据仓库。它为企业决策支持系统〔DSS〕和经理信息系统〔EIS〕提供所需的信息。它是一种信息治理技术,为推测利润、风险分析、市场分析以及加强客户效劳与营销活动等治理决策提供支持的新技术。

数据仓库技术对大量分散、独立的数据库通过 、平衡、协调和编辑后,向治理决策者提供辅助决策信息,发扬大量数据的作用和价值。

概括地讲,数据仓库是面向主题的〔Subject-Oriented〕、集成的(Integrated)、稳定的(Nonvolatile)、不同时刻的(Timer-Variant)数据集合,用于支持经营治理中决策制订过程。

数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据回类的标准,每一个主题对应一个宏瞧的分析领域:数据仓库的集成特性是指在数据进进数据仓库之前,必须通过数据加工和集成,这是建立数据仓库的要害步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进进数据仓库后是极少或全然不修改的;数据仓库是不同时刻的数据集合,它要求数据仓库中的数据保持时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。

数据仓库最全然的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的根底上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中担当的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库依旧用

关系数据库治理系统来治理其中的数据。

传统数据库用于事务处理,也称为操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,要紧面向企业特定的应用效劳。用户体贴的是响应时刻、数据的平安性和完整性。数据仓库用于决策支持,也称分析型处理,它是解决决策支持系统的根底。

数据仓库的数据概念模型是数据的多维视图,它直截了当碍事到前端工具、数据库的设计和联机分析处理〔OnLineAnalyticalProcessing,OLAP〕的查询引擎。在多维数据模型中,一局部数据是数字测量值,而这些数字测量值是依靠于一组维的,这些维提供了测量值的上下文关系。因此,多维数据视图确实是根基如此一些由层次的维构成的多维空间中,存放着数字测量值。多维概念模型的另一个特点是对一个或多个维所做的集合运算。这些运算能够包括关于同样维所限定的测量值的比立。一般来讲,时刻维是一个有特不意义的维,对决策中的趋势分析特别重要。

针对多维模型产生了OLAP分析方法,包括以下三种:

(1) 旋转:立即表格的横、纵坐标交换〔x、y〕→〔y、x〕.

(2) 上钻和下钻:对所体贴的数据依据维的层次提升或落低瞧瞧的层次。

(3) 切片和切块:要紧依据维的限定做投影、选择等数据库操作获得数据。

2数据仓库的数据组织

一个典型的数据仓库的数据组织结构如如下面图:

数据仓库中的数据分为四个级不:早期细节级、当前细节级、轻度综合级、高度综合级。源数据通过综合后,首先进进当前细节级,并依据具体需要进行进一步的综合,从而进进轻度综合级乃至高度综合级,老化的数据将进进早期细节级由此可见,数据仓库中存在着不同的综合级不,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。

图1DW数据组织结构

数据仓库中还有一种重要的数据--元数据〔metadata〕。元数据是"关于数据的数据",在数据库中,元数据是对数据库中各个对象的描述;在关系数据库中,这种描述确实是根基对表、列、数据库、视图和其他对象的定义。从广义上讲,数据仓库元数据代表定义数据仓库对象的任何东西,不管是一个表、一个列、一个查询、一个商业规那么,依旧数据仓库内部的数据转移。

元数据是数据仓库中所有治理、操作数据的数据,是数据仓库的核心。数据仓库反映的是企业数据库的业务模型,其核心是治理元数据。数据仓库元数据被分成三类:

(1) 治理元数据。它包括所有建立和使用数据仓库的信息,源数据库的描述,后端和前端工具选择,定义数据仓库的模式,综合数据、维和层次信息,预定义的查询和报表,数据集市的位置和内容,数据存储的物理组织、分段,数据抽取、清洗、转换的规那么,数据刷新的策略,数据存取的权限、用户等限定。

(2) 业务元数据。这一局部有业务流程和定义,数据所有关系和存取操纵策略。

(3) 操作元数据。它是数据仓库在运行时的治理信息,记录数据在进行层次分析时的层次位置、现在数据仓库中的数据信息、监测信息〔包括使用统计、错误报告等〕。

数据仓库的数据组织方式共有三种:虚拟存储方式、基于关系表的存储和多维数据库存储方式。

虚拟存储方式是虚拟数据仓库的数据组织形式。没有专门的数据仓库来存储数据,数据仓库中的数据仍然在源数据库中,只是通过语义层工具依据用户的多维需求,完成多维分析的功能。这种方式组织比立简单,花费少,用户使用灵活。但同时这种方式也存在一个致命的缺点:当源数据库的数据组织比立标准,没有数据不完备、冗余,又比立接近于多维数据模型时,虚拟数据仓库的多维语义层就轻易定义。而一般数据库的组织关系都比立复杂,数据库中的数据又有许多冗余和冲突的地点。在实际组织中,这种方式特别难建立起为决策效劳的有效数据支持。

关系型数据仓库的组织是将数据仓库的数据存储在关系型数据库的表结构中,在元数据的治理下,完成数据仓库的功能。这种组织方式在建库时,有两个要紧过程完成数据的抽取。首先要提供一种图形化的点击操作界面,让分析员对源数据库的内容进行选择,定义多维数据模型。然后再编制程序把数据库中的数据抽取数据仓库的数据库中。

多维数据库的组织是直截了当面向OLAP分析操作的数据组织形式。这种数据库产品也比立多,实现方法不尽相同。其数据组织采纳多维数据结构文件存储数据,相应有维索引及相应的元数据治理文件与数据相对应。

1〕、维表

多维概念模型能够被多维数据库直截了当实现,然而,关于采纳关系型OLAP方式,那么只能将多维概念模型和多维操作映射到关系和SQL查询上。

大多数数据仓库都采纳星型模型来表示多维概念模型。数据库中包括一张事实表〔FactTable〕,另外关于每一维都有一张维表〔DimensionalTable〕。事实表中的每条元组都包括保证多维关系的指向各个维表的外键和一些相应的测量数据。维表中记录的是有关这一维的属性。

星型模型使OLAP的复杂查询能够直截了当通过各维的层次,执行比立、上钻、下钻等操作。在数据仓库中除了维表和事实表的数据之外,数据仓库中应当包含一些预处理过的综合数据。预综合数据的组织能够有两种形式:增加概括表方式和使用多重编码的方式。

这种数据组织方式存在数据冗余、多维操作速度慢的缺点。但这种数据组织方式是主流方案,大多数现存数据仓库集成方案都采纳这种形式。

2〕、多维数据库数据组织

各公司多维数据库产品的数据组织不完全相同,Arob公司的EESbase多维数据库是一种具有代表性的产品。例如下面的这种组织方式,能够讲明

多维数据库的数据组织:用于分析的数据从关系数据库或关系数据仓库中抽取出来,被存放到多维数据库的超立方结构中—多维体。这各种多维体是以多维数组方式记录各数值测量值的具体值。相应各维有一定的记录维及维内层次的元数据结构。

这种数据组织方式消除了大量数据库表中的空穴造成的空间白费,又没有了在每个元组中在存储的外键信息,而由统一的维与数组的对应系数来限定数据,大大减少了存储空间。

当使用多维数据库作为数据仓库的全然数据存储形式时,最要紧的缺点是使以维为全然框架的存储空间大大减少,针对多维数据组织的操作算法,大大提高了多维分析操作的效率。但多维数据库产品还没有统一的标准,应用还较少。

3〕、两种数据组织的等价性

关系数据库和多维数据库两种数据组织方法能够构成等价的多维数据模型。多种数据组织方法的等价性的数学依据是:多维空间中各点在离散坐标中一一对应于多维数组。

数据的存储同样是有层次性的。对一个系统的多维视图定义是存储方式的概念形式,是最高层次的模型。采纳什么样的存储方式〔即前面提到了关系数据库、多维数据库两种形式〕是物理数据组织的最高层,它们都能实现对多维数据模型的存储。关系型数据库的组织形式和方式不尽相同。数据的具体物理存储〔如数据文件的结构、索引、编码等技术的采纳〕是物理存储的最底层技术和方法。关于数据文件的不同组织方法形成关系型数据库或多维数据库,这两种数据库又都能完成数据仓库的数据组织,即实现多维数据的存储。

4〕、虚拟数据仓库

虚拟数据仓库〔VirtualDataWarehouse〕,即构造一个透明的访咨询机制〔DemandDriven〕,使用户以习惯的方式及时、直截了当地访咨询大型企业数据库。

虚拟数据仓库策略准许用户使用一些工具通过网络猎取数据。因此这种方法最终会使提取和维护大量数据的开销最小。这种方法为用户提供了最多的非预先预备好的查询可能。

虚拟数据仓库是在应用层上进行研究的,其组织形式是用原有的关系表模拟多维数据。用户通过可视化的维定义工具,定义数据仓库中的各维,但在物理存储上并不实际进行数据仓库的组织,而只是在用户进行数据查询使用时,临时从网络和数据库中猎取数据源定义的各维数据。由于采纳虚拟的方式,无需建立大量的数据存储,虚拟的数据访咨询方式着眼于最终用户对数据的直截了当访咨询,其特点在于用户能够直截了当访咨询数据而无需做大量的分析和结构映射。

3数据仓库系统结构

数据仓库是在原有关系数据库根底上开展形成的,但不同于数据库系统

的组织结构形式,它从原有的业务数据库中获得的全然数据和综合数据被分成一些不同的层次。一般数据仓库的结构组成包括当前全然数据、历史全然数据、轻度综合数据、高度综合数据、元数据。

当前全然数据是最近时期的业务数据,是数据仓库用户最感喜好的局部,数据量大。当前全然数据随时刻的推移,由数据仓库的时刻操纵机制转为历史全然数据,一般被转存于一些转换介质中,如磁带等。轻度综合数据是从当前全然数据中提取出来的,设计这层数据结构时会碰到“综合处理数据的时刻段选取〞、“综合数据包含哪些数据属性〞和“内容〞等咨询题。最高一层的数据十分精练,是一种准决策数据。

数据仓库系统是一个广义概念。整个系统包括从操作数据库和外部其他数据源的提取、转换工具、数据仓库数据局部〔要紧指构成数据仓库数据存储的数据库和数据仓库治理系统〕、基于数据仓库的数据分析工具以及与以上各局部相关的治理综合部件,构成了整个数据仓库系统。

数据仓库系统所要完成的功能包括辅助用户设计建立数据仓库系统的数据组织和存储;治理、维护数据仓库的正常工作,即完成数据仓库效劳器的治理,同意用户查询数据的请求,使数据仓库数据与操作数据库中的数据维持有效同步等工作;综合集成多种分析工具〔包括数学统计分析工具、OLAP多维分析工具、数据开采工具〕,完成用户依据决策需求对数据仓库的有效使用。

数据仓库系统的总体结构如图2.11所示:

图2数据仓库系统的总体结构

从图中能够瞧出数据仓库系统包括以下内容:

✓ 数据抽取和转换工具,它们能够完成对数据源的抽取、清洗、维护等功能。

✓ 数据建模工具,用于建立数据仓库与源数据库间的概念模型。

✓ 模型、元数据。

✓ 能够支持高速存取、有效地支持多维数据模型的前端工具。

如此,整个数据仓库的组织大致分为三个局部:数据在进进数据仓库的存储体之前,包括源数据库、外部数据文件的清洗、变换、装载和刷新的工具,这是第一局部。第二局部是数据仓库的具体数据、元数据的存储和数据仓库效劳器〔包括数据库效劳器和OLAP效劳器〕。第三局部是基于数据仓库的查询工具,要紧包括数学统计分析、OLAP查询和数据开采三类工具。

数据仓库的建立首先是依据数据库〔包括关系数据库和其他数据源〕使用多维视图定义工具完成数据模型的设计,再通过“抽取〞工具将数据库中原始数据转进数据仓库的存储结构〔有关数据库和多维数据库两种存储形式〕中。这局部要完成清洗、变换和集成数据,将数据装载到数据仓库中,定期清理数据仓库,消除数据仓库与源数据库的不一致,往除失效数据等。在数据初次提取和以后数据同步时,需要花费的时刻开销大,需要留出充裕的时刻。而且,这一局部的程序可能是数据仓库中最难治理的,同时有可能是各类软件组成的集成体。数据仓库中另一个比立重要的局部是元数据治理

部件。数据仓库中数据的存储和治理由多维数据视图来表现,是元数据的最要紧局部。元数据存储有数据仓库的结构信息,相应也有一些工具程序完成对多维视图的定义,元数据的治理、存储,对整个数据仓库的检测和治理。数据仓库系统是为决策支持效劳的,在数据仓库的数据存储建立以后,用户能够使用系统提供的多分析工具完成对数据的操作,猎取个人需要的信息。

4数据仓库的要害技术

与关系数据库不同,数据仓库并没有严格的数学理论根底,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上能够依据它的工作过程分为:数据的抽取、存储和治理、数据的表现以及数据仓库设计的技术咨询四个方面。

1) 数据的抽取

数据的抽取是数据进进仓库的进口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导进到数据仓库。数据抽取在技术上要紧涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统维持实时的同步,因此数据抽取能够定时进行,但多个抽取操作执行的时刻、相互的顺序、成败对数据仓库中信息的有效性那么至关重要。

在技术开展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些是躲不开编程的,但整体的集成度还特别不够。目前市场上所提供的大多是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的;同时数据抽取过程涉及数据的转换,它是一个与实际应用紧密相关的局部,其复杂性使得不可嵌进用户编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使用而纳进有效的治理、调度和维护那么更为重要。从市场开展来瞧,以数据抽取、异构互连产品为主项的数据仓库厂商一般都特别有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里,它们只能成为辅助的角色。

2〕、数据的存储和治理

数据仓库的真刚要害是数据的存储和治理。数据仓库的组织治理方式决定了它有不于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采纳什么产品和技术来建立数据仓库核心,那么需要从数据仓库的技术特点着手分析

数据仓库碰到的第一个咨询题是对大量数据的存储和治理。那个地点所涉及的数据量比传统事务处理大得多,且随时刻的推移而累积。从现有技术和产品来瞧,只有关系数据库系统能够担当此任。关系数据库通过近30年的开展,在数据存储和治理方面差不多特不成熟,非其它数据治理系统可比。目前许多关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统治理大数据量的扩展能力。采纳关系数据库治理数百个GB甚至到TB的数据已是一件平常的情况。

一些厂商还专门考虑大数据量的系统备份咨询题,好在数据仓库对联机备份的要求并不高。

数据仓库要解决的第二个咨询题是并行处理。在传统联机事务处理应用中,用户访咨询系统的特点是短小而密集;关于一个多处理机系统来讲,能够将用户的请求进行均衡分担是要害,这便是并发操作。而在数据仓库系统中,用户访咨询系统的特点是庞大而稀疏,每一个查询和统计都特别复杂,但访咨询的频率并不是特别高。现在系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求效劳,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。在针对数据仓库的TPC-D基准测试中,比以往增加了一个单用户环境的测试,成为"系统功力"〔QPPD〕。系统的并行处理能力对QPPD的值有重要碍事。目前,关系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和MPP环境,能够支持多达上百个处理机的硬件系统并维持性能的扩展能力。

数据仓库的第三个咨询题是针对决策支持查询的优化。那个咨询题要紧针对关系数据库而言,因为其它数据治理环境连全然的通用查询能力都还不完善。在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多局部。一般关系数据库采纳B树类的索引,关于性不、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库那么引进了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个计算机的全然操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均匀,一般查询优化器所得出得最正确查询路径可能不是最优的。因此,面向决策支持的关系数据库在查询优化器上也作了革新,同时依据索引的使用特性增加了多重索引扫描的能力。

以关系数据库建立的数据仓库在应用时会碰到大量的表间连接操作,而连接操作关于关系数据库来讲是一件耗时的操作。扩充的关系数据库中对连接操作能够做预先的定义,我们称之为连接索引,使得数据库在执行查询时可直截了当猎取数据而不必实施具体的连接操作。数据仓库的查询经常只需要数据库中的局部记录,如最大的前50家客户,等等。一般关系数据库没有提供如此的查询能力,只好将整个表的记录进行排序,从而消耗了大量的时刻。决策支持的关系数据库在此做了革新,提供了这一功能。此外,数据仓库的查询并不需要像事务处理系统那样精确,但在大容量数据环境中需要有足够短的系统响应时刻。因此,一些数据库系统增加了采样数据的查询能力,在精确度准许的范围内,大幅度提高系统查询效率。

总之,将一般关系数据库改造成适合担当数据仓库的效劳器有许多工作能够做,它已成为关系数据库技术的一个重要研究课题和开展方向。可见,关于决策支持的扩充是传统关系数据库进进数据仓库市场的重要技术措施。

数据仓库的第四个咨询题是支持多维分析的查询模式,这也是关系数据库在数据仓库领域碰到的最严峻的挑战之一。用户在使用数据仓库时的访咨

询方式与传统的关系数据库有特别大的不同。关于数据仓库的访咨询往往不是简单的表和记录的查询,而是基于用户业务的分析模式,即联机分析。如图2.12所示,它的特点是将数据想象成多维的立方体,用户的查询便相当于在其中的局部维(棱)上施加条件,对立方体进行切片、分割,得到的结果那么是数值的矩阵或向量,并将其制成图表或输进数理统计的算法。

图3联机分析数据处理示意图

关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库开展的早期,人们发现采纳关系数据库往实现这种多维查询模式特不低效、查询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据治理系统,它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访咨询。采纳多维数据库实现的联机分析应用我们称之为MOLAP。多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据治理扩展性,因此难以担当大型数据仓库应用。这种状态由"星型模式"在关系数据库设计中得到广泛的应用才完全改变。几年前,数据仓库专家们发现,关系数据库假设采纳"星型模式"来组织数据就能特别好地解决多维分析的咨询题。"星型模式"只只是是数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够寻到一个固定的算法,将用户的多维查询请求转换成针对该数据模式的标准SQL语句,而且该语句是最优化的。"星型模式"的应用为关系数据库在数据仓库领域翻开绿灯。采纳关系数据库实现的联机分析应用称为ROLAP。目前,大多数厂商提供的数据仓库解决方案都采纳ROLAP。

在数据仓库的数据存储治理领域,从当今的技术开展来瞧,面向决策支持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓库的中坚力量。

3〕、数据的表现

数据表现是数据仓库的门面。这是一个工具厂商的天下。它们要紧集中在多维分析、数理统计和数据挖掘方面。

多维分析是数据仓库的重要表现形式,由于MOLAP系统是专用的,因此,关于多维分析领域的工具和产品大多是ROLAP工具。这些产品近两年来更加注重提供基于Web的前端联机分析界面,而不仅仅是网上数据的公布。

数理统计原本与数据仓库没有直截了当的联系,但在实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直截了当的联系。而且那个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻寻并发现蕴躲在数据之中的规律。这听起来尽管特别吸引人,但在实现上却有特别大的出进。市场上许多数据挖掘工具事实上只是是数理统计的应用。它们并不是真正寻寻出数据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人来判定其合理性。因此,在

当前的数据仓库应用中,有效地利用数理统计就差不多能够获得可瞧的效益。

4〕、数据仓库设计的技术咨询

在数据仓库的实施过程中,有一些更为全然的咨询题需要解答。它们包括:数据仓库提供哪些部门使用?不同的部门如何样发扬数据仓库的决策效益?数据仓库需要存放哪些数据?这些数据以什么样的结构存放?数据从哪里装载?装载的频率多少为适宜?需要购置哪些数据治理的产品和工具来建立数据仓库?等等。这些咨询题依靠于特定的数据仓库系统,属于技术咨询的范畴。事实上,数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数据仓库的实施过程中,技术咨询效劳至关重要,是一个不可缺少的局部,它甚至于比购置产品更为重要。目前,数据仓库的技术咨询要紧来自数据仓库软件产品的需求商和独立的针对数据仓库技术的咨询公司。

5数据仓库技术开展技术开展

数据集成技术是数据库技术开展的一个必定结果,差不多受到各大软件厂商的极大关注,差不多成为信息技术的一个热点技术。从数据库技术到数据仓库技术,从数据仓库技术到数据(信息、应用)集成技术。

计算机技术,尤其是数据库技术的开展为DSS提供了技术支持;剧烈的市场竞争促进了高层次决策人员对DSS的实际需求。两方面的共同作用,促成了以数据挖掘〔DataMining简称DM〕为核心、以OLAP和DM工具为手段建设DSS的可行方案。数据仓库〔DW〕技术的开展需要以下数据库技术的支持。

(1)高性能数据库效劳器DW的应用不同于传统DB的OLTP应用。传统DB的应用是操作型的,而DW的应用是分析型的,它需要高性能的DBMS核心的支持,以使较快地获得分析结果,这通常需数秒至数分钟。尽管比OLTP的响应时刻长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对DBMS核心的性能要求更高,同DBMS必须具有良好的查询优化机制。

(2)并行数据库技术DW中的数据量大,而且随着时刻的延长,新的数据还会不断进进。DW中的数据库通常是GB甚至TB级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储和治理VLDB,并提供对VLDB复杂查询处理的有效技术。

(3)数据库互操作技术DW中的数据大多来自企业或行业中业已运行的OLTP数据库或外部的数据源。这些数据库经常是异构的,甚至是文件系统中的数据。DW必须从这些异构数据源中定期抽取、转换和集成所需要的数据,并把它们存进DW中。因此,异构数据源之间的互访和互操作技术是必需的。


发布者:admin,转转请注明出处:http://www.yc00.com/news/1708553981a1573997.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信