当前位置:心圆文档网>专题范文 > 公文范文 > 2023年第三章,数据仓库设计【通用文档】

2023年第三章,数据仓库设计【通用文档】

时间:2022-11-01 09:10:03 公文范文 来源:网友投稿

下面是小编为大家整理的2023年第三章,数据仓库设计【通用文档】,供大家参考。

2023年第三章,数据仓库设计【通用文档】

1 第三章 数据仓库设计 DW 设计是一个操作型系统设计方法演变而来的范例。DW 设计者不仅要设计一个数据库 (DW 用 DB 实现)和一个用户接口(数据展现部分)。而且还必须设计数据与 OLTP 系统的接口,数据装载策略,数据存取工具,用户培训方案和不间断的维护方案。即必须考虑许多在操作型系统设计中不必考虑的问题。本章的意图就是帮助你完善的理解如何建立和实现DW 和在一个完整的DW 设计必须考虑的问题。

  我们要设计DW,首先要了解他的开发生命周期。

   1 2 3 4 5 6 7 传统的 SDLC 收集需求 分析 设计 编程 调试 集成 实现 需求驱动 DW 的 实现 DW 集成数据 检验偏差 针对数据编程 设计 DSS 系 SDLC 统 分析结果 理解需求 数据驱动 3.1 数据仓库开发的方法 建立一个DW 一般需做以下五个方面的工作:

  1、任务和环境的评估。

  2、需求的收集和分析。

  3、构造DW。

  4、DW 技术的培训。

  5、回顾、总结和再发展。一、 任务和环境的评估 1、目标:因为数据仓库是建立在原有的运行系统之上的,因此要结合单位的现状来明确数据仓库的目标任务。了解数据源所在系统和其中数据的状况、数据类型、工作平台、数据 量、数据质量、DW 的环境、网络技术状况。

  2、目的:

  ⑴ 看DW 的任务是否可行。

  ⑵ 所建立的DW 是否是用户所期望的。

  ⑶ 有没有不逾越的障碍。

  ⑷ 确定DW 系统成功与否的基本原则。

  3、组织:高层负责人参加并组织项目组。人员:项目总负责人 与 DW 相关的业务部门负责人计算机软/硬件负责人 DBA 网络人员 4、项目组的任务:初步确定主题 主题的层次结构二、 需求的收集和分析。

  1、任务:

  ⑴ 了解决策者现在的工作目标。

   2 限制条件。

  ⑵ 现在获得决策支持信息的方法、渠道。

  ⑶ 和竞争对手的差距。

  ⑷ 决策者希望DW 提供什么。

  ⑸ 制定系统的逻辑模型。

  ⑹ 分析数据源的物理存储状况、运行平台、数据质量、硬件、软件和网络的 2、分析文档。

  ⑴项目概述。

  ⑵差距分析。

  ⑶系统基本架构图示。

  ⑷逻辑模型。

  ⑸物理模型。

  ⑹DW 的初始装载和更新策略。

  ⑺ DW 的运行计划

  ⑻决策信息展现的希望和需求。

  ⑼ DW 建成的时限。三、 构造 DW 构造数据仓库包括数据仓库的管理、数据仓库的组织和决策支持信息的展现三部分。

   设计和编写数据抽取程序/工具。设计和编写数据转换程序/工具。

  1、DW 的管理 设计和编写数据更新程序/工具。

  设计和编写运行的接口程序。

  建立这一阶段的所有管理的数据(元数据) 程序统一标准命名、建档。

   初始装载建立索引 2、DW 的组织 建立数据视图 DW 及工作平台的安全检查装入数据和应用功能 建立此阶段的元数据。

   3、决策支持信息的展现 利用多维数据展现、数据挖掘等一些工具可预先制作好许多常规的信息市场项目供支持决策使用,也可以直接操作主题数据以得出新的决策支持信息。

  四、 数据仓库技术的培训。

  培训内容:1、DW 中的数据内容(包括逻辑模型、物理模型)、数据质量。

  2、元数据的内容、位置,如何使用。

  3、用户界面和功能介绍。

  4、数据更新计划。

  5、DW 的安全规则。

  6、从OLTP 到 DW 的数据流。

  7、全部的数据转换工作。

   3 8、数据装载和更新的策略。五、 回顾、总结和再发展。

  1、哪些地方可以做得更好。

  2、业务部门对开发的支持是否到位。

  3、双方如何合作得更好。

  4、什么是业务部门立竿见影的效益。

  5、主题选择是否得当。

  6、阶段成果是什么?反映如何? 7、DW 采用是否提高了公司的竞争力。

  8、投资回报率是否达到预计的水平。

  六、 SAS 数据仓库方法论 见图 3-1 主要数据模型和 DW 主题的选择 设计 DW 结构、数据建摸、过程建摸 物理的 DW 组装、应用程序编码,测试、验收、 把 DW 展示给业务用户,培训。

   图 3-1 SAS 数据仓库方法论 总结:1、总结早期项目实施成功和失败的经验和公布以后努力的结果。

  2、应用配置是否如愿实现,如有必要须调整计划。

  3、评估项目对单位的影响和得益。

   3.2 数据仓库的技术体系结构 DWS 的技术体系结构如图 3-2 所示 评 估 需求调查 总 结 设 计 构 建 部 署 4 数据管理员模块 数 据 传 递模块 数据获取模 块 DW 的数据 中 间 件 模块 数 据 访 问模块 数据源 信息目录模块 设计模块 DW 的元数据 外部元数据 外部数据 图 3-2 DataBase Association 公司定义的DW 技术体系结构 一、 设计模块 功能:是由DW 的设计者和管理者来设计和定义的DW 的。在设计 DW 时必须考虑到的其他因素还包括 DB 和瞬时数据的处理。某些DW 数据库还包括星型模型的非规范化 DB 设计。

  二、 数据获取模块 功能:用于开发和运行数据获取应用程序,从源系统中获取数据并加到DW 中。内容:1、数据抽取规则——界定数据源。

  2、数据情况——记录和字段的重组,增补丢失的字段值,数据的整性和一致性检查。

  3 、数据增强——字段值的解码和转换,增加时间属性(若没有),数据的概括或者衍生值的计算。

  4、数据传输。

  5、生成的定义作为元数据存入信息目录模块。三、 数据管理员模块。

  功能:是 DW 用来生成、管理和访问仓库中数据(很可能还有元数据)的模块。一般使用 RDBMS 或 MDBMS (多维 DBMS )。

   四、 管理模块。

  管 理 模 块 5 功能:完成维护DW 环境的系统管理服务。内容:1、管理数据获取操作。

  2、仓库数据归档。

  3、仓库数据备份。

  4、仓库数据恢复。

  5、访问DW 的安全及授权等。五、 信息目录模块 功能:帮助技术用户和业务用户访问DWS,通过一套维护和观察仓库元数据的工具实现这一功能。

  主要元素:1、源数据管理员:维护、输入/出仓库元数据。

  2、技术元数据。

  3、信息助理:为最终用户提供访问元数据的简单方法,有些产品能帮助用 户产生、编写、运行查询、报表、分析并预定仓库中找不到数据和信息。

  六、 数据访问模块 功能:提供访问工具,使用户访问和分析仓库中的数据。访问工具:1、查询、报表自动生成和数据分析工具。

  2、能访问RDBMS 的多维分析工具。

  3、能访问MDBMS 的多维分析工具。

  4、运行 4GL 或可视化程序设计语言的DSS 应用程序开发工具。七、 中间件模块 功能:将DW 数据与最终用户工具连接起来,专门中间件:

  ①智能数据仓库中间件——位用户提供从业务角度、数据仓库的视角;并能监视和跟踪对DW 的访问情况。

  ②分析服务器——能改善对RDBMS 数据进行多维分析的效果。八、 数据传递模块 功能:将数据集合分布到其他DW 和最终用户产品中,如电子报表。数据的传递可以在一天中的某一时刻进行,也可以在一个外部事件结束时进行。

   3.3 数据仓库和数据模型 数据仓库的设计和OLTP 系统的设计一样,也需要先进行模型的设计。一、 不同层次模型之间的关系.。

  1、 企业数据模型:特点:只包含原始数据。OLTP、DW 的数据模型均源于企业模型。

  2、 操作型数据模型 特点:①基本等价于企业数据模型。②在数据库设计之前要加入性能因素。

  3、 DW 数据模型。

  特点:①去掉纯操作性数据。

  ②给键码增加时间因素 ③合适之出增加导出数据 ④把 OLTP 系统中数据关系变为人工关系。

  4、稳定性分析:根据各个属性的变化特征将这些属性分组(例如按更改频率)。就把原始数据一个表分成多表,完成数据聚集。

  二、 数据模型 6 数据模型的级别:

  OLTP:概念模型 逻辑模型 物理模型 DW:

  高层模型 中间层模型 底层模型 1、 高层建模:实体关系表示方法(ERD) 高层建模的特点是实体和关系,如图3-3 所示。实体的名字放在椭圆内,实体间的关系用箭头描述。箭头的方向和数量表示关系的基数,只有直接的关系才标示。

   一个实体或者主要主体 1:n 的关系 1:1 的关系 n:1 的关系 例 图 3-3 实体关系图 在 ERD 层的实体位于最高抽象层,那些实体属于模型的范畴,那些不属于,应该有集成范围定义数据模型的边界。而且集成范围需要在建摸之前进行定义。

  企业 RED 由很多反映了整个企业不同人员的不同观点的单个RED 合成的。集成的方法可以参照数据库设计时的局部ERD 向 全局ERD 集成的方法。所以,建立企业 ERD 的方法是:

  方法:① 首先在建模之前定义数据模型的边界 ② 先建立企业内部不同群体的高层数据模型,然后进行集成组成企业的ERD. 2. 中间层数据模型(DIS----Data Item Set 数据项集) 对高层模型中标识的每个主要的主题域或实体都要建一个中间层模型(DIS 可称为逻辑模型,它是对ERD 的细分), ① DIS 和ERD 的关系 零件 供应商 订单 装配 7 ERD 中的每一个实体将来都会被他的DIS 所定义 ② DIS 的构造 <a> 初始数据组 ---- 初始数据组对每个主要主题域存在且只存在一次,它有在每个主 要主题域只出现一次的属性,初始数据组有属性和键码 <b> 二次数据组 ---- 有对每个主要主题域可以存在多次的属性,从初始数据组有一链 接指向二次数据组有多少个可以出现多次的不同数据组,就含有多少个二级数据组。

  <c> 连接数据组 用于本组主题域与其它主要主题域之间的联系,体现了ERD 中实体间的关系,它将数据从一个实体与另一个实体联系起来。

  一般情况下,连接数据组往往是一个主题的公共码主键,从而建立了两个主题域间的相互联系。

  <d>类型数据组 ----- 指出数据的类型 数据的类型由指向右边的不同数据组组成,主要有左边的超类型数据组和右边的子类型数据组。

  逻辑模型的基本结构由图 3-5 所示 基本数据组 超类型 子类型 连接数据组 二次数据组 连接数据组 图 3-5 逻辑模型的基本结构 ③ 数据组的稳定性 基本数据组稳定性大于初始数据组,初始数据组的稳定性大于类型数据组 ④ 逻辑模型示例:见图 6-6 DIS DIS ERD DIS DIS 图 3-4 DIS 和 ERD 的关系 8 账号 账号 账号 地址抵押 姓名 信用额度 委托人 贷款 性别 开户时间 利息 评估 账号 账号 省 账号 时间 市 最小存款 制造商 县 最小余额 型号 街道 邮政编码 账号 客户编号 责任人 种类 非抵 账号 押贷 信用卡类型 款 信用卡限额 图 3-6 逻辑模型示例图 在图 3-6 中,其客户名称、性别和开户时间等有关客户固定描述信息的数据项内容是基本不变的,所以他们可列入基本数据组。

  客户的地址、文化程度、电话等虽然基本稳定,但是存在改变的可能性,因而列入二级数据组;

  客户的贷款、存款情况、担保以及信用卡消费记录是频繁变动的数据项,故列入类型数剧组。

  逻辑模型为DW 开发者与使用者相互之间在进行DW 开发时的交流与讨论的工具。逻辑模型设计时,应保证DW 中的所有元素包含在数据模型中。

  3. 物理数据模型 逻辑模型可采用星型模型和雪花模型,主要是设计事实表、维表。

  物理数据模型是依据中间层的逻辑数据模型创建的,他通过确定模型的键码属性和模型 的 物理特性,扩展中间层模型而建立的,物理数据模型就由一系列表所构成,其中最主要的是事实表模型和维表模型,另外根据性能要求,对有关表模型进行调整,并确定有关的索引设置。

  [1 ]事实表模型设计 以图 3-6 的金融企业客户主体逻辑模型可以设计出下面的事实表模型 <A>客户事实表 客户基本情况表(账号,姓名,出生地,开户时间…) 客户变动情况表(账号,省,市,县,街道,邮编…) <B>客户贷款事实表 客户房屋贷款事实表(账号,地址,委托人,评估...) 客户汽车贷款事实表(账号,时间,制造商,型号...) <C>客户存款事实表 客户存款表 1(账号,时间,最小存款数,最小余额...) 9 客户存款表 2(账号,时间,最小存款数,最小余额..) <D>客户担保事实表 客户担保事实表 1(账号,时间,责任人,种类,担保余额 ... ) 事实表是DW 中的最大表,在设计时,一定注意使事实表尽可能的小,因为过大的事实表在表的处理、备份和恢复、用户查询等方面要用较长时间。

  减少事实表大小的方法:

  ① 减少列的数量 ② 降低每列的大小 ③ 把历史数据归档 ④ 对行进行分割 [2] 维模型设计 维表模型也需要根据逻辑模型设计,维度表的属性必须具有以下特征:

  ①可用文字描述 ②有规定的限制(约束) ③属性取离散值 ④在分析中可提供行标题 最常用的维表应该直接参考事实表,而不应间接。这种方法可以最小化表的连接数量, 提高系统的性能。

  客户主体维度表模型 时间维度表(年,月,日) 地点维度表(省,市,县,街道) 贷款维度表(抵押贷款,非抵押贷款) 维属性就是用户获取数据的窗口 [3]. DW 物理模型的性能问题提高DW 性能的技术 <a>合并表 把需连接的几个表的记录合并成一个表,物理的放在一起. <b>建立数据序列 经常按某个固定顺序访问并处理一组数据记录,可严格按顺序存放到一个或几个连续的物理块中. <c>引入冗余 进行关系规范化的逆操作,即反规范化的处理引入冗余和合并表的区别 合并表示将两个或多个相关表的相关记录物理上放在一起,但逻辑上不变,仍是多表,没改变多表的关系模式,且合并表只是对表记录的存取策略的改进,并没有冗余的数 据. 引入冗余则是对表的关系模式的改变.把原来规范化的表,变成有数据冗余的规范化级别低的表。

  <d>表的物理分割 分割依据 : 存取频率 数据的稳定性 <e>生成导出数据 事先在原始数据上进行汇总或计算,生成导出数据。优点: ◆ 减少I/O 次数; ◆ 免去计算汇总步骤; 10 ◆ 避免不同用户重复计算可能产生的误差 <f>建立广义索引 DW 中的数据量巨大,要依靠各种各样的...

推荐访问:数据仓库设计 标签 第三章 数据仓库

版权所有:心圆文档网 2014-2024 未经授权禁止复制或建立镜像[心圆文档网]所有资源完全免费共享

Powered by 心圆文档网 © All Rights Reserved.。备案号:豫ICP备14024556号-1