数据仓库总体设计报告.docx

上传人:夺命阿水 文档编号:428015 上传时间:2023-06-13 格式:DOCX 页数:79 大小:479.63KB
返回 下载 相关 举报
数据仓库总体设计报告.docx_第1页
第1页 / 共79页
数据仓库总体设计报告.docx_第2页
第2页 / 共79页
数据仓库总体设计报告.docx_第3页
第3页 / 共79页
数据仓库总体设计报告.docx_第4页
第4页 / 共79页
数据仓库总体设计报告.docx_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《数据仓库总体设计报告.docx》由会员分享,可在线阅读,更多相关《数据仓库总体设计报告.docx(79页珍藏版)》请在课桌文档上搜索。

1、数据仓库总体设计报告(1)产品版本密级1.0共87页数据仓库系统总体设计项目经理:日期:2001/12/28部门经理I日期:2002/01/08总工办:日期:2002/01/08目录1 概述71.1 背景71.1.1 待开发的软件系统名称81.1.2 系统的基本概念81.1.3 项目组名称81.1.4 项目代号81.2 术语与缩写词81.3 设计目标92 系统设计92.1 设计原则92.2 系统结构112.2.1 子系统划分112.3 系统数据结构16472.3.1 逻辑结构122.3.2 层次结构132.3.3 网络拓扑结构13442.3.4 网络层次结构15462.4 行业特殊需求1647

2、2.5 底层数据库(仓库)设计18492.5.1 设计原则18+92.5.2 数据现状19202.5.3 数据存储整体规划19242.6 ETL系统23242.6.1 需求规定23242.6.2 运行环境23242.6.3 设计思想23242.6.4 结构说明24252.7 系统管理25272.7.1 需求规定2272.7.2 运行环境2622.7.3 设计思想27282.7.4 结构说明2722.7.5 处理流程28292.8 数据展现29302.8.1 需求规定29302.8.2 运行环境302.8.3 设计思想312.8.4 结构说明312.8.5 处理流程32342.9 界面设计错误!

3、未定义书签。M2.9.1 需求规定错误!未定义书签、:U2.9.2 主程序界面错误!未定义书签32.9.3 要紧页面设计错误:未定义书签。并,3332.10 接口设计2.10.1 外部接口2.10.2 内部接口3W2.11 安全设计3432.11.1 网络安全34592.11.2 数据库安全37422.12 系统可靠性设计38432.12.1 可靠性3842.12.2 可保护性38432.12.3 可扩展性39442.12.4 健壮性39442.12.5 性能保证39442.12.6 出错处理40452.13 运行设计11462.14 有关工具选择41462.14.1 数据库选择42472.1

4、4.2 WEB服务器与应用服务器42472.14.3 数据库建模工具4342.14.4 分析型工具4342.14.5 OLAP工具介绍44492.14.6 ORACLE公司OLAP介绍45502.15 开发环境4612.15.1 硬件环境峥2.15.2 操作系统46512.15.3 开发语言4622.15.4 数据库系统47522.15.5 中间件系统47532.15.6 应用系统父貂3 系统调试与测试48553.1目的485a3.2基本要求48543.2.1 测试计划4843.2.2 测试说明48M3.2.3 测试环境建立48543.2.4 测试报告49543.3应遵循的原则49543.4测

5、试方法49553.5测试重点50554 项目进度50564.1项目资源计划50564.1.1 项目组50564.1.2 数据仓库领导小组办公室51564.2项目工期计划51564.3时间进度计划51564.3.1 数据仓库系统需求调查与两会系统51574.4第一期开发主题51574.5第二期开发主题51574.6工作量分配计划5275 小结5256 参考文献54607 附录554-7.1 OraCle性能评估报告5564-7.2 主流WEB服务器比较5967.3 IBM小型机性能评估报告67767.4 全面网络拓扑图及设备清单70787.5 在多层体系结构下建立数据仓库75H3摘要数据仓库系统

6、的建立能够解决传统数据库不能很好提供分析决策功能的问题,能够发掘历史数据中隐含的大量有价值的信息,为国民经济的进展与宏观决策提供大量有效的参考信息。系统数据来源复杂,在数据仓库设计中不能使用常规方法解决问题;主题众多且分析热点会随时间变化而变化,要求主题下所含的信息在一定范围可变;主题下指标可能需要调整等实际情况,这与数据仓库的数据的不可修改性有矛盾:等等。我们结合数据仓库的特点与系统实际情况,提供了一套完整的数据仓库系统的解决方案。整个数据仓库系统从数据采集到数据展现共分为四部分:1、数据抽取、转换、加载;2、系统管理(包含数据库保护):3、数据展现:4、支撑整个系统的数据库的设计(包含ET

7、L中间数据库与数据仓库)保证系统具有相当的灵活性。各个部分独立完成木部分功能,同时紧密协作构成数据仓库系统。数据仓库系统管理与数据导入部分使用C/S模式有针对性的开发;数据仓库系统的数据展现使用流行的B/S模式向用户提供数据查询、决策分析。关键词:指标,主题,数据仓库,联机分析,数据挖掘,决策支持。1概述1.1 背景通过2个多月的需求分析调查,确定了数据仓库系统总体定位(省政府数据仓库是以充分发挥信息的社会作用与经济效益为最终目的)与系统功能需求。现根据需求分析规定与局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。省政府局数据具有建立数据仓库系统的基本条件:积存了大量历史

8、数据,这是数据仓库存在的必要条件:随着市场经济的进展,社会各界(如金融投资等领域为了规避市场风险,提高决策的准确度,开发新的市场与利润增长点,挖掘市场潜力)对数据的需求不断增大,社会各界迫切需要利用数据进行决策分析,指导经济建设。省政府数据仓库建设存在下列困难: 当前局各个处室没有统一规划的数据库系统; 只有少量数据以电子文件形式存在,大部分历史数据储存在纸介质上,到目前为止,建国以来的数据有通常以上以纸介质方式存储: 由于我国制度在不断进展完善,指标在不一致的历史时期的口径不一致,为了使同类指标具有可比性,要确定不一致时期各个指标的调整规则,并对历史数据按规则进行调整,这种调整除了少数指标能

9、够按统一的算法进行以外,大部分调整工作需要人工参与:因此,省政府数据仓库的建设中数据的整理加载工作量极大,ETL(Extract.Transform、CleaningLoad)工具开发难度大;完善的、与数据仓库系统良好联接的、统一规划的各个处室的数据库系统是据仓库系统的具有长久生命力的基本保障,因此各处室数据库的建设应同步进行。1.1.1 待开发的软件系统名称省政府数据仓库系统1.1.2 系统的基本概念指标:系统的数据以指标为载体,所有的数据都是指标在不一致时间,不一致地域上的取值,统一指标可能有年度、月度、季度、半年、连续某几个月等时间段的数据,可能有国家、省、地、市、县、乡、村的数据,甚至

10、有居民户、具体企业单位的明细数据,数据仓库中的数据就是这些数据的有机集合。主题:数据仓库中的数据按主题组织,这是由数据仓库以分析决策为要紧目的决定的。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。省政府数据仓库是将指标数据按分析主题集成起来,供查询、分析、辅助决策。1.1.3 项目组名称数据仓库项目组1.1.4 项目代号XhnTJDWOO1-00191.2 术语与缩写词指标:StatisticalParameter数据仓库:DW(DataWarehouse)主题:Subject数据集市:DataMart元数据:MetaData数据抽取、转换、加载:ETL(Extra

11、ctTransform、CIeaning、Load)联机分析处理:OLAP(On-LineAnalyticaIProcessing)联机事务处理:OLTP(On-LineTransactionProcessing)决策支持系统:DSS(DecisionsupportSysteiTi)数据挖掘:DM(DataMining)应用服务器:AS(ApplicationServer)Web服务器:WebServer1.3 设计目标省政府数据仓库系统是以充分发挥信息的社会效益与经济价值为最终目的。将大量事务处理数据库中的数据进行清理、抽取与转换,并按决策主题进行多维重组,在高效的网络平台上充分发挥系统作为

12、社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供数据、信息服务,为信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。为省政府局建立一套而向党政领导、专业分析人员、广大社会群众对外公布信息的数据仓库系统。整个系统集数据采集、管理、保护、展现于一体,旨在建立数据仓库后既减轻局工作人员工作量,又能很好的为公众服务。前端数据展现要有通用性,使用浏览器浏览数据,是瘦客户端。后端保护系统要具有高效性,能及时、高效处理、管理数据,功能强大,是胖客户端。数据仓库系统重在建立一个习惯分析的系统环境,首期开发“两会”信息咨询,企业名录、人口普查、字典、工业经济、农业经济等主题

13、。2.1 设计原则从充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供“快、精、准”的信息服务的需要出发,使用当今数据库领域成熟稳固的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个“决策数据管理与分析中心”的基木解决方案。1、系统使用多层体系结构,建立一个良好开放性的数据仓库系统环境,习惯不断增加与变化的业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务器与两层计算模式。多层结构可由下列三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,同意用户通过将其与实际应用隔离而共享与操纵业务逻辑:后端的数据

14、管理与服务层,提供对专门服务(比如数据库服务器)的访问。多层结构与传统的客户/服务器结构的区别在于:在传统的客户/服务器两层结构中,用户将实际的业务逻辑放置到客户端(作为对表达逻辑的增补)或者放置到后端数据库(作为数据逻辑的部分包含在存储过程中)。而在多层结构中,用户将业务逻辑放到中间层上。这种模块化方法明确地划分了表达逻辑、业务逻辑与数据存储。多层结构通过将应用逻辑集中到中间层,开发者能够迅速更新业务逻辑,而无需重新将应用递交到成千上万的桌面系统上。提高数据库的性能、改善系统的开放性、可扩展性与数据的安全性,并降低管理的复杂性。2、结构化、层次化、模块化。使用面向对象技术,使系统高度结构化、

15、模块化、层次化,整个系统由接口定义良好的多个模块构成,每个模块都有全面的功能说明与设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能与结构,便于系统升级,保护。3、具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB服务器等服务器软件系统,选用具有良好平台移植性的B/S与C/S模式下的开发语言开发应用程序与应用中间件,提高应用系统的平台移植性;4、统一性与多样性相结合。面向用户的各个应用系统,尽量保持统一风格以习惯用户的操作习惯,但各个系统根据内容具有各自的特色,整个系统与谐统一,清新明了。5、自主开发与利用现有

16、工具相结合。尽量利用各成熟的数据仓库系统软件(工具)为数据仓库这个具有特殊性的项目服务,针对具有特殊性的需求,开发特定的系统软件,缩短数据仓库开发周期,降低开发成本,保证系统正常开发。6、安全性的考虑。系统安全与数据安全是个网络应用系统应该首先考虑的问题,数据仓库系统的设计要从网络安全、系统安全、数据安全等各个方面充分考虑,保障系统安全稳固。7、分散与集中相结合。数据仓库系统是一个非常庞大的系统,所有数据集中存储,但局各处室能分别保护本处室数据,数据仓库根据需要能对系统管理分别设置权限,不一致用户保护不一致数据。8、稳固优先,注重效率。数据仓库的海量数据存储与高效查询是对矛盾,在当今硬件技术不

17、断进展与成本不断降低的形式下,我们优先考虑系统效率,但是在系统稳固性与效率不可兼顾时,以系统稳固优先。比如在数据仓库设计方面,我们通过逆规范化(引进适当冗余)来提高系统查询效率。9、以最简单的方式实现复杂的功能。为提高系统的稳固性与可读性,可保护性,尽量使用简洁易懂的方式实现系统功能,不追求复杂、深奥的算法。2.2 系统结构2.2.1 子系统划分整个系统按功能分为四大系统,各系统分别为:1 .数据库系统中间数据库数据仓库2 .ETL系统指标数据抽取子系统指标数据加载子系统3 .系统管理系统 ETL辑理管理子系统 数据仓库管理子系统ZJV*fc,It-i-r-JLJTL 应用服务器子系统 WEB

18、服务器子系统 OLAP多维分柝决策支持会近子系统数据挖掘子系统A图形展示子系统报表处理子系统数据导出子系统2.2.2逻辑结构图形展示子系统REBjli务第数据仓库IiT现r求统rr.jJ r,c隔川城务藏如室鳖至数据仓库成川服务播中间数据库s一 一数据屣现图形展示子系统报衣处理了系统数据导出系统决策分析I。芯数据挖掘艇务器-WEBHUXS-ETL工具ETL数据抽取子系统一ETL数据加栈子系统.系统管理IETL管理子系统II数据仓库管理子系统2.2.3层次结构-; Internet应用层安全服务层WEB服务层业务逻辑层数据存储层BrowsBws客户机Ll网络防护体系整个系统在逻辑上分为三层:原始

19、数据层,中间逻辑层(业务逻辑层、WEB服务层、安全服务层),应用层。原始数据层:以统一规范的方式存储数据:中间逻辑层:解析应用层的业务逻辑,使应用层与原始数据相互独立,提高应用层系统(程序)的可扩展性、可移植性:应用层:面向最终用户,提供友好、简洁、方便的用户界面,具有良好的业务无关性。2.2.4 网络拓扑结构我们根据下列列出的几点,确定硬件系统结构:1 .系统已经拥有比较完备的内部网络系统,此系统是全国系统的专用网络。2 .省政府数据仓库系统的数据、信息既能够在系统的网络内最大限度的实现数据共享,又能将能够对公众公布的信息分不一致的级别向外界公布。3 .尽可能在网络设计上考虑防止黑客攻击、病

20、毒传播等破坏数据的手段与方式。4 .尽可能利用现有网络系统,包含系统专有网,公共InIernet网,政府办公局域网等。我们设计了一个在物理上能够随时隔离或者连接、由两大部分构成的网络系统结构,如下图所示:工修工年工体XM 工体说明:1、出于网络安全的原因,将整个网络分为内部网络与外部网络两部分。2、内部网络与外部网络的系统机构基本相同。外部网络基本上用在对外公布,不包含保密信息。3、外部网络需要的公布数据从内部网络中通过ETL工具获得,存放在外部网络的数据仓库中。4、外部网络通过防火墙、路由器与ImCrnCl相连。5、为保证数据安全,只在外部网络从内部网络抽取数据时,两者才是连通的(且要通过防

21、火墙),其余时间两个网络物理隔离。6、工作站分别为各个处室的个人PC机,也能够是单独的工作站,功能为向ETL服务器提供仓库所需数据及通过浏览器访问数据仓库数据信息。7、ETL工具定期从各个处室的数据库系统抽取数据,且ETL服务潜兼中间数据库服务器,抽取的数据暂时储存在ETL服务器上,在导入数据仓库之前容许修改。8、考虑到数据仓库系统决策分析时需要大量数据信息,因此要求交换机容量应为IOooM。9、OLAP服务器与应用服务器结合比较紧密,在实际的应用中共享一台设备。10、入侵检测系统是一台单独的设备,放在路由之后,起到防止非法入侵的作用。11、安全隐患扫描系统能够运行在一台高性能的PC机上,提供

22、及时的安全扫描,及早发现问题。全面的硬件配置及全局网络拓扑参见附件:全面网络拓扑图及设备清单2.2.5 网络层次结构整个数据仓库系统由内而外分为四层:1、系统内核层:包含数据仓库服务系统及应用系统。2、系统安全层:使用网络安全产品,与局现有网络系统兼容,保护内部数据安全,网上信息传送安全、防止黑客破坏或者恶意入侵。3、公共网络层:基于TCP/IP的城域网与广域网(省局目前开通的帧中继网),使用现在已经建成的公共网络将数据、信息、知识公布出去。4、外部应用层:各类数据仓库系统的客户应用系统,通过外部应用系统用户能够获得系统提供的向外公布的各类信息。2.3 系统数据结构省政府数据仓库的数据是基于多

23、维建模理论的关系型数据存储方式,使用多星型结构存储维度与事实数据。2.4 行业特殊需求主题的增加系统的分析方向众多,涉及社会各界,且热点每年都会发生变化,分析主题会随着社会经济的进展不断有所增加,我们使用自顶向下的设计方法来设计曷数据仓库系统,使用自底向上的方式实施,这样每增加一个主题就是建设一个新的数据集市,每个数据集市都是整体数据仓库的有机构成部分,分步骤分阶段建成完整的数据仓库,在完整的数据仓库建立起来以后,就能够更快的建立更多的数据集市,满足系统不断增加的主题需求。主题所含指标的修改主题的内容是由指标来表达,主题的分析目标可能在一定的范围内发生变化,起其所包含的指标就会有相应的增加或者

24、减少,由于数据仓库使用的是多维方式的数据存储方式,某个主题下指标的增加(减少),只需要在相应的指标维表、事实表中增加(减少)新的数据即可;每个主题在数据库对应个指标代码表,具体解释主题下所含指标。每个主题有关数据构成一个事实表。这样主题能够很方便增加,且效率比较高,主题下指标能够适当调整。指标数据修改数据仓库中一个非常重要的原则,数据具有不可修改性。然而制度在不断地完善,指标口径会发生变化,为保持同一指标不一致历史时期的数据具有可比性,则要求数据在一定范围内可调整。为熟悉决这一矛盾,我们在数据库设计时把数据分为原始专业数据与主题事实数据,的原始数据一旦进入数据仓库(专业事实表)符不容许发生变化

25、,对指标进行调整都是基于原始专业数据进行的,调整后的数据放入主题数据表中,用户查询的是调整后具有可比性的数据。这种设计能够容许对同数据在不致历史时期进行不致的调整,同时乂能储存最原始的历史数据不丢失,保持历史的真实性。数据更新权限由于数据仓库的数据保护由分散的多个处室在不一致的时间进行,为了防止数据的异步操作给系统的数据一致性问题。我们通过数据库操作权限的操纵,保证每个指标数据只有唯一的用户拥有更新(增加、删除、修改)权限,但能够有多个用户有查询权限。定时报警定时检测各个处室的数据是否按设计要求及时导入数据仓库,否则以适当方式报警。决策算法的扩展由系统结构的高度模块化实现。跨主题指标的查询通过

26、调整主题指标,减少跨主题指标的查询;临时性的跨主题指标查询,利用全局指标库,从不一致的主题事实表中查询。本地文件读写基于C/S模式的应用,将查询分析结果储存在本地是一件很容易的情况,但基于B/S模式的应用,尽管基于安全角度上的考虑,IE限制了ActiveX.JavaScript、JaVaAPPIe1等对本地文件的读写;但关于JaVaSCriPI,ActiveX.能够通过配置IE的安全属性,来读写本地文件,当然,这种配置也会带来些安全隐患,为一些恶意代码对本地文件系统造成破坏提供了机会,就JaVaAPPIel而言,JaVa安全提供了API与工具集用于向应用程序或者JaVaAPPIeI“注入”安全

27、。提供细粒度(fine-grained)与可配置的访问操纵的架构被内置到核心JaVa安全体系结构之中,这是通过使用Java2权限、策略文件、访问操纵器功能与数字签名实现的。高频指标智能保护系统实现高频指标自习惯功能:用户每次查询数据时,数据库自动指标杳询次数,系统定时刷新高频指标表,完成高频指标的自幼保护。2.5 底层数据库(仓库)设计2.5.1 设计原则数据库设计是整个数据仓库系统的核心,其设计的好坏关系着整个数据仓库系统建设的成败。根据数据仓库系统需求及OraCle9i数据库系统的特性,我们对数据仓库系统的数据库设计应遵循如下设计原则:1、 规范化原则:数据仓库系统是一个数据量大,开发周期

28、长,投入资金大,涉及面广的系统工程。为开发与将来系统保护的方便我们对数据仓库中的所有对象如表空间、数据文件、日志文件、表、视图、索引、存储过程、歹U,都要求有严格的命名规范2、 简洁性原则:数据库设计尽可能简洁与易懂得,对常用的数据集可通过自定义数据类型来实现。3、 高效性原则:数据仓库中的数据达到TB级别,对查询速度的提高是我们考虑的重点,可通过建Index,Cluster,尽可能的用存储过程,同意适当的数据冗余等技术来保证查询效率。4、 灵活性原则:设计要充分考虑主题,指标等的变化5、 合理性原则:数据应在源头输入。数据库的生成与保护应尽量靠近信息源与使用点,使信息按最短的路径存取,以确保

29、信息合理与快速流淌。6、 独立性原则:数据库与应用程序严格的相互独立,确保数据的存贮对应用程序的独立性,它的改变不影响应用程序。7、 安全性原则:由于同是国家一级保密单位,其信息对特定的用户有特定的保密要求,我们在设计数据库时要有必要的安全机制设计严格的数据操作权限与级别操纵,保证数据不被非法用户访问,数据库不被黑客破坏,如在数据库的主键中加入操作用户的信息等等。2.5.2 数据现状1、数据格式多种多样,一致性较差,并存在数据冗余各个处室使用的数据格式均不相同,有OraCIe,dbfsarp.MITT,Excel,Word,TeXt格式,且各个系统相对独立。2、数据来源多,但数据存放相对分散,

30、缺乏统一管理数据不仅来源于局内部各个专业处室,而且大来源于直报企业与其他有关部门或者外部单位的报送。这些数据通常分散存放在各个专业科室的数据库中,缺乏集中存放与管理3、数据量很大,但对数据资源的开发利用不充分业务涉及到各行各业与众多企业,指标很多,数据量很大,各级局只能做到将这些数据汇总成为报表、年鉴、县卡,还不能对专业数据进行各类深层次分析、综合、提炼、挖掘。不便于分析、预测。4、偏重于上报报表在计划经济时期,局的职能要紧是为上级机关报送报表;在市场经济时期,局不仅要为上级机关报送报表,而且还要更多地为辅助本级政府宏观决策与企业微观决策及时提供各类信息与情报。新时期对信息的质量提出了更高的要

31、求: 为了对复杂的动态环境做出及时响应,现代管理要求在大量的数据中找出有价值的信息与情报作为决策时参考的根据: 在决策过程中,一旦需要,决策人员能够很快得到方方面面详尽的信息与情报支持,包含历史的、当前的、未来的各类信息与情报资源: 支持对分布在不一致地点的数据或者信息进行操作,包含内部、外部或者远程的数据与信息; 支持对不一致类型与格式的数据或者信息进行操作; 信息要为更广大的社会用户特别是企业的微观决策提供支持: 要求信息资源能实现充分共享与快速交流。2.5.3 数据存储整体规划根据省局数据的特点,数据仓库的数据分为专业数据,主题数据与决策数据数据集市三个层次。这三个数据库层次逐层浓缩,其

32、层次结构如下:数据库模型专业数据是从局各处室的数据库系统中抽取,转换,清洗而来的数据:主题数据是从专业数据通过增加一定的列或者一定的数据运算、修改等而得到的数据:决策数据数据集市存放数据存储层的数据,供分析决策用。还有一类很重要的对数据仓库的描述数据即元数据,包含主题描述表,主题指标描述表等。专业数据层建立在相应的子系统中,是为专业子系统服务的。其数据要紧是与某专业子系统直接有关的数据。通常与其他专业子系统不发生频繁的数据共享,它的物理位置能够设置在网络服务器上,集中存储,亦可设置在各专业子系统的微机上,呈分布式存储。数据存储层,其数据来源于专业数据层,但这些数据通常不限于某个专业子系统调用,

33、而往往被其他专业子系统频繁地共享,为若干个子系统与领导层提供信息服务。数据集市中存放对整个行业来说,带全局性的计划、技术经济指标,各类与实时数据分析,其数据除了来源于各主题数据库以外,还有模型库与方法库给予支持,作为领导提供预测与决策的支持。单个主题的数据库逻辑设计2.6 ETL系统2.6.1 需求规定使用自动加手动的方式导入数据。数据导入以定期自动导入为主,设立到期自动报警功能。各个处室能够在任何时候向ETL服务器导入数据,而只在确定的时间从ETL服务器向数据仓库导入数据。提供导入数据的接口,直接与各个处室的数据库连接,尽可能利用现有系统数据,减轻各处室工作量。能够与通用的数据文件进行连接,

34、习惯各专业处室可能的数据库平台的变更,能导入同种类型的不一致格式的数据。2.6.2 运行环境服务端指标数据加载子系统运行于主流UNIX操作系统客户端指标数据抽取子系统运行在高性能PC,Windows98以上版本操作系统,需要有Oracle客户端支持。2.6.3 设计思想指标数据抽取子系统1、建立灵活的数据导入方式,直接利用中间件ODBC访问各类数据库系统。2、建立统一的环境,各个处室在统一的环境下向中间数据库导入数据。3、通过用户权限区别各个处室应该导入的数据,让不一致用户在导入数据时不可能发生混乱。指标数据加载子系统1、程序自动运行的同时引进人工干预,定时启动加载系统,自动进行中间数据库向数

35、据仓库导入数据的工作。2、建立一个数据导入的环境,各类数据操作按中间数据库模型库中的规定执行。局各类行业数据不是在统的时间生成,数据在进入数据仓库之前需要通过大量的运算,为了不影响原有系统的正常运行与保证导入数据仓库数据的正确性与有效性,设置中间数据库。中间数据库起所有数据从传统数据库导入到数据仓库的过渡作用。处室数据存放在不一致媒介中,提供手动输入界而、程序自动导入功能、半自动导入等等。接收从局各个处室收集的指标数据,通过抽取、清洗,存放在中间数据库,在特定的时间检查数据仓库需要的数据是否齐全,齐全后一次性加载到数据仓库的专业事实表中。自动导入人工输入各个处室中间数据库数据仓库数据抽取、清洗

36、、转换、加载过程高度模块化,ETL系统用数据抽取模型从各处室抽取数据、用数据清洗模型清洗数据、用转换模型转换不一致类型的数据、用加我模型加载数据到数据仓库。ETL系统是一个体系环境,各类数据操作按中间数据库模型库中的规定执行。保护系统则通过保护中间数据库的模型库达到保护ETL服务器的目的。数据抽取、清洗、转换、加载有下列子系统:1. 指标数据抽取子系统。这个系统又能够称之数据导入。功能:数据抽取、数据清洗。把各个处室不一致格式的数据按指标进行抽取、通过清洗后存入中间数据库,容许数据修改。指标数据抽取子系统能收集各类通用格式的数据,提供输入界面手动输入数据。能转换下列几种数据格式:Sybase、

37、Oracle、db2、dbf等能够通过odbc访问的数据库,与Excel数据与按顺序排列数据的文本文件。各类格式的数据都有对应的模块,这些模块遵循统一数据接口,能够不断增加并识别新的数据格式。2. 指标数据加载子系统。功能:数据转换、数据加载。把中间数据库所有指标数据通过转换后,加载到数据仓库中。2.6.5处理流程指标数据抽取子系统通过读取ETL中间数据库中的抽取模型与清洗模型,把各个处室的数据暂存到中间数据库。指标数据加载子系统读取中间数据库中的转换模型与加载模型,把中间数据库的数据加载到数据仓库中。指标数据加载解.W BJ通用数据接口2.7 系统管理数据的保护1、年度数据至少储存10年以上

38、;进度(月、季、半年度)数据至少储存5年以上;在条件容许的情况下,数据储存尽可能长的时间。2、历史数据的导出、导入功能。3、随着指标体系的变化,能够对数据进行少量修改,插入、增加新的数据。4、对时间跨度很大的普查数据等非时间累加数据按实际需要储存相应年限。5、对数据要进行备份。指标的保护1 .数据库指标管理、保护,随时间的推移可增加主题下包含的指标:2 .能习惯制度的变化,指标口径(指标含义)能进行适当调整。3 .行政区划代码同意调整。系统的保护1 .设置不一致级别用户的保护访问权限。2 .各个处室只有保护本处室相应主题部分的权限。外界用户无权访问保护系统。3 .系统管理具备日志功能。主题的保

39、护随着时间、形式的变化,主题能够增加或者减少。分析方法的保护1 .对现有分析方法提供描述,能够对分析方法进行修改。2 .能够增加分析方法。一一:带格式的:项目符号和编号备份吩油6数据仓库的备份与灾难恢复功能。2.7.2运行环境系统运行在高性能Pe机上,操作系统为Windows系统。1 .7.3设计思想1、系统管理系统自主开发。2、在操作习惯、程序风格上与WindoWS一致。2 .7.4结构说明系统管理是整个数据仓库系统的保障系统,保障数据仓库系统正常运行。系统管理分为两大子系统:ETL管理子系统、数据仓库管理子系统,分别管理ETL服务器中间数据库系统与数据仓库系统。ETL服务器系统管理数据仓库

40、指标管理主题管理备份与保护权限赍理元数据,管理3 、ETL管理子系统所有转换规则都存在数据库中,ETL管理子系统通过保护数据库中数据达到保护ETL服务器的目的。保护子系统通过各类可视化友好界面提供给用户简洁明了保护方式。保护ETL服务器数据抽取模型库,确保从局各处室收集对号入座;保护ETL服务器数据清洗模型,避免垃圾数据进入数据仓库;保护ETL服务器数据转换模型,保证转换的正确性:保护ETL服务器数据加载模型,保持ETL服务器中指标与数据仓库指标的统一。进行ETL服务器数据保护,使用备份与恢复避免中间数据库数据遗失。通过ETL加载子系统提供的接口,操纵ETL加载子系统的运行。4 、数据仓库管理

41、子系统元数据管理:管理关于数据的数据,它描述的是数据仓库的数据与环境。元数据分为两类:一类是管理元数据,它是对元数据及其内容,数据仓库主题,数据转换及各类操作信息的描述;另一类是用户元数据,它帮助用户查询信息,懂得结果,熟悉数据仓库中的数据与组织等。决策模型库保护主题库保护数据备份与保护挖掘模型库保护高频数据保护2.7.5处理流程数据仓库管理子系统:对数据仓库的数据进行定期的自动或者手动保护,包含备份与恢复。元数据分类:技术元数据;商业元数据;数据仓库操作型信息。ETL管理子系统2.8数据展现2.8.1 需求规定查询1 .能够方便的对数据仓库内的所有数据进行检索、查询。能进行任意条件组合查询,

42、并支持模糊查询等2 .具有智能高频指标自习惯功能,能根据用户使用的频率,对高频指标表进行自动保护。3 .提供关联指标的搜索功能。导出1 .数据的展现能提供文字说明、简单图表显示、多种图形(线图、饼图,方柱图等)直观显示(达到两会系统的图形功能)。2 .主栏、宾栏能够互换,能够显示多层表格结构。3 .简单的运算功能:计算均值、最大值、最小值、求与、进展速度、比重、标准差,能够排序。4 .提供经济地图的直观表示。5 .能够打印报表、图形。6 .提供通用数据格式的查询数据导出功能,包含文本、dbf库文件、Word文档、Excel表格。7 .所查询出来的表能储存或者另存为其他格式文件。8 .提供简单分

43、析报告自动生成功能。9 .展现结果可通过用户列表形式用Bmail向用户发送,也可进行功能设置,定时自动发送。联机分析(OLAp8On-LineAnalyticalProcessing)能够进行时间序列分析与变量分析。A.时间序列分析:普通最小二乘法(LS)令带有自回归误差校正项的最小二乘法令两阶段最小二乘法令加权最小二乘法令加权两阶段最小二乘法令非线性最小二乘法令加权非线性最小二乘法B.变量分析:令主成分分析令有关分析令判别分析令因子分析令聚类分析数据挖掘决策支持、数据挖掘子系统能够进行数据钻取、挖掘。能够从分析结果逐步查询到更全面的数据。2.8.2 运行环境服务系统运行在UNIX操作系统|2

44、.8.3 设计思想1、尽量选用目前成熟的OLAP多维分析、数据挖掘工具。2、对有特殊要求的决策支持彝法,使用在购买的软件包上进行二次开发。3、WCb页面使用以抽象画为主格调的背景,高雅清新的页面风格。4、各个主题格调保持基本一致,但各个具体主题的用户界而各有特色,突出各自主题特点。2.8.4结构说明应用服务器直接与数据仓库交互,处理外界查询请求;WEB服务器完成与用户的交互,直接为用户提供查询、分析数据,同意用户输入;OLAP服务器与用服务器交互得到大量数据,将对大量数据进行分析计算的结果返回给WEB服务器。提供给用户访问数据仓库的接口,使数据仓库的访问对用户透明,完成数据从数据仓库中提取后通

45、过运算、分析,用直观的方式展现给用户。多种决发算法多种图表有现髭示数据仓库数据展现即席杏询、排序简单分析报告生成查询敦据导出报表处理数据展现使用多种灵活的方式,比如客户/服务器模式或者浏览器/服务器模式。我们分为下列子系统:1、应用服务器是数据仓库与应用系统的统一,使应用系统访问数据不需熟悉数据仓库设计。2、OLAP决策分析子系统进行多维分析、利用决策模型进行决策分析。按要求生成简单文字分析报告。3、WEB服务器使用户能通过浏览访问数据仓库,其中还包含协调操纵数据展现系统的各子系统,为用户提供与数据仓库交互界面,处理用户的查询分析请求。4、报表处理子系统满足用户对报表的处理、打印请求。5、数据挖掘子系统对数据进行分析挖掘。6、图形展示子系统对输入的数据进行各类图形展示,输出数据表格、饼图、柱状图、折线图等等。7、数据导出子系统对用户需要导出查询数据时,将需要导出的数据按各类通用格式导出。报表处理子系院数据挖据子系统OLAP决策分析子系统数据导出子系统图形展示子系统用户浏览器2.8.5处理流程数据

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号