《数据仓库解决方案v0.docx》由会员分享,可在线阅读,更多相关《数据仓库解决方案v0.docx(20页珍藏版)》请在课桌文档上搜索。
1、数据仓库解决方案v深圳太极云软技术股份有限公司2016年1月目录(一) 概述3一. 国内信息化的现状3二. 以应用驱动,数据仓库建设应由后向前规划3三. “想大做小”(整体设计、分布实施)4(二) 系统架构5数据仓库架构6系统功能架构7(三)数据仓库建设方法8数据仓库建设8大步骤错误!未定义书签。L系统分析,确定主题92 .选择满足数据仓库系统要求的软件平台103 .建立数据仓库的逻辑模型104 .逻辑数据模型转化为数据仓库数据模型115 .数据仓库数据模型优化126 .数据清洗转换与传输137 .开发数据仓库的分析应用138 .数据仓库的管理14(四)系统功能全面介绍14企业数据门户14主题
2、分析15即席查询16多维分析工具16ETL工具17报表工具19(一)概述一,国内信息化的现状1.信息化建设的进展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,过一段时间,假如有新的业务推出,就再建设一个新的系统,或者在原系统的基础上增加新的业务处理。这样的结果使每个系统与系统之间缺少真正的信息沟通与信息交换。2.为何要建立数据仓库:根据现状业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求与决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析与相应的报表功能,这样每个系统就增加了报表与分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果
3、不相同。为熟悉决该问题,为了分析与决策的需要,将相互分离的业务系统的数据源整合在一起,能够为领导与决策层提供分析与辅助决策。二.以应用驱动,数据仓库建设应由后向前规划数据仓库到底应该怎么建设?我一贯的主张是应用驱动。什么样的应用呢?应用是应考虑政府管理的现状与决策层最关心的问题入手。分利用现有信息系统资源,进一步细化、量化权力清单,固化权力运行流程与办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价与提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督与提升政府效能。通过分析经济进展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保
4、就业、财税金融、法律服务等这些主题的分析是否可行,应该先进行评估。这样从应用主题入手,就能够明白需要什么样的数据,来自那些业务系统与数据源,这些数据的全体进行一定的整合,按照分析的要求存储就构成了一个个数据集市(DataMart)o三.“想大做小”(整体设计、分布实施)为了避免原有业务系统相对独立而形成的一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新的信息孤岛。这是由于应用往往是部门级的或者者是某一方面的应用,不能完全覆盖企业级的所有应用。当然我们这里不提倡一次建设的应用。如何避免这个问题,是我这里着重要要强调的。这里分两种情形进行设计,系统作用1 .整合业务数据在各业务系统中,数据不流
5、通,形成信息孤岛,商业智能解决方案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一决策界面。2 .支撑决策从数据中分析企业进展趋势,挖掘新的机会方法,根据数据决策,提图决策的及时性及准确率。3 .提供管理效能,量化办事效率基于系统分析内容,管理者能熟悉细化、量化权力清单,固化权力运行流程与办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价与提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督与提升政府效能。(二)系统架构离线报表多维分析即席查询报表统计数据挖掘决策管理数据管理层共享数据视图数据仓库数据集市数据,层数据清洗、转换、加载信息整合服务(数据采集交换
6、)元数据管相关业务单位系统架构图在建立数据仓库,数据仓库按主题域存储各业务数据。数据来源要紧是政府管理结构的不一致业务管理系统。通过数据交换平台定期采集各管理机构的业务数据,后台数据处理工具ETL抽取、清洗数据,并加载入数据仓库中。架构于数据仓库上的系统功能要紧包含大数据门户、专题主题分析、即系查询、多维分析、自助报表的功能模块,通过这些功能模块为管理者获取数据与分析数据提供简单易用、功能强大的方法,为管理者决策及提升管理精度,最终实现权力有效监督与是升政府效能。数据仓库架构数据仓库是一个建设过程,而不是产品。数据仓库是通过对来自不一致的数据源进行统一的处理及管理,通过灵活的展示方法来帮助决策
7、支持。数据获取层实现如何从所有源系统中获得原始的业务数据,并对其进行一定的数据处理,按主题进行数据重组与格式转换,然后传送并装载到数据仓库系统中。数据仓库系统需要从多个源数据系统中抽取与汇总各个业务数据,这些数据源系统是数据仓库系统的数据来源。把上述数据源系统中的数据按照主题进行划分与组织,然后抽取并装载到数据仓库系统中。数据需要通过三个过程:数据抽取、数据转换、数据装载。这三个过程是在保证各个数据源系统与数据仓库系统能够成功连接(包含网络协议标准的转换、不一致平台之间的接口)的前提下实现的。保证把来自不一致的源数据系统的同类数据的一致性与完整性,转换完成的数据装载到数据仓库系统中。数据管理层
8、把数据存储到企业级数据仓库系统中进行集中管理。在数据存储层,数据是存放在两类数据库中:关系型数据库与多维数据库。数据存储是数据仓库系统的中心。取自多个数据源系统的明细数据,与用于分析的集成汇总数据都存储在这个中心。它在逻辑上是一个完整的库。数据使用层把数据仓库系统中的数据与分析结果提供给最终用户。按照用户的分析需求、使用报表、随即查询、多维度分析与数据挖掘进行数据展现。数据输出层的功能是使最终用户通过报表、图形与其他分析工具的方式简便、快捷地访问数据仓库系统中的各类数据,得到分析结果。提供多种数据分析方法,包含标准报表、即席查询报表、动态分析报表、多维分析、趋势预测、假设分析与数据挖掘等。系统
9、功能架构多维分析OLDP多角度、立体化、灵活动态的分析业务数据。产品简单易用,无需编写任何的代码,用户只需要通过语义层的定义就能够轻松搭建自己的多维数据模型。即席查询统计报表、指标的快速检索,帮助业务分析人员快速获得所需要的数据与统计信息。数据门户DataPortal进行统一展现,展现方式包含仪表盘、表格、报表、日历等内容,并支持用户个性化定制内容、指标等功能,实现真正的个性化服务。数据门户中展现的内容是管理者及业务人员最关注的指标,通过门户为他们获取数据提供最简单容易的方式。主题分析根据资源的组织,支持数据的深入挖掘与分析应用,跟踪、监控政策的执行情况及实施效果,让管理层熟悉细化、量化权力清
10、单,固化权力运行流程与办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价与提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督与提升政府效能。报表业商业智能系统建设的重要构成部分,要紧对企业数据仓库中整合的各主题域业务数据,按照监督管理要求,面向各级部门,快速提供准确、全面、灵活的表达政府管理效能等方面实际的数据信息,为决策支持、业务管理提供有效的数据信息支撑。ETL工具:ETL是数据仓库最核心的后台组件,通过对及汇总来的不一致来源数据的抽取、清洗、加载实现数据仓库中数据的更新及流转。ETL工具(桥接器),实现了图形化及自动化的方式来配置ETL流程,极大的减轻了数据加
11、工的工作量,提高了数据准确性及处理效率。(=)数据仓库建设方法数据仓库决策分析的业务处理流程要紧分为四个阶段。1) 数据集中:各级政府部门业务数据统一汇总数据中心临时数据存储;2) 数据整理与转换:汇总后的业务数据通过ETL抽取、转换、加载到数据仓库中;3) 数据存储与管理:对数据仓库数据进行集中存储与管理、备份与保护;4) 数据挖掘与展现:用户通过前端的展现工具对数据仓库中数据进行挖掘、钻取与分析,在数据门户展现;1.系统分析,确定主题确定一下几个因素: 操作出现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要储存多久的数据,是一年、两年还是五年、十年。 用户查询数据的要紧方式,
12、如在时间维度上是按照自然年,还是财政年。 用户所能同意的响应时间是多长、是几秒钟,还是几小时。2.选择满足数据仓库系统要求的软件平台选择合适的软件平台,包含数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,下列是一些公认的选择标准: 厂商的背景与支持能力,能否提供全方位的技术支持与咨询服务。 数据库对大数据量(TB级)的支持能力。 数据库是否支持并行操作。 能否提供数据仓库的建模工具,是否支持对元数据的管理。 能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。3 .建立数据仓库的逻辑
13、模型具体步骤如下:(I)确定建立数据仓库逻辑模型的基本方法。(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。(3)识别主题之间的关系。(4)分解多对多的关系。日时总期间讨顾客 InteQer 姓名 Characters (10)住址Charadert (40)电话Characters (15)积分NUmber (6)VPBQOlean主标示符次标识苻主标识符付款Number。S Date Tim Number (10.2)范品:目聚商品商品编号 Long Integer 数量 Short integer支付编号 日期时间 预付款项 找零 后语记录编号8i LOna InteCer
14、 VMDate &Tim。Decimal (6z2)Decimal (6.2)Number (10)主株识符Is期 展 日 述家产价 说描厂生单3 Lona InQeaerTeKLong characters (20)Date & Time Number (6r2)主标识符(5)用范式理论检验逻辑数据模型。(6)由用户审核逻辑数据模型。4 .逻辑数据模型转化为数据仓库数据模型mm*rfm文 4 XDV WwvmoEgloBU三a产品3Efc125 .数据仓库数据模型优化数据仓库设计时,性能是一项要紧考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求与数据量的变更进行调整。优化数
15、据仓库设计的要紧方法是: 合并不一致的数据表。 通过增加汇总表避免数据的动态汇总。 通过冗余字段减少表连接的数量,不要超过35个。 用ID代码而不是描述信息作为键值。 对数据表做分区。数据清理数据集成数据支领TlT3-2, 32, 1 00, 59, 48 -0. 02, 0. 32, 1. 00, 0. 59, 0. 48A115T1456数据归妁6 .数据清洗转换与传输7 .开发数据仓库的分析应用建立数据仓库的最终目的是为业务部门提供决策支持能力,务必为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。信息部门所选择的开发工具务必能够:满足用户的全部分析功能要求。数据仓库中的用
16、户包含了企业中各个业务部门,他们的业务不一致,要求的分析功能也不一致。如有的用户只是简单的分析报表,有些用户则要求做预测与趋势分析。提供灵活的表现方式。分析的结果务必能够以直观、灵活的方式表现,支持复杂的图表。使用方式上,能够是客户机/服务器方式,也能够是浏览器方式。事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此务必考虑多个工具之间的接口与集成性问题,关于用户来说,希望看到的是一致的界面。8.数据仓库的管理(四)系统功能全面介绍企业数据门户企业实施商业智能、数据仓库的目的之一为整合各系统的业务数据,统一指标口径,实现统一视图、统
17、一决策界面。企业数据门户功能要紧对整合的业务数据进行统一展现,展现方式包含仪表盘、表格、日历等内容。数据门户中展现的内容是管理者及业务人员最关注的指标,通过门户为他们获取数据提供最简单容易的方式。数据门户中展现的内容根据用户角色不一致而有所差异,每个用户都能够定制自己关注的内容,实现真正的个性化服务。系统截图:WJ*W10H美切琳0房落钵6弊ItB财及日同累用立。怖W日Htt同”VUflSSM714-W979MS“3”4624 t20WM5221SO 4M2200MM2%22m2 445nnQ 12%24W2410 12 441r3444114A12M14034SIStt151峥1IW比管业收
18、入纵向对比IOOOO二琵日丽析201坪8月M收入日历分电Wi234WsffleAQ1 957023456781 788,$ 2021222324252627282930分店博名(ToPI3*比分场2009i0Uua 堂而iMJr.本 月 JR谆:s. 6W !) JRC 环比:O )Xdft : 48(7%)m三三 3.t ” O f-oz l主题分析数据仓库中的业务数据通常是面向主题进行组织的。主题分析是在较高层次上将企业信息系统的数据进行归并、抽象,形成对分析对象的一个完整的描述,表达分析数据之间的相互关系,揭示数据规律与问题。主题分析模块从主题域的角度入手,支撑数据资源的组织,支持数据的
19、深入挖掘与分析应用,跟踪、监控政策的执行情况及实施效果,倒逼行政权力部门认真履职、规范执法、优化服务,努力提高政府效能。考虑到国情特点与现状,主题分析涵盖了经济进展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务量等八个主题域有关的主题分析功能。即席查询即席查询针对数据仓库内的各主题数据、统计报表、指标的快速检索,帮助分析人员快速获得所需要的数据与统计信息。即席查询工具通过提供各类向导式界面、图形查询生成器、联机帮助等功能,为系统使用人员提供细粒度数据。即席查询是分析人员的重要的辅助工具,它是在数据仓库的信息组织基础上,尽可能多的在
20、后台按照分析人员关心的分析角度沉淀业务知识,在前端功能上屏蔽后台查询技术细节,为分析人员提供灵活的业务分析查询角度定制与结果定制功能,使分析人员在分析汇总数据的同时能够通过即席查询进一步深入到自己感兴趣的细节数据中,以便更全面地反映情况,做出正确决策。多维分析工具多维分析是商业智能的核心技术,能够帮助用户进行多角度、立体化、灵活动态的分析。多维分析报表由“维”(影响因素)与“指标”(衡量因素)构成,能够真正为用户所懂得、并真实的反映国情特性信息。BI-多维分析工具简单易用,无需编写任何的代码,用户只需要通过语义层的定义就能够轻松搭建自己的多维数据模型。同时具有灵活的分析功能、直观的数据操作与分
21、析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确推断。它可用于证实人们提出的复杂的假设,以图形或者者表格的形式来表示的对信息的总结。多维分析工具专门设计用于支持复杂的分析操作,侧重对决策人员与高层管理人员的决策支持,能够根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,同时以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,熟悉对象的需求,制定正确的方案。ETL工具ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或者数据集市中,成
22、为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环,它是承前启后的必要的一步。ETL工具纯java编写,能够在Window、LinuxUniX上运行,绿色无需安装,数据抽取高效稳固。功能强大、灵活,使用简单。ETL赤据平台抽取故据 转换双据 加毅流程 调度异常处理(ETL平台架构)数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再通过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据转换要紧用于解决数据不一致性问题,数据加载就是将从数据源系统中抽取、转换后的数据加载到数据仓库系统中。ETL流程管理调度是ETL过程中的统一调度者与指挥者,它把
23、复杂的数据处理过程中各个步骤整合成一个整体。特殊数据处理机制指源数据系统中的数据本身出错并发生变更后,关于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套机制。系统截图:(ETL界面切图)产品特色:(1)支持MYSQL/ORACLEMSSQLSERVERDB2ACCESS/达梦等多种数据库;(2)支持Windows/Linux/Solaris/AIX等多种操作系统;(3)支持txt/csv/xls/xml等多种输入输出格式;(4)图形化ETL操作配置,ETL数据加工过程一目了然;(5)工具性能强大,处理速度大概能够达到8000行每秒;(6)具有完整的日志管理功能、完善的
24、数据审计功能,同时有有关的监控预警机制,保证ETL过程正常进行,不影响数据源系统的正常工作;(7)支持并行加载等高效的优化策略;报表工具报表工具作为企业商业智能系统建设的重要构成部分,要紧对企业数据仓库中整合的各主题域业务数据,按照业务管理要求,面向各级部门,快速提供准确、全面、灵活的表达政府效能管理等方面实际的数据信息,为决策支持、行政管理提供有效的数据信息支撑。用户只需使用IE、firefox等浏览器就能设计、浏览、打印报表。功能强大、灵活,使用简单。报表要紧由两部分构成:一是报表设计,要紧用来构建报表;二是能够加到你应用服务的运行期组件。报表同时也提供一个图形报表制作引擎。拥有与Drea
25、nlWeaVer通常的操作界面,能够像画table一样画报表,也能够生成图片。报表设计器包含标签、文本、图片、分析图、表格、交叉表等多种展现组件,关于不一致的业务需求按不一致的形式展现数据,提高了数据可视化程度,能帮助管理人员快速做出决策。报表运行时组件具有导出、打印、鉴权等功能,提升了系统的可用性与数据的安全性。功能特色:1 .支持自定义报表,支持用户个性化报表制定、储存及有关管理功能,选择界面灵活、友好,支持临时性选择信息储存,支持报表格式的个性调整,包含:指标维度的灵活调整与表格转置;2 .支持固定报表,根据指标字典模块中基础指标、分析指标及综合指标的架构、口径,实现报表模板上传,报表展现时按模板展现数据;3 .支持交叉报表,即报表维度能够横向与纵向同时多维度展现数据;4 .支持分析型报表,使用OLAP分析引擎,支持报表数据上钻、下钻、切片、旋转等功能;5 .展现方式支持多种图表类型,包含列表、交叉表,与柱状图、折线图、饼图、雷达图等多种图表类型;