sas数据仓库与数据挖掘.docx

上传人:夺命阿水 文档编号:1686610 上传时间:2024-11-25 格式:DOCX 页数:41 大小:175.66KB
返回 下载 相关 举报
sas数据仓库与数据挖掘.docx_第1页
第1页 / 共41页
sas数据仓库与数据挖掘.docx_第2页
第2页 / 共41页
sas数据仓库与数据挖掘.docx_第3页
第3页 / 共41页
sas数据仓库与数据挖掘.docx_第4页
第4页 / 共41页
sas数据仓库与数据挖掘.docx_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《sas数据仓库与数据挖掘.docx》由会员分享,可在线阅读,更多相关《sas数据仓库与数据挖掘.docx(41页珍藏版)》请在课桌文档上搜索。

1、SAS数据仓库与数据挖掘一%业务数据中提炼决策支持信息的解决方案SAS研究所和SRS系统1利用SAS技术速立你的数据仓库2SAS数据仓库的蛆成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行政格佗抱15SAS的数据挖犍的方法语-SEMMA17SAS数据花班的集成软件工具-SASEM(EnterpriseMiner)21决策支特智能化24企业级的强表制作工具-SASER+SASMDDB+SASIntrNet27在网上展开SAS功能31SAS研究所和SAS系统SAS系统是用于产京数据分析和决策支持的大型集成式模块化软件包。六十年代末到八十年代

2、初以统计分析及设性数学模型为主,并以比闻名于世。故其早期名为“Statistica1.Ana1.ysisSyStenr,SAS”即成为SAS软件研究所(SASInstituteInc.)产品的忌商标。SRS软件研究所跨国公司成立于1976年,总部设在美国北卡州瓦瑞市(CaryNorthCaro1.ina).SRS保持了20年连续不断的商位数的业务收入增长率,现已是金球最大的私人软件公司和全球排名第九位的独立软件现,嫌其是私人独立软件?h免受股市和公众段东资本的操级和影响,按自主意志杷收拉的很大局梆再投入于研究和开展,使其研发投资比重一直保持了全球软件业的领先地位.凭借这一技术优势,遍布世界的4

3、500多名SAS员工为120多个国票的三百五十多万SAS用户提供了行业公誉的嬴质量技术效劳和支持.面对当今竞争日趋剧烈*辞息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择.计算机系琉支持人们能做出迅即反应业务处理的能力巳满足不了当今的蒂求,要信息技术对各个层次和各种类型决策进行支持已是IT行业开展必然芨势,SAS以其具有前哨性的技木开拓,在决策支持工具一战据仓库和弱据挖掘(IauWarehouse与DataMining)方面已连年被评为“年度最正确产品、景正确决策支持工具。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100宓公司”之一及“最正确决策支持工具

4、的供给面。Internet已成为世界信息的通勤大道.I1.nranet也已成为先进企业的信息经肤.SAS技术也与之有着同步的开展。SAS的IntrNCi产品使全部的SAS技术故大限度的实观了Icb-Enab1.e.这使得SAS原来冷多平台应用的开就机制扩段刎了网络计算环境和网际应用,这不仅使SAS使用更加力便,而且使那些以Thin-CIient运行的系统在使用SAS时节省了投链,并M少了系统维护的工作量。在这里将按下面五个肤络向你系统的介绍SAS技术:* SAS世界领先的蒙,仓席段术* SAS荻景正确决策支特工具表扬的数据挖掘变术* SAS的业务曾能化技术* SAS的企业纪J1.ft制作工具*

5、 SASa:Veb-Enab1.eawnt你可以通过宜到SAS研究所最新的技术信息。你还可以通过美国SAS研究所设立在北京(TCI:0106235128(0-3),上海(Te1.:)和广州(Te1.:)的办事处得到直接的咨询和技未支挎.利用SAS技术建立你的数据仓库由于便用SAS系统成功地建立了许多卓有成效的数怩仓库,SAS系统的数据仓库产品已连城沟年(19967997)被美国著名的DataeaHon评为“当年度最正琏产品.销管初也占据了SAS产品的首位.98年又在DCI全球数据仓库大会荣获Exce1.1.enceinBusinessInforma1.ion大奖,正象投据仓库虽然是个较新的词语

6、,但它是计算机技术开展的必然结果一样:SAS荻此殊荣也非一日之功,正是它顺合计算机技术开展规律的渊源所致.为什么在有了这么多数据库产品之后,人们又要用数据仓库技末.业界的各珞诸侯又如此君之若督.这正是计算机技术应用希求的推动.当今数据库技术大开殿的过程是伴随着O1.TP(On1.ineTransactionProCeSS联机业务处理应用需求的推动联机业务处理最迫切的技术要求就是快速响应。数据库技术.轩别是基于E.F.Codd搔出的关系理论的数据犀的技术,将数据集分成了基少冗余的实体(Entity),然后又将它们按一定的关系(Re1.ationship)编织成一个有机的整体,比较完美地满足了O1

7、.TP的应用需求。对于每个业务处理最好只须涉及一个实体,业务父理对于实体的Add或UPdate也只涉及数据媒体的可能最小的空间(如记录线封钺技术,对于其它实体的相关更新通过关系保持了一效性和完整性。这个切合当时O1.Tp应用实际需求的理论和技术的成功.推动了关系数据屋产品风行世界.象计算机技术的迅速开展一样,剧烈竞争的市场也激发了各行各业时计算机应用的更多样的箱求。计算机用户早巳不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市项竞争作出重要的决策。由此而未产生了对DSS(DeCiSiOnSUPPortSyStem)决策支

8、挣系统的济求。支持决策就要进行数据,信息的分析,这就产生了O1.RP(On1.ineAna1.ysisProcess)联机数据分析苑理的需要.决策支持所依据的数据从哪里来,当然是成功运行着的业务处理致据库中的数抠。所以景早的决策支持所进行的数抠处理就是直接使用数据库中的数据。可和之为Ro1.RP.即利用关系蛾据库的数据迸行联机分析处理。SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最克香的RO1.AP工具.当Ro1.AP只使期很少的关系数据库表时,这一愫作是可行的。这种樵

9、作往往是针射后部姓问题选行的决策支持数据分析。但面对市砺的决策往往是涉及整个企业范的数据和信息。这就要同时启动大Jt的数据庠表,并且荽将众多表中的数据按一定的规律领合越来,形成恰好斜对所支持决策问J的数据内容。这样一个Ii程或许是十分复杂,且消耗大量资源,或许企业的舒据是分布在若干个系统中的,这样的数据整合过程几乎是冠以完成的。除此之外,在一个数据库表中的每一条记录也并不是某项决焚巫育妻的,这要按决筠文再的需要编制专用的数据体选程序.再者,联机业务处理系统中的数据有一个件性:即每一条记录都有产生,反鱼的变更、修改,直至败据记录不再变化的过程,葬之为“数据到位”。例如:一个物料在一个工厂中产生了

10、,联机业务苑理系统中就要添加一条相应的记录:这个物料不断地进行加工,就要在它的记录中记入加工的叁效:当这个物料打工成产品,破发货出厂,就要再登录这些出厂信息,此后,记录其生产过程的数据就再也不能修改了.如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的甥料的数据。由此可见,直接使用陕机业务处理系统中的数据进行决策支持数据的分析处理妩会产生许多麻烦的.冬至圣实现不了的.这时候,人们就会问为什么系统中有我帝要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务.E-R型的数据结构能完美地执行联机业务处理,但不适应较大规槿的决策支持政

11、据分析,尤其不适应企业级的决策支持数箔分析处理的需要。适应这一需求,应运而生的就是数抠仓库技术.在W.I1.ruo所著“Bui1.dingtheDataWarehouse”一书中给出了数据仓库的定义:“第库是*主H的、兽舍的、定的,并县回交的收集4号以文扑蜜决策的一科效城构帝式之一定义指出了数推仓库和事务处理系统之问的主要差异.数据仓库的目标是为了制定管理的决策隈供支持信息,这显著的与O1.TP系统的快速哨应需要不同。正象企业为了开展要进行业务更组一样,为了支持管理决策济要也要按决策业务科目的要求重俎OUP系统中的数据,并要按不同决策,分析内容分别姐织便之方便使用.这种基于主题的模式从用户角度

12、来看就是多重的数据重组结构.在杷数据笠我到数据结构重组后的金据仓库之前,先要建行蚊据转换,或称“整合”处理。这一处理包括几个必不可少的操作步皴,做到使致密完整.统一,这就确保了在使用数泰仓库时共中的数据是有质量保证的,对比后文有详述。简而言之,整合就是保证数抠准礴,到住,没有越出应有的数值范国,没有重复等,数利仓库中的数据不象事务处理基统中的数据那样频繁的修改,所以它是比较税定的(不必实时修改)。在一次数据分析的执行过程中使用的数据不律交更.这才能保正酉次在使用同一组信息进行分析时不会得出不同的答案.数君仓麻一般是按周、月或隔月从O1.TP系统周期性的批次更新效揖.由于具有数箔的时段稔定性,讨

13、数抠仓库来说就可以减少许多传统RDBMS必须的资源消耗,如:记录的辕机制.参照完整性的检登、数据接作的日志,以及检查点/回退(Ro1.1.back)等.和01.TP的“实际事件相比,SAS数提仓库的致据组织可呈多维时间段结构(时变的一一例如:1997年各个月份的锹售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论。从本质上说,数据仓库的目标是从联机业务处理系统中帏选出某项决黄所需的支抖数据,再在分析处理过程中裨出进行决策时有用的信息,供分析使用的这种时变数据亦可预先汇纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行.基础数据的汇息处理了。S

14、RS系税提供的数据仓库模型是包括了数据仓犀管理、组织和悟息展现的整体解决方案,这是由一族有机限合产品用成的阵容强大的模型.在下列图中表示了SAS数据仓库的模型,管理组织展现SAS数据仓库一览总之,数据仓库是岩今社会的人们参与市场竞争等各项活动,耍迸行决策时的最适合的数据结构形式.是遗应企业重组(Re-Engineering)时,进行企业政据.信息电组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮.SAS数据仓库的组成提京:在购篁数据仓库产品时注意其必不可少的技术环节数指仓库是适应决策支挣系统的需要而产生的,所以人们豁望所采用的软件产品能支椅决

15、策过程的全荀工作内容.SAS的数据仓库技木就是可以支持决策全过程的整体解决方案。包括:*从任何业务处理系统或数据源中取出决策所需蚊格*对源数据进行清理和整合* 按力案或规则进行数据仓库的装式和更新* 按支舟决策的常要,以多种形式选行数据和信息的组织* 景丰黛的决策敢据分析处理能力* 灵活多样的结果茨现方式如果你想建立决策支技系统的话,您就应当检登您所采用的软件工具是否具备上述全面的能力.SAS累诜的数号存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的孜件产品.唯右这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用.SAS有一个SAS/ACCE

16、SS产品,利用它可对众多不同招式的数据进行查询、访问和分析.SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ROCESS可建立对应外部异构数据的一个筑一的共用数据界面.所提供的与外部数据的接口是透明和动态的。用户可不必将数抠真的读到SAS系统中来.而只需在SAS系统中窿立对外部效抠的描述亦即所谓View),便可把这些外图数据当作真正存储在SAS条版中的数据集一样使用。这时,用户即可使用这些数据进行所iNRO1.AP式的数据分析和决策工作.对一些系常反复使用的外荀联据.亦可利用SAS/ACCESS将其真正提取放入SAS系统中.并进一步经垃整理放进数抠仓库.SAS

17、/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加栽到外部数据我体中去。这使数据仓厚裹统和原有的运行数据体系更加沟通.目前SSACCESS支持的数据库主要有:DB2,Orac1.e,Sybase,Rdb,CA-Ingres,CA-Datacoa,Informix,ADARAS,NCR-Teradata1AS/400等数据库。SAS/ACCESS迁能支持一些老的数据文件系统,如有名的IBM/VSAM等。通过ODBC使SAS系统和更广泛的开放型数据库跳立了沟通。另外,通过SAS嫡程中的DATASTEP可与任何知道其结构的数据进行球给.在数揖仓库的

18、宣传中曾报通用一个数相串产品作数第仓库使用.但这个数据库对原有数抠线体没有存取能力,就又买了第三方的软件作为它们取出数据的工具。这种选择显然是不妥当的。SAS与众多软/硬件厂商长期友好合作所形成的跨平台的数据存取能力决非一日之功.效*的清理和要合在SAS的数据仓庠系统中有专门的机刷进行引入数据的检衣、核对和将不同来源数据14行整合的技术环节。在一个企业或其它大型的组统中,各种数据可能有不同的美型,格式可能也不尽统一,在原来不同的应用魂合亦可能采用了不同的单住、制式,要次将它们放在一起进行有效的受理.首先的要求就是统一。从业务操作系统中引入的数据必须进行其完整性的检态。在一条记录中的各个数据项应

19、保持完整的存在关系,若有缺项,且又没有检查,这必然导致统计的借误,决策也会产生偏差,弱值的有效性也是必须进行核对的。防止将数据源中的错误带入决策过程之中。这些必要的清理工作保障了决策支持所使用数据的质贵.比外.还可以参加用户自己认为需要加强的环节.系统允许在数抠整理的各个层次加上用户自行强化的环节.数据仓庠的金或和更新从数据源抓取数据不仅有质量问题,还有有方案的按一定时间节奏从数据源取出和袋入.更新数据仓库的问题.因为SAS系琉有主动去取外前数据的能力,所以按时间节游从数揖源取出数据的操作在和其它系统管理人员协调好的差础上,就可完全在SAS系统内制定从各系统取用败据的方案了。在此基础上,数捱仓

20、库按照数据和信息使用的时间要来.准时的.加或、更新,就是完全有保朦的了.从数据源到数据仓库一气呵成的集成式的操作,这是SAS数据仓库技术的重要特点.按决策要蛆IUV和信息清理好的数据还要迸行重组。按照决策的需要组织成不同的主题的数据仓庠表.这是十分关键性的接作.在再小的企业或组织中.也总是有许多业务和技术环节的。一般来说,原来运行系统数据库的设计也总是针Xf这些业务和技术环节设置“实体”,印数据库的表.这样的设计快O1.TP系统在埃运行时,发挥了最大限度的工作效军。但在开拓决蕾支持的O1.AP时.好别是对于全企业范围的数据进行操作时,这种数据结构效率校低。这是因为可能要从许多表中取出所需数据,

21、而且还要进行数据的饰选.就不同表中的数据进行拟合等操作,这是税费时问和资源的.企业范围的决策是对各个环节分别进行业务处理的业务生蛆,这就需要有相应致枢结构的重姐,即按决策的希要组织成不同主题的扬据仓库表.以及相应的鲂据视图,汇总表等。SAS为此谀置了交互式操作的界面,以最大的主动性帮你克成决策支持所帑的数据空组.丰富的决策败务处理绘力在有的所谓数据仓库产品的宣传中说:为了处理数据他们有各种函引功能供端程使用.这显然是校其不够的.为了更有效地支持决焚,可能粘要进行广泛.深入的数据挖提(DataMining)工作.SAS在这方面有世界领先的丰富的决策支林效据分析、处理软件.首先SASMDI)B可帮

22、你构造最适宜O1.AP操作的多维数据结构。SRS/STAT理差了所有的实用数理统计分析方法.是国际上统计分析领垓的标准软件。它援供了十多个过程可进行各种不同模型或不同林点的回归分析:为多种试脸设计模型提供了方差分析工具:在多变量就计分析方面,为主成分分析,相关分析,判别分析和因子分析提供了许多专用过程:还包括多聊聚类准则的聚类分析方法等。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行ffi测的有力工具.SAS/0R提供了全面的运算学方法.SAS/IM1.提供了功能强大的面向矩阵运算的编程浩言.帮助你研究新算法或解决SAS条统中没有现感算法的专门问题.SAS/INS

23、IGHT是一个可视化的数据探集工具。它将统计方法与交互式图形显示融合在一起,为你展现了一种全新的使用统计分析方法的环境,迂有SAS的人工神经元同珞和SAS/ASSIST等.具有鱼大伸缩性的,适合各个层次,各种类型人员使用的工具.灵活多样的结果展嶷方式分析结果的展现方式对决策时人的判别有更大的影利SAS也有众多的方式,方法供你选择:在BaSeSAS中就有从简单列表到比较复杂的统计报表和用户向定义的式样复杂的报表的能力;SAS/ER(EnterpriseReport)更是为企业级的决焚过程提供了报告的制作能力:SAS/GRAPH是一个强有力的图形软件包,可搭数据及其包含着的深层信息以多种图形生动的

24、呈现出来从各种数据源主动的取出数据:经迂清理,整合:事按决策支持的需要分别主J.重组数据;按照时序节奏不断地自动装载、更新数据仓库;用世界权威的,丰富的数据处理工具进行决篥分析:最后以多种形式将决策支持的意见呈现给你。这就是完整的决策支持数据仓库解决方案.再次集普:在购置数据仓库产品时注意其必不可少的技术环节!SAS数据仓库的体系结构数据库技术对计算机应用的推动发挥了巨大的作用,舞别是建立在E.F.CoA的ProCCSS的EditOr来进行的,它可以定义四种处理过程:* 运行数据的映射(MUPPing)在此定义从输入数据源中取出哪些数据.这些数据如何转换,然后将它们装我到期个主题数据表中去.*

25、 数据传送将歆据从其所在的计算机系琉中选出,SSU对它进行相应受理,然后使MPRoCUP1.oAD或PROCDOWN1.OAD再把它送到教橱仓库所在计算机系统中,在图1中表示了数抠的传送过程的一个例如.* 记录选取器按飘你规定的某些选取规则选出一个数据子集。形戌数据仓库的其它元素,如相应的表,数据市场或是VIE*等,* 用户出口除了SAS/联所规定的散搭仓库的操作过程外,用户在各个环节均可插入认为需要的数据操作,如图1所示:B数据仓F主题丧开发者7编程序I运行数据定义运行数据定义运行数据定义数据文件数据文件外部文件图1数据仓库的数智传送过程例如更新汇息数据数据仓庠中的数据是按你确定的时序,出动

26、的进行主题数据更新的。更新实际上有两种含义印在原有数据表中进行某些数据的更新:或者是产生一个新的时何区间的数箱新板本,无论是用一种情况,SAS/IIA都会按你授先规定的规则产生一个新的汇总数据。因为汇息数据可能就数据仓库中的许多信息元亲都有关系,这样就保证了全体信息的一致性。速上.萱理和步I1.CtHdiItH企业的数据仓库可能是从许多不同的大系统中取出数抠建立的,因此其规模可能比原有的数据库都要大的多。面对这巨大的数据仓库,从戏立伊始就要保正其可管理性.在通过SASZIA建立数据仓库的过程中,将形成一个若干个数据仓库共用的metadata其中包括了:* 数Jg仓库中的各个元素所存放的地方* 在每台计算机系统中都有邺些数据仓库的什么内容* 如何从运行系统的数据源中取出所帚的信息* 其它数岩仓库管理员和用户问需要沟通的信息metadata不仅是胡据仓库的文档费料.可供管理,维护人员使用,而且亦可供用户登询,使之更好的了解散据仓库,银商自己的使用水平.设置她据市场蚊格市场(DataWarD是为了更方便用户的信息利用而

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号