《数据标准化体系的建立.docx》由会员分享,可在线阅读,更多相关《数据标准化体系的建立.docx(14页珍藏版)》请在课桌文档上搜索。
1、数据标准化体系的建立企业信息资源管理(尔乂)基础标准是指决定企业信息系统质量的、因而也是企业信息资源开发利用的最基础的标准,包括数据元素标准、信息分类编码标准用户视图标准、概念数据库标准和逻辑数据库标准。1.1 数据元素标准数据元素(12Elements)是最小的、不可再分的信息单元,其标准化具有化学元素在化学世界中的重要意义。本项目要建立的数据元素标准,除了遵循国家与行业标准外,还要从本企业信息化的需要做补充,并且用工具软件来支持其建立和管理应用。数据元索命名规范:采用词组结构“修饰词-基本词-类别词”命名数据元素。例.“社会保险编号(SOCIAL-SECURnY-NUMBER)是一个数据元
2、素,其结构是:社会保险编号类别词基本词修饰词类别词(ClassWord)是数据元素命名中的一个最重要的名词,用来识别和描述数据元素的一般用途或功能,一般不具有行业特征,条目比较少。常用的类别词有:数量(AMOUNT)名称(NAME)编号(NUMBER)代码(CODE)系数(CONSTANT)百分比(PERCENT)计数(CoUNT)正文(TEXT)日期(口人丁)时间(TIME)基本词(PrimeWord)是类别词的最重要的修饰词,它对一大类数据对象进一步分类(反映小类数据对象),一般具有行业特征,条目比较多。例如,制造业常用的基本词有:会计(ACCoUNTlNG)预算(BUDGET)雇客(CU
3、STOMER)分配(DISTRIBlrnON)员工(EMPLOYEE)工程(ENGlNEERlNG)设备(FACILnY)库存(INVENTORY)制造(MANUFACTURING)市场(MARKET)税金(丁人乂)订单(ORDERS)付款(PAYMENTS)计划(PLANNING)采购(PROCUREMENT)产品(PRoDUeT)研究(RESEARCH)销售(SALES)供应商(SUPPLIER)数据元索标识规范:采用英文缩略语标识数据元素。例.社会保险号码可标识为:SCL_SCR_NOo利用数据元素的命名规范和标识规范,识别定义出企业的所有数据元素,并执行一致定控制,消除“同名异义”和“
4、同义异名”的对象,就构成了一个企业的数据元素标准。1.2 信息分类编码标准值息分类编码(InformationClassifyingandCoding)是标准化的一个领域,已发展成了一门学科,有自身的研究对象、研究内容和研究方法。在工业社会中,信息分类和编码是提高劳动生产率和科学管理水平的重要方法。美国新兴管理学的开创者莫里斯L库克(MorrisL-CookeD说“只有当我们学会了分类和编码,做好简化和标准化工作,才会出现任何真正的科学的管理”。在信息化时代,信息的标准化工作越来越重要,没有标准化就没有信息化,信息分类编码标准是信息标准中的最基础的标准。信息分类编码简称“代码”,本项目要实现代
5、码唯一化,即“一人一码”,“一物一码”,“一机构一码”,“一事件一码“,等等。信息分类就是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起一定的分类系统和排列顺序,以便管理和使用信息。信息编码就是在信息分类的基础上,将信息对象(编码对象)赋于有一定规律性的易于计算机和人识别与处理的符号。具有分类编码意义的数据元素是最重要的一类数据元素。应遵照GB/T20529.1-2006企业信息分类编码导则第1部分:原则与方法和有关于信息分类编码的标准规定,按照“国际/国家标准一行业标准一企业标准”的序列原则,引用或建立的信息分类编码标准。编码对象的分类要求按照信息资源规划的方法,
6、将信息分类编码对象划分为A、B、C三种类型,建立企业信息分类编码标准,是适合企业信息化建设需要的。A类编码对象:在信息系统中不单设编码库表,代码表寓于主题数据库表之中的信息分类编码对象,称之为A类编码对象。这类编码对象具有一定的分类方法和编码规则,其码表内容一般随信息的增加而逐步扩充,很难一次完成。虽然不单设编码库表,但其码表可以从数据库表中抽取出来作为一个虚表(是数据库表的一个投影)在信息系统中使用。这类编码对象一般在具体的应用系统中有较多的使用。如身份证号码(国家标准),客户编码、职工编码、设备编码(企业标准)等,都是A类编码。B类编码对象:在信息系统中单独设立编码库表信息分类编码对象,我
7、们称之为B类编码对象。这类码表内容具有相对的稳定性,可以组织力量一次编制出来。这类编码表一般都较大,像一些数据库表一样,在应用系统中往往被多个模块所共享,作为一些单独的库表管理是方便的。如国家行政区划编码、职称编码(国家标准)、生产统计项目编码(行业标准)、设备配件编码(企业标准)等等,都是B类编码。C类编码对象:在应用系统中有一些码表短小而使用频度很大的编码对象,如人的性别代码、文化程度代码和婚姻状况代码等等,如果都设立编码库表,不仅系统运行时资源开销大(或内外存交换编码信息频繁),还给系统管理带来一系列的问题,把这类对象统一设一个编码库来管理就可以了。按上述规则识别、定义、列出企业所有各类
8、编码对象,对每一编码对象制定编码规则,并按编码规则编制列出“代码-名称”一览表,即为企业的信息分类编码标准。1.3 用户视图标准用户视图(UserVie.)是一些数据元素的集合,它反映了最终用户对数据实体的看法。用户视图是数据在系统外部(而不是内部)的样子,是系统的输入或输出的媒介或手段,数据流就是用户视图的流动。常见的用户视图有:输入的表单;打印的报表;更新的屏幕数据格式;查询的屏幕数据格式。企业要建立网络化的信息系统,就要取消大量的报表信息传递,为此,需要分析用户视图,建立用户视图标准。用户视图登记:用户视图登记应包括用户视图名称用户视图分类编码用户视图记录数和生存期等。a)用户视图名称:
9、用一短语表示用户视图的意义和用途。b)用户视图分类编码规则:DXXXXXXX族码序号小类编码大类编码职能域编码其中: 大类按用户视图流向分类,编码取值:1二输入,2=存储,3二输出; 小类按用户视图类型分类,编码取值:1二单证,2二账册,3二报表,4=其它; 序号是指同一大类、小类中的用户视图的顺序,编码取值:0199; 族码是指同一用户视图拆分出的部分子视图编码,取值:A-Zo用户视图组成:用户视图应由数据项数据元素及其结构关系组成。复杂的用户视图应做规范化分析,如复杂报表应拆分,描述每一部分的组成。1.4 概念数据库标准概念数据库(COnCePtUalDatabase)是最终用户对数据存储
10、的看法,是对用户信息需求的综合概括。简单说,概念数据就是主题数据库的概要信息。概念数据库一般用数据库名称及其内容的描述来表达:概念数据库标识,概念数据库名称(信息内容描述)其中:概念数据库标识:用字符串(英文缩略语)表达;概念数据库名称:通常的汉语名词;信息内容描述:用自然语言(中文)或数据项/属性列表描述。例:“机构”和“员工”概念数据库:ORGN机构(机构代码,机构名称,机构基本信息)EMPL员工(员工代码,姓名,自然信息,简历,培训记录,)1.5 逻辑数据库标准逻辑数据阵(LogicalDatabase)是系统分析设计人员的观点,是对概念数据库的进一步分解和细化,一个逻辑主题数据库由一组
11、规范化的基本表BaSeTabIe构成。基本衰是按规范化的理论与方法建立起来的数据结构,一般要达到三范式(3-NF)o逻辑数据库用下述格式表示:逻辑数据库标识,逻辑数据库名称(主键,属性表)基本表i标识,基本表i名称(主键,属性表)(i=1,2,n)其中:逻辑数据库标识和逻辑数据库名称:即一级基本表的标识和名称,采用概念数据库的标识和名称;基本表i标识和基本表i名称:即二级基本表的标识和名称,一个逻辑数据库可包括多个二级基本表(i=l,2,n,二级基本表的标识主部与一级基本表标识相同,后缀可用字符串(汉语拼音或英文)表达;二级基本表名称,继承一级基本表名称再增加注明的缩略语;属性表:每一属性由数
12、据元素标识和数据元素名称表示,属性间用逗号分开;主键:用相应属性标识表示,多个属性标识用加号连接。例.“机构”和“员工”逻辑数据库的简化E-R图表达法:主键,机构代码(T机构基本信息RGNLD领导班子IORGN MM机构成员机构代码,机构名称,成立日期,人员总数,主健,机构代码+职务代码机构代码,职务代码,任命日期,员工代码,主健;机构代码+员工代码机构代码,员工代码IEMPL员工基本信息I主健:WL代仍PT人型”蛆员工代码,员工姓名,出生日期,学历代码,口UPlg舟丁福由主健,员工代码+起始日期EMPLRS员工同历员工代码,起始日期,结束日期,所在单位,EMPLTR培训记录主键,员工代码+起
13、始日期员.工代码,起始日期,结束日期,培训地点,培训课程,图5.1简化小图表达法1.6 信息资源管理基础标准的建设信息资源管理基础标准的建设,可以在信息资源规划过程中进行,并在相关的应用系统建设之前(或前期)完成。具体说,在对用户视图做调研和规范化分析时,从用户视图的组成中,就可以提取数据元素和识别信息分类编码对象,这实际上就开始了用户视图、数据元素和信息分类编码的标准化工作;而按业务主题对用户视图分组,识别定义概念主题数据库,进而细分概念主题数据库为一组基本表,这实际上就开始了概念数据库和逻辑数据库的标准化工作。这就是说,不需要脱离信息资源规划工作,另组织一些人去专搞数据标准化工作;参与信息
14、斐源规划、开始做起数据标准化工作的人员,在应用开发之前、或前期继续做好数据标准化工作,并作为数据管理员一直支持应用开发和维护工作,将是最有效的数据标准化建设队伍的组建思路。图5.2为信息资源管理基础标准框架,其中的数字只是一般企业的预研估计值,具体数值将在信息资源规划实施过程中给出。数据元素标港(DataElement)4000信息分类端口(InMnlaUOn Classi fin and Coding) o 02400 O逻辑较据库标准(BaseTabk)S 4。I lr概念数据摩标准(Subject Database)O 50畲用户视图标准j1(UServieW)L-J2000图5.2信息
15、资源管理基础标准示例该套数据标准化体系,需要分三个阶段逐步建设:第一阶段:信息资源规划需求分析时,重点识别数据元、信息分类编码对象和用户视图规范化;第二阶段:信息资源规划系统建模时,重点完成概念数据库和逻辑数据库标准;第三阶段:信息工程实施方案研发时,重点完成五部分标准规范的关联性分析和整体优化,并在后续数据库和应用软件工程实施过程中进一步调整优化完善。1.7 非结构化数据的存储与处理标准随着信息化手段的日益丰富,支撑应用的数据形式也越来越多样化,不仅有传统的结构化数据,还出现了大量非结构化数据、半机构化的数据。结构化数据,简单来说就是关系数据库。比如企业ERPx财务系统;医疗川5数据库;教育
16、一卡通;政府行政审批等待。非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体来说,如医疗影像系统、教育视频点播、视频监控、国土GIS、文件服务器(PDM/FTP)等具体应用。半结构化数据,是介于完全结构化数据和无结构数据之间的一种数据类型。半结构化数据虽然有一定的结构,但却是不严格的、多变的和不完整的。包括邮件、HTML、XML报表、资源库等等,典型场景如邮件系统、WEB集群教学资源库数据挖掘系统、档案系统等等。模式抽取是半结构化数据研究的基础,且有多种成熟的模式抽取技术,可归纳如下:手工方式的抽取方法、样本学习的半自动抽取方法以及利用半结构化数据的自身的特点的自动化抽取方法及其
17、他方式的抽取方法。手工方式的抽取方法是需要基于XML语言的,然后通过人工定义信息的结构,进行抽取数据信息的。样本学习的半自动化抽取方法需要大量样本的学习,然后由程序根据映射关系归纳、总结、推导出抽取模式,其抽取模式如果不能满足实际需要的时候,需要人工参与修改,但是其对用户的要求很低,不需要特殊的知识,在构造模式上相比较手工方式也更加自动化。目前对半结构化数据进行数据信息抽取的模型主要有:半结构化数据模型有基于关系的数据模型及扩展、基于对象描述的数据模型、基于有向图的数据模型。NOSQL即非关系型数据库泛指数据模型不采用关系型范式存储的数据库,包括了面向对象数据库、基于XML的数据库和新生代的N
18、OSQL等,新生代的NoSQL主要划分为三类:面向KEYVALUE的、面向列的和面向文档的数据库,它们较传统数据库具有高扩展性、高可用性和高吞吐量C正因为具有这些优势,这些类型的数据库系统成为当前海量数据存储的解决方案例如基于列的NoSQL数据库BigtaIe是云计算框架MaPRedUCe的底层数据存储系统,HBaSe和HadoOP则分别是对应于前者的开源实现。这三类NOSQL之间的区别在于对数据存储模型描述方式上采用了不同的范式,相同点是在数据物理存储模型上都使用KEYVALUE模型大数据自提出至今得到广泛关注,其并无统一的定义,由于大数据是相对概念,因此目前的定义都是对大数据的定性描述,并
19、未明确定量指标。维基百科中指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。大数据归根结底是一种数据集,其特性是通过与传统的数据管理以及处理技术对比来突显,并且在不同需求下,其要求的时间处理范围具有差异性,最重要的一点是大数据的价值并非数据本身,而是由大数据所反映的“大决策”、“大知识”、“大问题”等。随着云计算技术的发展,建立在分布式存储基础上的云存储已经成为大数据存储的主要趋势。运行保障体系Hadoop大数据竹理元般能咋IRPkfl:H豪.xK!K投资决柒模型女生专家知识工具一HdoopMOrMQtCL4一,, ml、皿、MMOttmm非结构化数择分析
20、 MapReduce(JCb SceddinExecution System 小关系型SC树长 NoSQL分布式文件系统一HDFS7. 标准 规范 体 系云安全图5.3包括大数据、云计算的数据架构图比如上图是电子政务中政府监管应用的例子,是大数据的总体架构,通过构建云存储实现信用体系大数据海量数据的高效存储和统一访问,通过HadoOP实现对大数据的管理,体现出对非结构化数据的管理。大数据应用中心一大数据应用-n晶Tr全生命一期收管务馅用IMl数据资源.:一互联网一1:i -XWli-:一追*EI关联企业:*4A层疗*mRDBMS化HTM大数据分析中心图5.4大数据的逻辑架构上图是政府食药监行业
21、应用大数据逻辑架构的案例。其中半结构化、非机构化数据通过ETL工具可使用非关系型NOSQL数据库进行管理。1.8 数据治理体系介绍数据治理是一个关注管理信息的质量(QIJaIity)、-ti(Consistency)可用性(USabiIity安全性(SeCUrity)和可得性(Availability)的过程。数据治理是技术与管理相结合的一套持续改善管理机制,贯穿在数据管理的整个过程中,通常包括了组织架构、政策制度、技术工具、数据标准、流程规范、监督及考核等方方面面,将其他几个数据管理职能贯穿、协同在一起,让企业的数据工作成为一个有机整体而不是各自为政。数据治理涉及的T技术主题众多,包括元数据
22、管理、主数据管理、数据质量、数据集成、监控与报告等。数据安全数据服务数据质加主数据元数据数据全生命周期数据模型数据标准技术规范实施办法支撑与落实图5.5数据治理的核心领战略:数据治理是XX控股有限公司在发展战略和规划的指导下进行实施的,这些战略和规划包括业务发展目标、IT规划以及数据治理相关的发展规划。机制:机制是数据治理工作实施的基础保障,通过组织、制度、流程的建设和执行得以落实。机制是数据治理工作的重点,数据治理执行效果就是机制落实的效果。专题:数据治理专题是数据治理的工作内容,包括数据标准、数据治理、元数据、主数据、数据生命周期等方面。实施:数据治理工作最终在相关制度、规范和流程下通过数
23、据治理组织借助技术手段和管理手段来实现。包括系统开发阶段为提高数据质量进行的校验设计;系统日常运维工作;数据分析应用阶段的数据集成;数据质量监控等。数据治理从数据标准模型、流程制度、组织部门职责、技术支撑等各个方面全面设计了数据的全生命周期的管理,从而确保数据质量的真实性和完备性。数据治理体系一般包括:建立健全数据管理的企业制度文件,以保障数据发布的标准和权威性,保障数据的准确、及时;注重以用户需求为导向;建立所有使用者获得数据的通畅渠道;提供数据相关信息,制定数据可靠性的评估标准,确保数据质量;重视信息技术的应用,以此为依托不断改进数据的管理方式,提高数据使用和挖掘的工作效率。数据管理涉及数据采集存储、共享与交换;也包含数据模型设计、审核批准质量控制、数据发布等内容。所谓数据治理体系主要是由数据模型的标准化数据管理流程标准化、组织职责标准化、数据质量管理标准化和数据交换标准化等构成的综合体系。