《XX大学数据中心平台项目建设需求说明.docx》由会员分享,可在线阅读,更多相关《XX大学数据中心平台项目建设需求说明.docx(47页珍藏版)》请在课桌文档上搜索。
1、XX大学数据中心平台项目建设需求说明一、项目背景1.现状XX大学数据中心平台是为学校内部提供数据共享、数据服务应用及数据管理的信息化基础设施。数据中心建设经历“以技术为导向”到“以应用为导向”,再到“以服务为导向”的发展历程,目前完成了2期的项R建设,已建设内容如下:(1)数据中心(一期)根据“以技术为导向”的指导原则,数据中心(一期)主要困绕“数据共享”和“数据治理两个方面进行基础技术平台的建设。建设内容包括建立数据仓库、数据共享交换平台、支持数据治理活动的元数据管理系统和数据标准管理系统;同时,基于平台进行业务系统的数据集成和数据标准的制定工作。(2)数据中心(二期)根据“以应用为导向”的
2、指导原则,数据中心(二期)主要围绕“数据股务应用”进行项目建设,同时通过“完善基础技术平台功能”和“深化数据治理活动”两个方面的项目建设,提高数据共享能力和数据质址,推动数据服务应用的建设目标的实现。建设内容包括:建立数据服务应用(离基表应用、领导驾驶舱、个人数据门户、业务报表管理系统、学生宿舍智慧管理):完善基础技术平台功能(数据共享门户和数据服务生态平台),建设自助式、丰富接口方式的、数据资源丰富可视化的数据共享以及增加数据质量、数据安全、数据模型,数据资产等数据治理领域的辅助技术工具:建立数据治理制度体系(制定了数据标准管理、数据质量管理、元数据管理、数据集成管理等制度。经过两期的建设和
3、数据治理,采集了30余个核心业务系统的数据,建立了8大类262个数据标准和19192个标准代码,建立共享数据资源177个,规范共享数据接口421个,已为75个下游业务系统提供数据服务。数据共享平台每天的数据交换员在300万次以上,在定程度上打破了数据孤岛、应用孤岛、业务孤岛,已建成“1+7”的数据服务生态:一个数据中台和七大数据应用,数据作为生产要素的地位得到提升。但随着学校高质量发展以及信息化建设的不断深入,对数据服务提出了更高的要求,现有基于ET1.的定时数据采集与交换服分已无法满足“互联网+校务”服务需求,尤其是数据中心缺乏对实时数据计算能力和非结构化数据处理能力,无法满足业务系统对实时
4、计.算、非结构化数据利用及融合数据价值挖掘与数据服务等日益增加的需求。2 .存在问JB经过前面两期的建设,学校数据质量大幅提升,数据资产作为学校的战略性资产地位不断得到强化,数据中心建设是项基础工作繁、技术要求高、建设周期长和影响面广的系统化,持续性的基础工程,目前数据中心仍存在以下问题:(1)缺少对发柴业务数据实时共享及实时数据分析支持能力。目前学校数据中心已建成基于ET1.等技术的定时采集、汇聚和交互平台,基本满足了非实时性的数据服务场景,比如报表服务、业务系统数据交互服务、领导驾驶他等:但尚不能满足基于实时性的数据服务场景,比如一网通办、自助打印、迎新离校等场紧,以及财务、校园卡等涉及金
5、融业务的应用场景.比如目前在毕业季办理学生批量离校业务时,其中“欠用清缴”、“图书归还”等业务中的数据同步需要30分钟以上,极大影响了办事效率和用户体验。(2)缺少对半结构化及非结构化数据的统一存储计算分析能力。近年来学校分批次建设了200余间智念教室、并启动了新一代校园安防体系建设。现有数据中心无法满足对来白于这些系统或场景的学习日志、教学视频录播、视频监控等半结构化、非结构化数据的存储、分析、利用。XX大学关于进一步提升拔尖创新人才培养版量的实施意见中明确要求实现基于“多模态数据驱动,实施发展性学生学业评价.从多个维度开展基于多模态的学生学业评价改革J采集在线学习、课堂交瓦、教学录播、图书
6、借阅、校园等多场景行为数据,纵向采集学生从入学到毕业全过程学业数据,为学生学习质量监测提供可视化表征。因此,需要建设湖仓管理底座,实现对日志数据源、电子文件数据源、AP1.数据源、声像文件数据源等多种数据源类型的实时数据采集。(3)数据应用场景数砥较少,提供师生数据服务能力有待提高,经过前面两期的持续数据治理,学校的数据质量大幅提升,学校数据资产基础形成,推出了广受教职工欢迎的智能表格填报等数据服务,极大减轻了教师的指尖负担。但目前数据应用场景还太少,数据效能发挥不足,如何基于已有数据治理成果,以服务化视角IR新组织数据信息,实现数据变现及数据业务化,强化面向师生个人的数据眼务能力,提升师生.
7、获得感,是学校数据中心建设嗔需解决的问题。二、项目概况1.建设目标项目建设将推动由数据故略驶动的业务及管理变革,挖掘数据服务应用场景,提升教育决策科学化、管理精准化和服务个性化水平,推进教育治理方式改革和学校的高质量发展,具体实现绩效目标如R1 .增加实时数据共享和分析功能,提升计兑时间颗粒度从分钟级到充秒级,满足智慈校园迎新、离校、自助打印股务等互联网校务体系实时数据服务场景,提高数据计算吞吐量.增强数据计算稳定性,完善数据共享功能.提升对数据共享服务场景的支持水平.2 .增加非结构化及结构化数据的统一存储、加工、处理,及价值挖掘能力,构建湖仓一体化数据架构,提升对全域数据的管理水平.3 .
8、增加“学生综合预警系统”、“学生精准资助系统”、“学生学业画像”、“部门全息画像”、“自助取数服务系统”5个数字校园数据服务场景,进步为科学决策、精准管理、个性化服务提供支持。2.总体设计t=(E()=CZO长下文科文怦听应用架构图个A1.eIuT*I*III8II-T1IINByTFjI;KjI*JKIIarcrfg本项H应用架构图如上所示,建设内容按照“项目建设内容表”的序号在架构图中进行对应标识。图中数字文字标识的湖仓管理底座、实时计算平台、数据协同管理平台、学生综合预警系统、学生精准资助系统,学生学业画像、部门全息画像、自助取数服务系统是本期项H的软件建设内容。3 .基本要求(一)信息
9、标准要求(1)本项目系统建设应遵循6XX大学信息标准与规范-数据标准、XX大学信息标准与规范-信息系统建设规范和XX大学信息标准与规范-数据集成管理规范进行开发,若系统与学校信息标准与规范不一致,供应商应提出解决方案并实施完成。(2)供应商须提供项目建设系统的数据字典文档,并把数据字典内容部署到数据库的注释字段。(二)数据安全要求(1)根据国家对教育行业信息安全等级保护工作的要求.供应商需要使本系统符合信息安全等级保护相应等级要求相关技术标准。采购人可选择符合信息安全等级保护管理办法规定条件的测评机构,依据信息系统安全等级保护测评要求等技术标准,对本系统开展等级测评,供应商需根据测评机构的整改
10、意见(报告)免费对本系统做好整改修麓并使之通过测评.提供承诺函,格式自拟。(2)在本项目实施和售后服务期间,本项目合同标的物(定作物)之应用系统(含应用系统部署所需的操作系统,中间件,数据库)如果自身存在安全性问题,并被采购人或者政府主管部门(包括但不限干公安部门、网信部门、教育主管部门)扫描出存在的漏洞,供应商应积极配合安全漏洞修夏并在采购人指定的时间内完成。(三)技术路线要求(1)项口技术路线符合信创技术路线要求,项目的收须获得信创适配符合性报告。提供承诺函,格式自拟。三、建设内容1.湖仓管理底座面向智越校园(如智慈教室录播、校园安防等)半结构化、非结构化及结构化的多模态数据的存储与集成,
11、实现多类型数据容器融合,包括PostgreSQ1.,MYSQ1.、人大金仓、达梦、Minioxc1.ickhouse等,实现支撑校级全员全域全场景数据服务业务建设目标,并支持信创技术路线。序模块具体技术(参数)要求1总体Z求为确保湖仓管理底座能基于学校现仃校本数据中心规范体系切实落地,并与学校数据管理整体战略保持高度一致,本次湖仓管理底座建设须充分考虑学校现有数据的类型分布,并针对性提供采集、存储、分析与管理能力及策略,投标人需承担湖仓管理底座建设过程中可能产生的所有费用,包括但不限于底层数据库优化费用、数据迁移费用等,这些费用应被合理计入投标成本1.不得再向学校或第一:方机构收取费用.投标人
12、须提供对应承诺函,并加盖投标人公章】(性能安全评分项)性能满足:单节点最高离线抽取速率45Mbs,最大平均速率218万条/秒:单点可处理峰值数据亿条/h,处理峰值数据量235/h:单节点并发任务最大数据量280G,提供单节点任务最大并发270条/S:单节点提供创建共享AP1.服务个数2450个。安全满足:软件架构有保障系统运行的安全策略和机制,至少包括标识和鉴别、访问控制、安全审计、数据完整性、数据保密性、会话管理等相关安全功能和机制.2数据底座平台规划和;:署投标人需根据本项H实际情况,按照“湖仓一体”的建设口标完成数据底座平台的设计、规划、部署。需根据待处理数据的体技规模、增长趋势、形态格
13、式等因素,充分考一体化管理、容量扩展、处理性能、异构兼容性等方面的要求,选用成熟稳定、架构先进、性能优异的数据库、文件系统等产品构建数据底座平台,并对数据底座平台的运行架构和配置参数进行合理规划设计,保障数据底座能够完全满足我校数据资源管理的长期要求。投标方案中详细说明数据底座的具体产品选型、功能作用、技术特点、存储对象、适用场景,并说明数据底座与数据资源之间的对应关系,数据资源在数据底座内流转方式设计。中标人需完成数据底座的实际部署、配置,并进行必要的性能调优,基于该底座架构完成本项F1.交付,保障各项功能和性能要求的达成。3分布式教据库构建构建高性能O1.AP的分布式数据库,支撑湖仓一体的
14、物理架构,支持以下特性:1、支持列式存储。2、支持数据压缩。3、支持向量引擎操作.4、支持O1.AP场景卜的数据实时处理。5、支持数据高吞吐的方式批量并发写入。6、支持多核和多服务器分布式部署和处理的方式,提高隹询的速度。7,支持包括MergeTree.RGP1.iCaSdMergeTree、1.og、Memory、Distributed、Kafka、BUffer、Materia1.izedVieUR1.、HDFS、S3等在内的多种表引擎,基于不同场景选择合适的表引擎存储和使用数据。8、大数据集群支持Mu1.ti-Master的多主架构,集群中每个节点角色对等,客户端访问任节点均能获取相同数据
15、,避免单点故障。9、大数据集群支持数据分片语分布式查询,分片数量取决于节点数用,支撑TB级以上数据查询的高性能响应.10、支持关系型数据、JSON、XM1.等数据的存储,支持NoSQ1.数据库的外部数据注册,基于sq1.实现NoSQ1.+SQ1.的实时关联查询。11、支持AC1.的方式对于数据表的访问及操作权限进行控制,字段细化到行级和列级,以保护敏感数据不被未授权访问。12,支持海量数据行询和计算的秒级返回,实际操作500G单张大宽表的数据聚合,返回时间在3秒以内。13、(演示评分项)支持数据实时关联计算能力,基门可一个数据开发界面进行数据实时关联任务配置,可通过标准sq1.方式对多张数据表
16、进行实时动态捕获,至少包括支持根据数据关联逻辑完成数据实时推送,支持按过戏条件取最新的数据,支持增量无侵入,可在数据实时关联过程中引用数据清洗转换组件,清洗转换组件至少包括加密、替换、切割。4分布式文件系统构建构建可扩展、高性能的分布式文件系统,对数据湖、数据仓库中的非结构化文件进行统一存储和对象化管理,提供高性能检索、文件共享、访问控制、高可靠运行等能力,支持以卜特性:1、支持分布式架构:支持水平横向扩展,通过增加节点来提而存储容量和性能,满足大规模数据存储需求。2、支持对象存储,所有数据包括文件本身、文件名、文件的描述信息等都以对象的方式进行存储,提供而性能的对象存储眼务,能够满足各种大规
17、模数据存储和处理的需求,提高数据传输速度和访问响应时间。3、针对数据的访问频度和热度不同,提供多种存储类别,满足不用的使用场景和成本管理需求。4、具有高度容错性,支持数据冗余,能筋在节点故障、磁盘损坏或文件出现坏块时保证数据的可靠性。支持采用纠删码(ErasureCoding)和第制(Rep1.ication)等技术来保护数据免受硬件故障的影响。5,采用SS1./T1.S的加密通信协议,确保数据在传输过程中的安全。6、支持通过RESTAPI对存储的对象进行检索和操作,降低文件对象数据操作的门榄,提高与第:方应用对接的效率。7、提供多种安全特性,包括访问控制、身份验证等,以保护存储在其中的数据不
18、受未经授权的访问和攻击。8、提供全面的监控和管理功能,可实时监控存储资源的利用率和访问情况,可以集成到第三方监控平台如ZabbiX中。5数据源连接适配1、支持连接关系型、大数据类型、MPp型、NoSQ1.型、时序型等多种不同类型的数据库,支持包括但不限RYySQJOraC1.0、SQ1.ServerPostgreSQ1.-KingBaSe6、支持创建接口时设置判断条件,接口执行前可选择清空或不清空目标表。7、接口任务运行过程中出现个别数据错误时,支持自动跳过并继续执行(避免整个接口运行失败),在接口执行成功后支持查看同步失败数据,只需重新对有错误记录的数据进行抽取即可。8、支持将一个接口任务切
19、分成多个数据块分批提交执行,提高接口任务执行成功率。9、为保障数据治理的质信,创建多表批SH可步任务时,支持字段注择率的自动检测,当单表注萍率不达标时,系统应自动禁止创建任务。10、支持拉链表模式向目标数据对象同步数据,实现目标数据的内容只增不减,保存数据行级颗粒度的历史版本。11、支持批处理任务的并发执行,可在创建任务时指定任务执行的最大并发数,系统自动限制其不可超过CPU的核数。12、支持跨数据源的开发任务,可在一个数据开发任务中选择多个异构数据源作为数据输入,基于SqI语句的开发方式进行数据预处理和关联。4流处理数据开发1、提供可视化图形界面实现流式数据开发,实现跨数据库、消息组件、SY
20、S1.OG协议的秒级数据同步,满足实时跨系统业务协同的需求。2、实现在可视化界面以无代码的方式创建实时同步任芬,实现跨数据库的实时数据同步。当源阵数据发生变化时,实时同步接口可实时感知该变化,并将变化数据立刻同步到目标表。要求支持源表的插入、更新、删除二.种数据变化模式的完整同步,保持目标表与源表内容一致。数据同步延迟(从源库数据发生变化的时刻到该数据在目标库完成写入的时刻)不高于1秒。3、(演示评分项)支持数据实时同步,可在线完成数据实时间步任务创建配置,可通过平台创建实时同步任务,实时同步任务至少包括接口型(Http、Socket)、日志型(MySq1、Orac1.e%Sq1.server
21、)可通过图形化界面进行数据映射配鼠,支持完成数据自动映射操作,自动映射规则至少包括同名映肘、同位置配置,可通过测试报告及图形化界面验证数据传输效率达到秒级(1秒内)。4、支持在可视化界面中,对实时同步任务的运行状态进行管理。需支持用户手工停止/启动/重置同步任务,支持杳看任务的运行状态,支持杳看每天同步的数据变化量(分别展示读取、新增、修改、利除的数据址)。当同步异常时,可自动统计错误记录数.当源和目标表的记录数不一致时,系统需主动予以提示,提醒管理员进行处理。5、支持对实时同步任务进行数据血缘管理和数值追踪在元数据管的数据血缘管理中,可识别实时同步任务的源表和目标表,正确展示表之间的血缘关系
22、和字段之间映射关系。可对字段的取值进行关键字检索,系统可自动根据血缘关系追溯上下游表的数据情况,从而帮助排查可能存在的数据差异。6、支持基于CDC的实时数据同步模式中,支持MySQ1.-CDC.MongoDB-CDC,SQ1.Server-CDC,等多种类型的数据库。7、支持不依赖CDC的实时数据同步模式。该模式下,要求在数据库侧未开启CDC机制的情况下也支持实时数据同步,对数据库类型无特殊要求。8、实时数据同步过程中,要求支持各种数据处理逻辑,包括搭贝、加密、连接、正则表达式、过滤、替换、切割等。9、支持亿级规模数据的实时同步,支持对单个数据同步任务进行多进程并发执行,并可以根据我校硬件资源
23、的升级扩充增加任务并发数量。5第方1、针对第三方API接口数据,提供界面化的配置,实现对AP1.接口中的数据以增量、全量的机制进行数据捕获和存储.同时提供预制鉴权模板库适配第三方API的鉴权要求具备简单易用、可视API接口集成开发化配置、管理和运维的特性.2、支持通过低代码图形化界面配置AP1.调用的各项参数,包括AP1.的UR1.、请求方式、鉴权方式,请求参数、返回数据的字段结构、解析路径、分页方式、存储方式等,支持时配置参数的正确性进行即时校验,支持对AP1.接口实现增量和全量两种数据调用模式,支持根据AP1.的返回数据内容配置目标表的数据机构,实现AP1.数据自动写入数据库进行持久化存储
24、。3、具备完善的AP1.数据采集管理功能,支持监控AP1.数据采集任务进行,可查看AP1.接口的运行状态、交换类型、执行失败数、任务状态、采集启动时间等,全面管控AP1.数据的采集怙况.4、支持查看AP1.接口的运行日志明细,可显示运行失败的接口的详细报错信息,方便管理人员进行故障摔查.5、AP1.鉴权模板扩充时,新增的鉴权参数需自动对相关联的数据源添加秘钥信息,确保AP1.对接时无需重笈输入秘钥。6、投标人需要具备Ap1.数据采集相关的充分知识储备,可提供常见AP1.的鉴权规则库,井内更在产品功能中以便自动化匹配谢用。可基于AP1.鉴权规则库快速完成高校常见的应用平台(例如企业微信、海康及雨
25、深常等)的AP1.接口数据对接。要求内置的AP1.鉴权规则不少于20个,并支持自定义扩充功能。6非结构化数据集成开一、日志数据集成开发1、针对日志类非结构化数据提供采集、存储、结构化、检索、计算、可视化、输出等功能,支持SyS1.Og、FTP多种日志源。要求实现日志数据的资产化管理和自定义分析,具备图形化监控、多副本存储、高比率压缩、自动匹配实时解析、高性能检索计算、数据输出等特性,支持应用程序时日志数据进行预处理,降低应用开发难度。2、要求支持日志数据与其他数据的关联计算。要求数据开发平台中的流批一体引擎可以直接调用日志数据和其他任何结构化数据完成算法开发并输出计算结果,支持流式处理和批处理
26、两种不同的处理模式,要求计算:过程符合“湖仓一体”的特点,即无需在不同数据容器之间进行任何数据宏制或迁移即可直接完成关联和计算处理。3、要求日志数据处理模块具备高效率的数据查询检索性能,针对1亿条左右规模的日志数据进行关键字检索,要求输出结果的平均时间不超过10秒。二、文件数据集成开发1、针对图片文件(如JM、PNG、BMP等)、文本文件(如TXT、D0CDOCX等)、表格文件(如X1.S,X1.SX、CSV等)、文稿文件(如PPT、PFTX等)、图片文件(如JPG、PNG、BMP等)以及音视频流数据等文档类对象进行白动化批量采集,存储到S3文件系统中,并进行元数据提取和分类编目,支持将文档对
27、象与数据仓库中的结构化数据进行美联,提供按类目检索和关犍字检索等功能。用于实现非结构化文档对象的持久化存储、资产化管理和对外开放服务,都助应用程序获取文档对象支掾其业务运行。2、要求具备访问鉴权功能,确保获取的文档下我链接仅在指定授权时段有效。三、非结构化数据集成数据范闹支持非结构化数据的自动与实时更新,包括但不限丁自网办中心、网站群系统、协同办文系统,上网管理系统等系统中自动采集文档数据,且支持全民更新以及周期性的增员更新。四、非结构化数据集成数据模式支持多种采集模式,包括但不限于本地上传、FTPsAPI接口、自定义脚本等.7统调度心实现数据开发任务的统一管理与高效调度,确保数据安全与业务需
28、求的精准匹配,为数据的高效管理与业务决策分析提供强大支撑。1、支持基Tweb界面的调度任务创建,为降低使用门槛,支持通过拖拽的方式实现同步任务、异步任务、串行、并行、任务流的创建,可根据我校数据的业务属性创建不同的执行频率或周期,支持单次或者周期性任务创建。2、支持基于Web界面的画布功能快速进行调度任务的创建,包括批疥导入调度任务(接口、存储过程、ShQI1.脚本)、自动连接接口、一键格式化、调度任务保存(调度任务名称、调度任务分类、任芬类型、执行频率、执行时间、任务有效期等信息的配置。3、管理员将调度任务删除后支持暂时存放至回收站,便于用户误删后的恢更、弃用任务的重新启用及已删除调度任务的
29、批量管理功能。4、支持同一个调度中的前后两个任务或任务组通过条件判断、数值输入的方式进行判断执行,如前面任务执行失败则触发后续的分支任务执行,前面任务执行后返回的数据条目数少于XX条则停止整个调度执行等灵活的配置a5、提供可视化监控看板,可对同个时间段的调度并发情况进行提示和告警,避免因同一时间段执行任务过多导致任务大面积等待或执行失败的情况出现。8数据开放共享提供面对业务系统的数据开放共享服务。具体包括:1.数据资源目录管理。提供友好的数据中心共享业务数据管理功能,方便用户共享使用数据中心数据。(1)支持数据资源的分类目录管理,生成数据资源目录。(2)数字资源目录实现多方式查询功能.(3)数
30、据资源属性包括资源名称,资源描述,资源维度明细,资源更新频率,资源大小,资源来源部门,资源示例。2.接口模块管理.管理平台接口信息,包括:(I)实现多种交换场景:包括但是不限定时共享场景,准实时共享场景,移动应用共享场景,BI分析场景等。(2)实现多种接口形式:API,ET1.接口,数据库,离线下载。(3)实现将注册平台数据源的数据对象转换为AP1.接口的形式,并实现接口查看、编辑、删除等功能。(4)实现选择数据源、多表级联、自定义设置查询条件和显示列生成接口。(5)实现接口的测试,停止和发布等功能。(6)实现接口的申请和审核流程。(7)实现多种AP1.接口数据形式,包括:JSON、TXT等。
31、(8)实现线下电子文档转换为接口功能。(9)实现接口数据全员和增量获取方式.(10)实现接口分类管理.(I1.)实现接口的多重安全认证方式,包括不限于:密钥验证、token认证等.(12)实现接口访问时效控制。(13)实现接口加密功能.实现敏感数据进行加密传输.14)实现增城申请,例如开发者在同一张表提交多个字段申请,能够识别之前申请的字段,仅绐管理人员显示需求变更的字段内容,在审核时实现选择字段进行批量通过或退回.(15)实现文本数据的在线申请、审核功能,例如业务部门可在线获取最权喊的数据,审核通过后可直接下载为EXCe1.文件或者CSV格式文件,无需编程解析。3数据共享开发管理。(I)实现
32、业务系统的注册功能,注册信息包括系统名称、IP地址和系统描述等。(2)实现业务系统的接口的申请、修、查看、删除和测试功能。(3)提供申请接口API信息及AP1.使用示例在线查看的功能,包括PI的访问地址、调用方法、参数命名、错误代码和示例代码。4)实现接口开发规范和开发DEMO在线查看的功能。(5)提供平台使用帮助在线杳君的功能。9平台监控1.实现对平台运行健康情况的监控,包括杳看系统负载,杳看系统异常信息,查看接口异常报警,查看黑名单信息,可自定义时间段统计业务系统访问平台系统信息,接口信息,查看使用平台的应用和没使用平台但已经注册的应用统计信息,并且所有统计信息实现下钻查看。实现以业务系统
33、为视角,查看系统的接口使用健康情况。实现接口调用日志杳看。根据接口名称、接入系统、时间段进行查询,查看日志详情。实现用户的平台操作日志查看。3.数据协同管理平台实现基于数据标准、数据质量、元数据、数据建模,数据安全,数据资产等方面进行湖仓体化的数据协同与融合管理,辅助数据治理整体服芬过程,建立跨部门、跨业务域的数据协同管理(OA)平台和流程体系。字号模块具体技术(参数)要求.1总体要求为满足学校一体化协同管理要求,本次数据协同管理平台须架构于湖仓管理底座之上,充分运用湖仓管理底座的底层数据库能力,并完成与相关数据库的兼容对接适配工作,这些适配费用应被合理计入投标成本中,不得再向学校或第三方机构
34、收取费用。【投标人须提供对应承诺函,并加盖投标人公章】2数据标准管理1、可在线管理标准数据元素,定义标准数据元素的英文名称、中文注解、数据类型、数据长度等属性。2、支持将标准数据元素与代码表、编码规则、安全级别进行绑定.绑定后,当在数据模型中引用该数据元宏时,绑定的要素应自动跟随数据元素在数据模型中生效。3、针对某个数据元素,可查看引用了该元素的所有数据模型的名称“4、可自动生成标准数据元素的链接图谱,显示该数据元素的各项属性、各种绑定要素、引用该数据元素的各个数据模型.5、支持对标准数据元素集合进行版本管理,指定主版本作为生效版本。6、支持批量导入、导出标准数据元素。7、可在线管理标准代码表
35、,定义代码表的英文名、中文注糅、代码项、代码值。8、支持将标准代码表与标准数据元进行绑定。9、可查看所有引用了该代码表的表名称和字段名。10、支持对单个代码表的内容变化进行版本跟踪,每当内容发生变化时,自动生成新的版本,并留存历史版本的内容。11、支持对标准代码表的集合进行版本管理,指定主版本作为生效版本,可对不I司版本进行内容差异比对,比对后可显示存在差异的代码表名称、代码项名称等详细信息。12、支持批量导入、导出标准代码表。3数据质量管理1、要求具备数据质量规则管理功能。可定义数据质员规则以描述数据质量不合规的形态。要求可从完整性、准确性、一致性、唯一性、及时性五种维度进行质量规则的配置。
36、要求可以通过质量规则的定义,既能够描述数据形态格式方面的显性问题.例如数据缺失、数据亚复、数值超限、格式钳误、长度错误等情况,也能够描述需要通过表间校验才能发现的夏杂性、隐藏性问题,例如代码错误、枚举错误、表间数据不一致、数据不符合正常业务逻辑等情况,还能够描述数据流转过程方面的问题,例如数据同步间隔不符合业务要求,等等。2、投标人需要具备对数据质量规则的充分储备积累,可提供常用的数据质量规则库井内置在产品功能中以便自动化匹配调MJo要求系统内置的脑量规则模版数量不少于50个,可覆盖全部五类质量维度,并支持自定义新的规则以扩充质量规则库。3、支持将数据旗量规则绑定到指定的表及字段上,作为数据质
37、址检查的依据.支持在一张表中指定多个检查字段,支持对一个字段绑定多个规则。质属检查时,要求针对每一对“字段-规则”绑定关系分别输出对应的问网数据。4、对于已经绑定了代码表的字段,支持键生成代码仃效性规则,并自动将代码有效规则绑定到该字段上.5、要求系统可基于数据对象上绑定的质量规则,执行数据质量检查动作,从而完成旗量检查,输出数据版量报告,揭示具体的数据问即。须支持定期自动化检包,定期输出各个时点的数据质量报告。检杳的间隔周期要求可自定义配置。6、支持不配置调度即刻执行检查,以便尽快输出检查结果.7、为了实现对数据仓库的不同层级进行数据质地检铿,系统需支持将对下游数据绑定的规则根据数据加工链路
38、关系自动回溯绑定到上游的数据对象上,而无需重第绑定操作。8、支持自定义数据质量的量化评分规则,可通过调整各个质量维度的权重生成不同的员化评价规则。支持预置多套不同的评价规则,可在不同的质量报告可应用不同的量化评价规则,以满足对数据质量的个性化评价要求。9、支持将数据班量检查的结果按照检查的数据对象所对应的部门、业务系统口径进行自动归集,生成以部门、业务系统为单位的数据航量报告。10、要求数据明址报告给出各个质量维度的分值及明址综合评分,统计各个规则对应的问题数量,并针对一张表的各个字段卜绑定的每条规则,分别输出问题数据的比例、数量,并支持查看每一类问邀数据的详细列表,以便启动数据纠错工作。11
39、、支持将质量报告导出为其他格式供线卜直阅,支持的格式包括电子表格、PDF、网页等。12、支持将质量报告通过电子邮件、即时消息等形式通知到相关人员,并支持部门针对数据质量报告所体现的问题进行线上反情.13、为满足数据质量报告的灵活管理需求,须支持率成自定义的脑量报告.可手工指定数据表的范围、质量规则的范围、应用的范围作为自定义侦量报告的内容组成,并可自定义指定报告的接收人。14、要求基r不同时期的数据质量检查情况,对各部门、各系统的数据质量情况进行排名,对变化趋势进行持续跟踪,通过可视化界面进行展示,以便了解各个部门提升数据质员的动作和成效。支持选择不同的时间跨度行看各部门、各系统数据质量的变化
40、趋势情况。15、要求从全局对我校数据质量情况进行持续跟踪检测,对数据检杳的范囤、规则、分数、检测次数、问题数据量、合格率等指标进行全局统计分析,并通过趋势图进行动态展示。支持选择不同的时间跨度查看全局数据颓量的变化趋势情况.4元数据管理1、可以对表、视图、存储过程等各种数据时象进行分类和管理。支持自定义分类名称、分类层级,不限分类层级数。2、可对每个数据对象的详细元数据信息进行管理,包括字段组成、字段屈性、字段含义注择、数据充实度(字段级)、数据来源(字段级)。3、可对每个字段进行绑定代码表、设置数据来源(字段级)等操作。4、对字段设置数据来源信息后,对应的表对象数据来源信息应自动同步更新.如
41、果一个表中不同字段有不同的来源信息,表的来源信息应完整显示多个来源信息。5、支持对每个数据实体的表结构变化进行自动跟踪,每当表结构发生变化时,自动生成新的版本,并留存历史版本的内容。可随时杳看每个版本的时间和具体内容。6、可自动构建生成整个数据仓库的全同数据潦向图,以此现整个数据仓库的数据上行、下行流动信息。7、流向图中,应可呈现从每个部门、每个业务系统采集到数据仓库的数据量、数据内容和接口方式,以及数据仓阵向每个部门、每个业务系统提供数据服务的数据量、数据内容和接口方式,8、流向图中,可以对从各部门、各业务系统采集的数据内容进行下站显示详情,包括每个采集接口的运行状态、源库/表、目标库/表、最近执行时间、最后一次数据变化量等信息,并可以直接定位到每个ET1.接口的管理界面。9、流向图中,可以对数据服务的内容进行下钻显示详情,包括每个服务接口的运行状态、数据清单名称、源库/表、目标降/表、最后执行时间、最后一次数据变化量等信息,并可以直接定位到该数据清单或ET1.接口的管理界面.10、可自动构建生成每个数据实体的全链分析图。全链分析需揭示每个数据实体的血缘分析(上游加工来源)和影响分