XX大学一体化智能化公共数据平台功能要求.docx

资源描述

《XX大学一体化智能化公共数据平台功能要求.docx》由会员分享，可在线阅读，更多相关《XX大学一体化智能化公共数据平台功能要求.docx（9页珍藏版）》请在课桌文档上搜索。

1、XX大学一体化智能化公共数据平台功能要求分类功能要求及描述公共数据平台1 .平台管理升级。数据平台支持Rangr、LDAP等组件控制数据权限，支持库、表权限控制。项目空间支持一个项目自由切换多个产品（离线、实时、API）统一管理各类共性信息。2 .数据资产扩充。数据标准方面，基于一期的数据标准，二期对整体数据标准进行扩充。数据服务平台集成统一身份认证，实现单点登录。提供系统公告能力，对一些基础表结构变更、平台升级等事项提供更方便的通知方式。数据资产平台完整链路将通过一张图可以完整展示出来。增加数据元数据变更提醒提供短信等多种方式。对数栈CDM层扩充，增加微计算、微服务。3 .消息管理。数据服务

2、平台提供短信消息提醒功能。数据平台提供消息管理功能，支持TOPiC创建、删除、监控等功能。4 .数据纠错研判。提供数据纠错联动功能，发现的数据问题，直接通过消息提醒方式通知源头的数据管理员针对有问题的数据进行修复。基线告警，任务发生错误、延迟等情况时，自动预判，并提前发出告警，提醒用户即使处理异常，保障数据产出。告警列表，管理可以查阅所有已告警所有时间，并能查阅具体告警内容。5 .数据安全管理：数据APl加入国密传输，同时整个平台及本期建设数据资产管理子系统的密码存储、加密均会采用统一的国密算法加密。对数据源授权进行细分控制，对数据源可以授权到具体某一个项目，将数据源指定到项目粒度。6 .网办

3、数据迁移。老网办数据迁移到新网办，约300种服务类型，全部通过api接口方式迁移，需敏捷提供每种服务类型返回的结果数据的完整key值。对于老网办的所有数据集统一开发一个数据输出接口，服务类型作为入参参数，新网办采用轮训方式对接口进行调用，将返回的数据结果进行转换及处理，并写入至新网办数据。7.数据标准扩充：对整体数据标准进行扩充。需要对学工、学科类等非教育统计报表数据标准进行修订，完善统计类数据标准。数据标准扩工作包括对指标进行梳理、确认、确权、发布操作。主题数据仓建设1 .调研并获取主题数据仓中所有指标统计口径和基础数据层对应数据表，根据最终确认统计口径和数据源，同步基础数据表至主题数据仓中

4、，并设计数据指标模型（维度、事实表、周期），进行转换指标开发，生成主题数据仓中所需要的原子指标及衍生指标，并完成数据服务平台任务发布。2 .党建引领主题数据仓。从一期基础数据中提取党建相关的所有明细数据，基于明细数据建立党建队伍、党建活动、党建研究、党建惩罚类主题数据模型，根据确认好的指标统计口径、开发维度表及相关事实表，完成主题数据仓的原子指标及衍生指标开发工作，并完成所有指标任务发布工作。3 .办学资源主题数据仓。从一期基础数据中提取办学资源相关所有明细数据，同步至主题数据仓中，并根据办学设施、办学平台、办学经费关主题数据模型，设计并开发维度表数据以及事实表数据，完成主题数据仓的原子指标及

5、衍生指标开发工作，并完成所有指标任务发布工作。4 .人才培养主题数据仓。从一期基础层数据中提取人才培养相关所有明细数据，同步至人才培养主题数据仓中，并根据招生信息、培养学生、思政教育、课程教学、学生竞赛数据、毕业就业数据类数据模型确认的指标统计口径，开发对应维度表及事实表，完成主题数据仓的原子指标及衍生指标开发工作，并完成所有指标任务发布工作。5 .师资队伍主题数据仓。从一期教师域、财务域中提取师资队主题数据仓相关的明细数据表，并根据教师队伍数据、师德师风数据、培训进修数据、国际水平数据类这类主题数据模型，设计和开发对应维度表和事实表，完成主题数据仓中原子指标、衍生指标的开发以及所有数据模型、

6、指标任务发布工作。6 .学科建设主题数据仓。从一期教务域、学生域中提取学科建设主题数据仓相关的明细数据，并同步至学科建设主题数据仓中，并根据授权学科数据、重点学科数据类、学科排名数据类、学科经费数据类、学科交流数据类主题数据模型，设计并开发维度表和事实表，完成主题数据仓的原子指标及衍生指标开发工作，并对所有模型和指标任务进行标准发布。7 .科学研究主题数据仓。从一期科研域、教务域中提取科学研究主题数据仓的明细数据表，根据科研队伍数据、科研平台数据、科研项目数据、科研经费数据、科研成果数据数据模型，设计并开发对应维度表及事实表，完成主题数据仓的原子指标及衍生指标开发工作，并对所有模型和指标任务进

7、行标准发布。8 .国际交流主题数据仓。从一期基础层中提取国际交流主题数据仓所有明细数据，根据交流人员数据、交流项目数据、交流机构数据、交流成果数据模型设计和开发对应维度表及事实表，完成主题数据仓的原子指标及衍生指标开发工作，并对所有模型和指标任务进行标准发布。9 .社会服务主题数据仓。提取一期基础数据层中关于社会服务主题数据仓所有明细数据，并根据产教融合数据、成果转化数据、服务社会数据模型确认的指标及统计口径，设计和开发对维度表及事实表，完成主题数据仓的原子指标及衍生指标开发工作，并对所有模型和指标任务进行标准发布。10 .声誉影响主题数据仓。提取一期关于声誉影响主题相关的明细数据，同步至主题

8、数据仓中，并根据数据学校声誉数据类、校友声誉数据数据模型，设计并开发对应维度表及事实表，根据确认的指标口径，从明细数据加工完成主题数据仓的原子指标及衍生指标，并完成指标任务发布。11 .主题库的建设必须符合温大主题库标准建设，必须包含对每个指标来源、计算逻辑、技术口径进行全面梳理并形成标准文档。1 .五育预警专题。从数据公共服务平台中提取学生成绩数据、学生基本数据、学生上课数据、学生出入校轨迹数据、学生图书借阅数据、学生参加活动数据、学生获奖数据等等，通过算法模型训练得出温大所有学生学.业五育方面所有预警数据，这些数据再回流至公共数据服务平台，形成五育预警专题数据库。2 .就业专题库。对毕业生

9、去向、公司、行业、岗位、专业进行分析,将分析结果数据存放至就业专题数据仓，该数据数据仓统一服务于就业岗位推荐算法，直接通过该主题数据仓获取数据进行分析,再讲分析后数据回流至就业专题数据仓中。专题库建设3 .科研项目及人才专题库。基于结构化数据分析并进行二次标注，形成特有温大人才专题数据库，包括教师科研方向、关键技术点、专业方向、论文数据、科技成果数量科技项目与人才匹配算法之后获取项目与人才匹配数据，将回流至科研项目及人才主题数据仓，包括人才与项目匹配项目，技术难点匹配点、专业方向匹配点、匹配论文及著作等等数据。4 .学生画像专题库。主要围绕学生唯一ID关联所有数据，设计不同维度及相关指标数据，

10、例如每日在校时长，缺课次数，晚归次数，借阅次数等统计指标，同时对学生参与社团，参加校内外比赛等其他数据进行分析和挖掘，将个人的行为指数、学习指数、餐饮指数、消费指数等标签数据回流至师生主题数据仓。5 .教师画像专题库。主要以老师为核心，设计不同维度及相关指标数据，例如教师基本信息，以及汇总类数据如科研项目数量，学期上课数量，教学成绩，获奖次数等教师相关数据，对于教师标签数据也统一纳入到主题数据仓中。6 .心理预警专题库。有关于XX大学学生心理相关所有数据以及通过预警模型发现心理预警学生数据，统一建立专题数据库。7 .技术知识专题库。论文、著作、学术、项目技术以及通过技术谱系模型生成技术图谱，统

11、一存储至技术知识专题库，未来用户可以通过专题库快速查询找相关技术对应项目、教师、论文等相关数据。算法建设一、在线可视化建模及调参数1.支持可视化编辑与拖拽，可视化工作流运行数据流实时显示，运行结果数据可视化显示，离线训练定时运行，模型在线部署以及系统私有化部署。2 .通过组件拖拉拽组成完整的可视化实验流程，完成可视化建模。3 .支持组件参数配置：配置各个组件的字段设置、参数设置，完成组件设置。4 .支持组件运行资源配置：配置各组件的运行内存、并发数。5 .支持自定义脚本，和自定义算法组件。二、NoteBook建模1.支持基于WEB的Python、PySPark、TeKSorFIow、Keras

12、、PytOrCh代码开发、运行。2 .支持本地的PythorisPySPark、TenSorFIow、Keras代码打包上传运行并进行模型训练，包含单个Py文件、ZiP包两种形式。3 .JUPyterLab数据探索：集成开源JUPyterLab,可进行PythOn、PysparkR的算法探索，并进行JUPyterLab使用资源的监控。4 .支持不同代码间进行相互引用。5 .任务参数配置：支持在代码中写系统参数与自定义参数，任务运行时会自动替换为具体的日期或值。6 .环境参数配置：支持配置代码的任务的运行参数，如任务优先级、运行内存等。7 .代码import：支持代码间进行模块与类的相互引用，可

13、进行代码Importo8 .批量创建任务支持根据参数模板，一次性批量创建多个任务代码，不同任务采用不同参数的代码任务版本记录及回滚：支持记录任务提交版本，可查看版本提交记录，并支持版本对比，将任务回滚至某个老版本。9 .增加任务锁功能，防止多人修改一份代码，造成代码混乱。三、算法组件库1 .支持Hive、MySQL/PostgreSQL.Oracle、CSV/JSON等数据源。2 .支持归一化，缺失值填充，二值化、主成分分析、奇异值分解、乔列斯基分解，异常检测LOF,特征尺度变换、特征异常平滑等通用数据预处理技术。3 .支持朴素贝叶斯、决策树、随机森林、梯度提升树、BOoSt分类、逻辑回归、支

14、持向量机、K邻近等通用分类算法。4 .支持线性回归、广义线性回归、梯度提升树等通用回归算法。5 .支持k一均值、二分k一均值、高斯混合等通用无监督聚类算法。6 .支持循环神经网络、卷积神经网络等通用深度学习网络构建与调试。7 .支持词频TF、逆文档频率IDF、词频向量、分词、WOrd2vcc、应用词向量等。8 .支持单变量数值特征统计、二变量数值特征统计、二变量类别特征统计、计算权重等统计相关算法。9 .支持FP-GroWth、PrefiXSPan等算法、应用关联规则。10 .支持分类性能、二分类性能、回归性能、聚类性能、X-验证、优化参数（网格搜索）验证与评估方法。11 .组件库包含成熟算法

15、组件，例如推荐引擎组件、岗位推荐模型组件、专业岗位词云组件。四、计算引擎12 支持按需支持HadoopMRSparkMLTenSorFIow、PyTorchBigDL等异构计算引擎。13 支持按需支持超高维特征规模训练；支持InteIMKL软硬件加速；支持GPU/FPGA加速。五、数据引擎1 .支持结构化数据如Hive、阿里云MaxComputesMySQL/PostgreSQL等;支持非结构化数据如OSS、S3、HDFS等。2 .部署管理。3 .支持一键式任务部署和管理。4 .支持模型在线部署,支持适配PMML,TenSOrFlow,ScikitTearn,IightGBM,XgboOs,P

16、yTOrCh的模型部署，苴持多模型串联部5 .支持Docker独立部署，支持部署管理、镜像管理、集群管理和组管理以及多层级监控服务。6 .支持算法模型定时跑批，支持天、周、月、小时、分钟级别的更新。7 .支持单个模型和PiPline部署，以及支持多版本部署。8 .支持模型监控，可查看模型调用次数、调用耗时信息。9 .支持模型ABteSt和灰度部署。场景建设1 .学生画像模型。基于聚类、主题模型等标签生成技术和分类模型等标签预测技术实现对学生的自然属性、社会属性、兴趣偏好、身心健康、动机等全面立体刻画。2 .学业群体特征模型。利用聚类模型、多维统计模型、决策树模型等分析学生学业群体特征，总结容易

17、挂科的学生共性，不易挂科学生共性，对学业需要预警人群特征提取。3 .学生学业预警。基于温大目前学业警告、学业处分的规则，并结合每个学生考试预测成绩，在每个学期前找出学业预警同学，并将这类学生信息推送给辅导员及课程老师，从而方便辅导员及老师及时进行对异常学生的课程学习跟踪和处理，降低挂科概率。4 .学生心理预警。建立心理预警模型，筛选出出现心理危机的同学，并打上标签。5 .学生运动预警。对现有学生进行聚类分析，从现有学生中找出缺乏体育运动、运动过量的学生，并对这些学生打上标签。6 .学生德育预警。构建德育预警模型，依托该模型来对学生道德状况作出判断，得出哪些属于正常、合乎德育目标，哪些是不正常、

18、不合乎德育目标的评价结论。从现有学生中找出德育发展偏移正常轨道的同学，并对这些学生打上标签。7 .学生美育预警。建立学生美育预警指标体系，并构建学生美育预警模型，对现有学生进行聚类分析，从现有学生中找出缺乏美育教育相对比较薄弱的学生，并对这些学生打上标签。8 .学生劳育预警。构建学生劳育预警模型，依托评价模型对学生劳育状况作出判断，得出哪些属于正常合乎劳育目标，哪些不正常不符合。从现有学生中找出老育发展上出现严重偏离轨道的同学，并对这些学生打标签。9 .老师画像模型。基于教职工编号ID,打通与教师相关各业务系统数据源，关联基本信息、授课记录、论文著作、科研项目、获奖记录、专业知识等数据，并对非

19、结构化论文、著作进行分析，对教师进行自然属性、社会属性、专业技能等方面进行打标。10 .教师及项目技术谱系模型。通过结构化知识挖掘等自然语言处理技术（NLP）对老师科研成果例如科研项目，获奖项目、论著，专利等进行摘要抽取和关键词抽取，建立技术谱系模型。也对现有科研项目涉及关键技术挖掘分析，建立项目技术图谱，为后续教师及项目技术图谱应用提供基础素材。11 .科研项目人才智能匹配。基于老师技术图谱模型，并结合老师的历史项目成果、研究方向，智能推送给符合该老师的科研项目信息，智能匹配学校老师与科研项目以及企业的科研服务需求，提升学校申请科研项目的成功率。12 .岗位推荐模型。基于学生专业信息和学生成

20、绩科研项目竞赛获奖情况等构建岗位和企业的人才偏好画像（专业偏好、技能偏好、经验偏好等）最终基于L2R模型对岗位和学生的匹配情况进行打分和排序实现精准的人职匹配。13 .实习实践企业推荐。针对大三、大四学生目前所在专业、目前学习成绩、日常表现结合目前采集到企业实习岗位需求，推荐适合这些学生企业岗位。14 .学生就业向导。通过岗位推荐模型对待毕业学生推荐最合适就业岗位，适合就业地区、适合就业企业方向等等，最终能提升毕业生就业通过率。15 .企业毕业生人职匹配。对于目前温大对接XX人才网招聘信息以及企业招聘信息，与目前毕业生专业方向，对企业岗位需求和学生就业匹配情况进行打分和排序实现精准的人职匹配。

21、学生方面获取适合自己专业方向最匹配的企业岗位。企业方面也能获取到最适合本岗位对应温大毕业生。16 .模型必须基于提供算法平台上进行研发，与省厅数据魔方平台对接。部门指标监测1 .科研处业务指标监测。用户可以通过指标可视化图表进行整体业务指标监测，通过可视化，指标包含不限于平台机构数量、横向项目合同经费、项目数、占比，论文数量、著作数量、专利数据、科研成果奖数量、各院系著作数量等。2 .人事处业务指标监测。指标监测内容包括但不限于教师总量，目标数量，专任队伍总量，教师博士数量，高层次人才目标数据，未来5年招聘人数，青年教师数量等。近5年人才项目，创新领军人才数量，高层次拔尖人才数，荣誉获奖人次，

22、正高级人才数，副高级人才数，学院专任比例，师生比，各学科教师数量，省部级人才项目等等。3 .学工处业务指标监测。指标监测内容包括但不限于当前本科生人数、博士生人数、硕士人数，本科住校人数，住校新生数，住校老生数，心理预警总人数，助学人数，近5年毕业人数，缺勤预警人数，各学院班主任师生比，辅导员师生比等指标。4 .就业处指标监测。指标监测内容包括就业岗位数量、就业岗位分布，岗位达成率、就业人数、就业去向、就业公司性质分布、就业地区分布、岗位排名等等。其他要求1 .本项目提供模型算法源码便于统一管理及维护。2 .投标人基于XX大学信息技术中心己部署上线的数栈工具，来完成对本项目的实施落地；基于各部门单位的建设需求快速响应，并通过数据可视化工具的功能模块完成具体的实施工作。

展开阅读全文