《XX学院全球信息采集与大数据分析科研平台采购需求.docx》由会员分享,可在线阅读,更多相关《XX学院全球信息采集与大数据分析科研平台采购需求.docx(12页珍藏版)》请在课桌文档上搜索。
1、XX学院全球信息采集与大数据分析科研平台采购需求一、采购清单采购标的名称数量具体内容数量单位全球信息采集与大数据分析科研平台1套多语种文献资料库8个外文网站的数据抓取、清洗和文本分析端口,全网搜索1项翻译机4台计算机辅助翻译软件系统1项二、采购内容(一)多语种文献资料库1.英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种文献资料库,包括数据汇入、数据共享、数据查询、小语种翻译、账号权限管理等主要模块,各模块功能如下:2 .数据汇入:采集数据汇入、用户资料编辑、上传;3 .数据共享:数据展示、查看、取用;4 .数据查询:搜索功能、主题分类;5 .账号权限管理:账号管理、角色权限、用
2、户分组管理、登录控制、账号注册。(一)外文网站的数据抓取、清洗和文本分析端口,全网搜索共1项,服务期2年。1 .采集内容使用爬虫技术,采集范围包括800个外文网站(外文网站目录由采购人提供),采集内容包括文章标题、时间、作者、正文、链接,采集频率为每天采集一次,数据每24小时更新,数据存储在本地,数据接入资料库。中标方须根据数据采集要求,在定向800个网站进行数据收集,使用语言包括英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语,并将所采集数据进行数字化转化,同时确保数据的真实性、完整性和合法性。2 .词语分析根据抓取的数据进行每周关键词、热词分析提示。3 .海外内容搜索接入全网搜索入口
3、、800个外文网站全部内容搜索入口,提供线路供搜索海外内容,外文网站域名由后台限定。4 .数据抓取要求(1)反爬机制要求为确保网络爬虫系统能够高效稳定地采集所需信息,需要满足以下反爬机制:1)使用代理IP网络爬虫应具备代理IP功能,代理IP应用于规避目标网站的IP封锁等限制,确保顺利进行数据采集。2)模拟登录网络爬虫系统应支持模拟登录功能,实现自动化登录操作,并保证账号和密码的安全传输和存储。3)分析网页源码实现网页源码分析功能,通过使用浏览器自带的开发者工具等技术,提取难以采集的页面中的所需信息。4)使用APl接口在可能的情况下,应优先使用目标网站提供的API接口来获取所需信息。(2)数据去
4、重和增量更新要求为保证数据的准确性和避免不必要的资源浪费,网络爬虫系统需要实现数据去重和增量更新功能。将爬取过程中产生的URL进行存储,并确保URL的唯一性,免重复请求。网络爬虫系统应对爬取到的每条数据进行唯一标识的制定,确保爬取的数据在持久化存储前进行去重,避免重复存储相同的数据。(3)分布式等问题要求网络爬虫系统需要支持分布式部署,以提高爬虫的效率、速度和可靠性。采用分布式爬虫技术,将爬虫任务划分成多个子任务,提高爬虫的效率和稳定性。(三)性能先进的翻译机共4台。拥有离线翻译、拍照翻译、语音速记、扬声器等功能,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、口语、韩语8个语种,网络支持Wi
5、Fi、蜂窝数据等方式。(四)计算机辅助翻译软件系统共1项。1 .支持语言数量在线翻译定向外文网站搜集到的内容,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语等70种语言。2 .文件格式支持pdfdocdocxxlsxlsxtxtpptpptx共8种文件格式。3 .文档翻译支持文本、文档翻译,自动识别源语言语种,支持OFFICE系列/PDF等多种文档格式翻译,翻译结果原格式、原译导出,支持30M以上文档大小。4 .翻译历史用户翻译历史记录留存、自主管理,支持通过语言方向、文档名称等条件检索。5 .用户管理授权用户登录后才可以使用翻译功能,翻译调用情况可以实时查看。6 .翻译页数20万
6、页(无时间周期限制,直至20万页用完为止)。7 .账号数量1个主账号+100个子帐号+3条vip专属通道+5条普通通道。(五)培训和售后服务提供相关用户培训文档,培训形式、时间等根据招标人要求确定。提供自终验合格之日起2年的质保,人员5*12小时响应。三、安全服务要求系统安全防护建设要按照国家关于信息系统安全管理有关要求及国家有关安全策略、法规、标准和管理要求进行,以风险评估和需求分析为基础,坚持适度安全、技术与管理并重、分级与多层保护和动态发展等原则,保证网络与信息安全和政府监管与服务的有效性。安全系统建设内容包括信息安全管理规章制度、资源安全、应用安全、系统安全、网络安全等方面。(一)安全
7、合规要求投标人设计开发系统的安全功能需满足国家法律要求、需要满足招标人的安全监管要求及网信系统安全标准,相关要求包括不限于以下:中华人民共和国网络安全法。投标人承诺交付的系统在通过以上合规要求时提供技术支持;如果遇到因功能缺失导致无法满足合规要求时,应立即响应并对安全功能改进。(二)安全管理要求投标人应采取必要的措施和机制保证设计开发业务系统的安全性。措施应包括不限于以下部分:(1)设置安全专员;(2)定期安全培训;(3)定期安全自查与改进。投标人承诺在项目实施过程中应遵循招标人制定的相关开发安全管理规范。(三)漏洞规避要求投标人应确保交付的成果不存在中高危漏洞和安全缺陷。(1)不得存在高危漏
8、洞包括不限于:注入漏洞;XSS跨站漏洞;已公开的框架漏洞;CSRF漏洞;非法上传漏洞;远程包含漏洞;远程执行漏洞;硬编码漏洞;水平权限、垂直权限漏洞;其他OWaSPtop10漏洞。(2)不得存在安全设计缺陷包括不限于:密码未加密或弱加密存储;已公开的框架漏洞;撞库攻击、密码破解遍历漏洞;恶意注册漏洞;验证码绕过;短信、邮件接口轰炸漏洞;伪随机;重放漏洞;敏感信息泄露;取回密码绕过验证。(3)投标人应采取必要的手段包含不限于:代码审计、黑盒扫描、人工渗透测试等方法对系统可能存在的漏洞和缺陷进行发现并修复。(4)投标人承诺交付给买方的系统已经经过全面的安全测试并已经修复。(四)信息保密要求1 .投
9、标人须提供相应的保密管理方案,从技术和管理上保证本项目技术和业务信息的保密性。2 .保密范围主要包括:项目涉及的合同、协议、设计、实施、服务等技术商务文件,图纸、沟通纪要以及项目涉及到的客户业务开展、结果等信息;投标人须具备完备的保密管理制度和监控机制,从文件产生、流转、归档各环节保证信息保密性。3 .保密方案满足中华人民共和国保密法、中华人民共和国保守国家秘密法、网信办保密管理的相关制度。4 .投标人在中标后需与客户签订保密协议。(五)知识产权要求在本项目过程中所产生的技术成果(包括项目中开发产生的个性化开发软件、技术诀窍、秘密信息、技术资料等)的知识产权、版权包括相关权益归采购人所有,中标
10、人协助采购人办理知识产权,未经同意,不得将涉及知识产权的技术秘密透露给第三方。(六)平台安全服务保障1.中标人服务器系统每周对平台进行数据安全备份(包含源程序和数据库),以及根据采购人需求做服务器数据隔天回滚恢复工作;5 .中标人服务人员每月15日、30日检查平台运行页面显示等情况;6 .中标人技术人员每月检查平台前后台程序/数据库安全问题,确保采购人平台防篡改/暗链修复,防止挖矿脚本,防止反射型XSS/DOM型XSS攻击,防止SQL注入漏洞,敏感词汇进行检测,木马程序感染,博彩病毒入侵,确保采购人平台全年正常运营;7 .随着技术升级更新,中标人对采购人平台新出现的BUG和漏洞进行程序升级和漏
11、洞修复工作;5.中标人检测平台整体与互联网安全情况,给到采购人整体平台安全建议与配合事项。(七)服务承诺落实的保障措施服务质量保障系统基于项目任务管理系统建立,提供项目维护期间的每一项服务过程的跟踪,包括服务工单派发、故障现象、到场时间、故障诊断、故障排除、离场时间、满意度调查等内容,并针对各项目服务内容实施过程评价、回馈、回访调查等。四、技术要求(一)技术1、系统应采用B/S模式,前后端分离和微服务架构进行开发;2、采用JaVa语言开发,符合J2EE规范;3、数据库需采用关系型数据库,支持Oracle、MySql,支持千万级以上数据的复杂搜索和统计;4、支持分布式部署,通过消息队列,集群管理
12、,负载均衡等方式对关键数据的访问进行加速,保证系统的正常使用;5、采用RBAC权限模型支持用户身份认证和访问控制,并对用户的关键数据进行加密,防止用户敏感信息泄露,系统需要采取防火墙保护和入侵检测等措施来保障系统的安全性。6、系统的开发过程需要遵循软件开发生命周期(SDLC)的各个阶段,如需求分析、设计、编码、测试、部署和维护等,以确保系统的高质量和稳定性;(二)性能1.稳健性和快速性(1)支持大于IoOO人并发用户;(2)保证7X24小时运行,对于软件更新、加载时不影响正常业务;(3)业务高峰时服务器内存不大于70%,CPU使用率不低于30%,不高于90%;(4)简单页面操作响应速度小于1秒
13、;平均延时小于3秒,最大延时不超过30秒,报表统计生成页面不超过15秒。(5)支持负载均衡、可扩展性,可支持系统弹性扩缩容(6)支持千万级数据的搜索与统计,对关键数据的搜索效率不得超过1秒。2.兼容性(1)能够最大限度地保证学校现有各种计算机软、硬件资源的可用性和连续性,以及学校未来应用的发展;(2)客户端支持ChrOnIe、firefox等主流浏览器;(3)前端服务器要求支持nginx、jetty,应用服务器支持各种主流应用服务器Tomcat等;(4)服务器操作系统支持各种主流操作系统平台,如WindowsLinux、Unix等;3.安全性(1)与防止对程序技术的非授权的故意或者意外访问的能
14、力有关的软件属性;(2)采用多种备份机制保证数据库和文件系统不因服务器故障导致数据丢失;(3)应用系统必须提供完善的审计功能,对系统关键数据的每一次增加、修改和删除都能记录相应的修改时间、操作人和修改前的数据记录;(4)应用系统必须支持操作失效时间的配置。当操作员在所配置的时间内没有对界面进行任何操作则该应用自动失效;(5)数据备份:支持系统内高速度、大容量自动的数据存储、备份与恢复;实现增量备份,即只备份那些上次备份之后更改过的文件;4.易用性(1)包括统一的操作风格、简洁的用户界面、智能的操作提示等;(2)对一些频繁使用的操作界面要考虑增强用户体验,如增加智能提示、自动完成等辅助功能;(3
15、)使用AjaX技术减少用户的等待或频繁刷屏等问题;(4)用户登录后点击不超过3次,即可访问业务所需要的功能;(5)普通用户的培训不超过2天、管理员培训不超过一周即可熟练掌握软件的操作技能;(三)技术开发方案1 .本项目拟采用的技术开发方案序号项目可选方案1应用及消息中间件服务器操作系统Linux内核系统2数据库服务器操作系统Linux内核系统3客户端操作系统无限制4数据库管理系统Navicat5开发平台Vue.jsJdkl.86开发技术SpringCloud,Springboot,Maven,Git,Redis,MySqLNginx,ElasticSearch7开发工具IDEA:JaVa应用程
16、序开发Navicat:数据库运维管理工具VSCode:设计页面版式、操作界面FinalShell:服务器运维工具sonarqube:代码扫描工具TAPD:项目系统BUg跟踪管理工具Git:项目管理工具2 .基本开发架构全球信息采集与大数据分析科研平台序号产品功能模块分项功实现的功能要求及参数台匕肥1前端页面展示设计规范L视觉呈现遵循统一的规范体系,体现页面设计规范性整体的统一性;2 .需求调研:对使用者,使用环境,使用方式,策划出最终用户合适的数据平台;3 .架构策划:整站架构,个性化页面架构梳理;4 .设计原型:根据需求调研,进行设计原型分析以及方案的改进;2登录、注册注册用户1.手机注册:
17、支持找回密码、修改个人信息、更改密码等3.用户登录:支持账号密码登录、短信验证登录3登录、注册及账号权限管理1 .配置不同账号查看全球信息采集与科研平台的权限,分发账号给对应人员2 .普通用户可前台自行注册,通过后或注册后可查看球信息科研数据库5资源稿件上传1 .用户可对全球信息采集与科研数据库进行在线投稿,投稿内容需要经过系统审核,支持敏感词检测等2 .支持用户上传本地文件以丰富全球信息采集与科研数据库,上传文件类型包括图文、视频等类型;6全球信息采集与科研数据资源检索1 .支持数据资源精准搜索与模糊搜索;2 .支持按稿件标题、描述、发文人、发布时间、搜索内容等进行筛选、过滤;7数据统计分析
18、1 .全球信息采集与科研数据库资源总量统计;2 .全球信息采集与科研数据库资源增量统计;3 .数据支持可视化报表展示8个人中心L个人资料:可查看、修改或完善个人信息(头像、呢称、所在单位等)2.账号信息:可查看个人账号信息支持修改密码9管理后台管理员系统权限部门管理/角色管理/菜单管理10管理权限1 .管理后台采取总管理账户及各分管理账户的权限设置;2 .可开设不同用户账号和密码,分设不同人员管理数据库不同模块;3 .具备权限的分账户可登录管理权限范围内的模块,但对于其他模块则不可见;13用户管理1 .列表页可查看所有用户信息2 .支持修改、删除、批量删除用户信息3 .支持通过关键词检索用户14全球信息采集与科研数据库列表1 .可查看所有审核通过后的资源稿件2 .可查看单个稿件的浏览量、点赞量等3 .支持查询删除、批量删除稿件4 .支持导出稿件、视频等资源15多端兼容展示1.默认制作网站以PC版电脑为主,即1920*1080的分辨率电脑;2.其余PC版兼容主流分辨率:16多语言支持多语版本1 .支持将指定语种的内容进行在线翻译;2 .支持多语种动态扩展功能,后期可根据客户诉求进行其他语言版本新增。17三方数据对接按照采购人的要求,为日后其他系统的对接开放接口,提供接口数据,服务费用包含在本项目总价中。