《统计局大数据统计平台建设方案(122页).docx》由会员分享,可在线阅读,更多相关《统计局大数据统计平台建设方案(122页).docx(119页珍藏版)》请在课桌文档上搜索。
1、项目编号:统计局大数据统计平台建设方案目录第一章项目概述51.1 项目名称51.2 建设单位51.3 编制依据51.4 项目背景51.5 建设周期816建设意义9第二章建设需求112. 1建设目标112.2项目建设需求分析112. 3平台性能需求分析15第三章应用支撑平台建设方案183. 1建设原则193. 2建设目标203.1 平台架构213.2 大数据平台功能233.4.1数据交换系统233.4.2数据质量管理293.4.3基础模型搭建343.4.4多维分析模型搭建353.4.5定制报表功能363.4.6自助取数平台383.4.7系统管理功能393.5数据库设计403.5.1数据库设计目标
2、413.5.2数据库架构413.6大数据处理设计433.6.1并行处理设计433.6.2数据算法提速473.7大数据存储设计513.7.1数据分级存储513. 7.2分布式数据库523.8软硬件配置543. 8.1选型原则544. 8.2容量估算555. 8.3投资估算61第四章应用系统建设方案686. 1应用系统功能架构684.1.2ETL工具694.2业务分析系统714. 2.1“三新”统计724. 2.2文化产业统计764 .3宏观经济预测系统865 .4应用系统配套工具91第五章系统安全设计方案935.1 区块链的数据安全931 .1.1区块链描述935 .1.2区块链数据保障945.
3、2互联网接入安全945.3集群系统安全955.3.1主机安全955.3.2操作系统安全965.4数据备份方案965.4.1备份策略965.4.2分布式系统备份975.4.3负载均衡97第六章项目招标方案986.1招标范围986.2评审办法建议986. 2.1评审过程987. 2.2评审办法102第七章项目实施进度Hl7.1 项目建设周期Ill7.2 实施进度计划Ill8. 3进度保障112第八章项目组织机构和人员培训1138.1领导和管理机构1138. 2项目实施机构1138. 3人员培训方案1158. 3.1概述1158. 3.2培训目标1159. 3.3培训方式116第九章项目风险与风险管
4、理11810. 1风险识别和分析11811. 2风险对策和管理1189.2.1项目风险识别1199.2.2项目风险估测1199.2.3项目风险评价1199.2.3项目风险应付措施120第十章编制单位介绍121第一章项目概述1 -1项目名称XX省统计局大数据统计平台1.2 建设单位项目建设单位:XX省统计局单位地址:XX省XX市XX,邮政编码:XXXXXX1.3 编制依据XX省统计局大数据统计平台建设方案编制的主要依据是:(1)2015年政府信息公开工作要点(国办发(2015)22号)(2)促进大数据发展行动纲要(国发(2015)50号)(3)国家电子政务工程建设项目管理暂行办法(中华人民共和国
5、国家发展和改革委员会第55号令)1.4 项目背景随着我国经济进入新常态,当前各种经济社会矛盾交织在一起,经济增长下行,压力不断加大,如何准确把握经济社会形势研判经济社会发展趋势并提出有针对性的政策建议,以及随着经济社会发展,各种新产业、新业态和新商业模式层出不穷,如何界定和测度新经济,这些都是摆在决策者面前的重要课题。在当今的经济生活中,认识和判断经济形势及其未来走向,是政府、企业和个人进行决策的基础和前提。科学的统计制度方法和真实的统计数据是客观分析经济形势、准确把握经济走势的重要基础,经济形势的客观分析和经济走势的准确把握是科学决策的重要基础,科学决策是经济持续健康发展的重要保障。因此,统
6、计是重要的基础性工作。统计要想在经济分析、科学决策和保持经济持续健康发展中真正发挥重要作用,一方面要根据不断增长和变化的统计需求进行统计制度方法改革,提高统计制度方法的科学性和适应性,提高统计数据的准确性和及时性;另一方面要充分利用大数据分析技术对丰富的统计信息资料进行深度开发,让这些资源真正体现出应有的价值。近年来,包括政府统计数据在内的大数据资源迅猛增长,已成为与自然资源、人力资源同样重要的国家基础性战略资源,成为促进经济增长和转型发展的新动力,成为提升政府治理能力的新途径。特别是进入信息化、互联网和大数据时代,大数据带来的一个重大改变就是信息扁平化,人人都是数据的生产者和使用者,对数据的
7、加工、采集、汇总、综合、分析、预测,比任何时候都要迫切。发达国家大力推动大数据发展和应用,纷纷将研究开发大数据上升为国家战略。党中央、国务院高度重视大数据的开发应用,大力倡导实施国家大数据战略,推进数据资源开放共享;运用大数据技术,提高经济运行信息及时性和准确性。这些都将有力推动我国大数据发展和应用。统计局作为组织领导和协调统计工作的主管部门,具有统计制度和标准制定、统计数据搜集、加工整理、开发利用、发布等方面的法定职权和技术优势。长期以来,XX省统计局的基本业务开展仍遵循制度设计、调查采集、数据整理上报、数据发布与开发利用的顺序流程,在统计调查方面采用全面定期统计,抽样调查、普查,重点调查,
8、典型调查等方法。近年来,统计工作信息化水平有较大提高,伴随着联网直报系统等信息化项目的应用推广,政府统计逐步实现了网络采集传输、集中存储处理、多工具分析。同时在长期的统计信息建设过程中统计部门积累了大量经济社会数据,政府相关部门也积累了海量经济社会数据。这些数据是价值连城的“宝藏”。但由于各种原因,统计部门自身只开发利用了一小部分,“宝藏”的大部分价值仍有待于进一步开发利用。2013年全国统计工作会议和随后召开的国家统计局务虚会要求各级统计机构和广大统计人员都要树立大数据意识,结合本专业、本领域、本岗位工作实际,主动思考如何应用大数据。要加强顶层设计,做好统筹规划,找准突破口,集中力量做好系统
9、攻关,加快研究利用搜索技术挖掘统计数据的方法,特别是各专业要本着先易后难的原则,充分利用互联网上已有的公开信息,充实拓展本专业的资料获取渠道。加快研究将非标准化大数据转化为标准化统计数据的方法,积极开发自动导入企业电子化生产经营记录的软件,加快大数据的应用步伐。从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据容易被整合、分析,原本孤立的数据变得互相联通。通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。XX省统计局大数据统计平台的使命就是通过加工整理、开发利用经济社会数据,为政府决策和社会治理提供科学依据,为促进经济社会发展服务。15建设
10、周期XX省统计局大数据统计平台项目分两期进行建设:第一期:将基于XX省统计局内部数据、其他部门数据和网络数据,主要服务于XX省统计局进行宏观经济预判、投资项目统计、“三新”统计和文化产业统计。第一期的建设预计招标时间大致需2个月,预计建设周期9个月,其中系统开发建设6个月,试运行3个月后正式上线运行。第二期:将基于XX省所有政府部门、工商企业和公民个人的交易数据,建立覆盖XX省全社会、全行业,服务于XX省所有政府部门、工商企业和公民个人的大数据统计平台。力争在平台建成后,接入国家信息内外网,成为国家经济预测预警有力的数据支撑平台。第二期建设需要调动XX省政府部门、工商企业和公民个人的所有数据资
11、源,因此XX省统计局必须得到省委省政府的高度重视和支持,获得搜集和发布全省所有统计数据的授权。1.6建设意义目前XX省统计的主要功能为提供统计信息、为经济决策提供数据支持及监督,现有统计手段由于直报系统,解决了数据实时性和相对准确性等问题,但依然无法解决数据来源单一、重复调查现象严重、数据间相互验证性薄弱、数据孤岛、数据丰富程度不够、数据规范性不够等诸多问题,上述问题严重影响了数据质量,使得统计数据的运用仅仅停留在领导决策宏观层面的初级判断,缺乏深入研究的数据基础,特别是基于微观数据基础的宏观经济问题分析研究;使得在发达国家本应作为经济决策预测预判依据的统计数据,在现阶段还不能高效精准的为我省
12、宏观经济决策提供服务,不能产生使各方信服的数据结果。为解决上述数据问题,打通各部门、各行业的数据壁垒,利用大数据时代无所不在的网络及其他数据佐证支持,使得统计局能够真正运用大数据实时挖掘技术,利用各种新兴统计算法对各行业、各部门数据进行深度挖掘,并实时对数据进行分析,使得这些数据形成有效数据结果,为经济决策者提供精准、客观、高质量的风险控制、科学管理和政策调控依据,从而使得决策者更科学的运用数据分析所得,准确判断经济发展趋势,并及时预判、防范经济发展中可能出现的风险点,从而使得XX省各级政府,能够利用统计局提供的预测预警数据体系,进入到精细化、服务化、预见化管理阶段,为社会经济发展提供有力支撑
13、。该项目建设使得XX省统计局所统计数据能够成为有多方数据来源支持,多种算法佐证,互相能够印证的数据结果,且该数据结果能够由最终数据端,同步形成对经济决策判断有效结果,且能够实时展现到决策端,为决策者提供实时决策依据。项目建成后,XX省统计局能够依托该数据实时挖掘分析预警平台对数据的有效运用,在经济发展中真正运用所统计数据精准服务、深入参与到经济发展决策中去,成为XX及经济发展辐射区域内经济发展预测权威、全面数据的提供者,社会管理和运行行政记录信息标准规范的制定者和各项数据结果的权威发布者。第二章建设需求2.1 建设目标XX省统计局大数据统计平台的建设目标是:建成将互联网云计算技术、大数据挖掘技
14、术、现代统计分析技术充分融合,集数据采集、加工处理、分类计算、分析预警、报告展示、管理服务等功能为一体,实现统计系统内部业务优化整合、行业数据管理网络有效融通、统计数据资源全面开放共享、充分满足社会各界数据需求,系统操作使用简便快捷高效、运行管理安全,可靠的权威性、动态性综合信息管理系统。XX大数据统计平台的性能要求包括: 更高可靠性、稳定性的“可管可控”集群; 更完整地实现与现有统计数据架构融合; 强大的内存分布式计算能力; 更高性能、更灵活的各类数据采集支持; 实现更快速、更灵活的业务开发、扩展; 为未来提供更好的扩展、扩容支持。2.2 项目建设需求分析XX省统计局大数据统计平台的最终建设
15、目标是在省委省政府的统一领导下,由XX省统计局牵头负责,利用统计局自身拥有的数据资源,力争打破数据孤岛,谋划工商、税务、金融、保险、交通运输、海关、财政、教育、医疗等各个行业数据资源的整合机制,加大对政府公开数据(含政府机构或准政府机构公共公开数据)、商业数据、互联网数据、通讯数据、物联网数据、金融数据等数据的整合力度,实现各部门、各行业、各区块数据资源的交互共享,并推动全省数据资源的整合,实现数据的共享和交互使用,满足XX省社会各界的主要数据需求,建成基于全省大数据统计系统的经济预警平台。根据XX省统计局当前的实际情况,该项目的建设拟分两期进行,本期建设主要基于XX省统计局的现有数据、其他部
16、门的开放数据和互联网数据,建设成服务于XX省统计局常规统计工作,具有宏观经济预判功能、三新统计功能和服务业统计功能的大数据统计平台。目前XX省统计业务依托于企业联网直报平台进行相关的业务统计,统计业务数据相对孤立、数据价值难于体现,各部门统计数据之间矛盾日益突出。现大数据高速发展,各项技术手段日渐成熟,期望依托大数据技术,探索出统计体系科学有效的数据收集、挖掘、处理平台,打通各部门之间的屏障,建立统一的标准规范体系、拓展数据获取渠道、整合各行业数据,实现数据之前相互验证,建立统计业务分类体系、通过数据建模手段实现各项指标经济预测。本期期望建设一套系统支撑平台及四套业务应用软件,具体需求如下:2
17、.2.1系统支撑平台建设建设一套先进、安全、可靠的大数据系统支撑平台,集成软硬件资源为业务应用系统的开发、整合、持续扩展和运行等提供基础性的共性服务。系统支撑平台提供构件级的框架服务,提供数据治理整合服务、并行计算框架、数据挖掘服务、数据安全及监控等基础支撑的平台。2.2.2业务分析系统根据实际业务建设业务分析系统,从而完成各种类型的业务统计。业务分析系统主要包括“三新”统计模块和文化产业统计模块等建设。(1)“三新”统计依据现有的统计制度,设置合理的统计指标,实现新产业、新业态、新商业模式专项统计。建设安全的数据采集模块,实现与省发展改革委、省交通运输厅、土地管理局、税务局等相关部门的数据实
18、时对接;建设分类标准体系模块,实现按照国家统计局新产业、新业态、新商业模式专项统计报表制度的指标、分组确定指标体系,确定统计口径及数据分类;建设“三新”统计数据挖掘模块,实现电子商务、旅游经济、物流配送、城市商业综合体等领域数据与相关的运营商、不同电商之间的数据交叉挖掘体系,分析“三新”经济的增幅、占比、结构、行业集中度、变化趋势等,分析判断经济的整体走势。(2)文化产业统计依据现有的统计制度,设置合理的统计指标,实现文化产业专项统计,建设安全的数据采集模块,实现与省发展改革委、省交通运输厅、土地管理局、税务局等相关部门的数据实时对接;建设建立统计、宣传联合指标体系模块,实现文化产业数据按照联
19、合国教科文组织的文化统计框架一2009的分类标准、对文化产品的生产、文化相关产品的生产、文化生产活动等指标进行数据统计,资源共享;建设文化产业统计数据挖掘模块,实现对历史数据的统计及数据建模,分析文化产业的增幅、占比、结构、行业集中度、变化趋势等,分析判断全省经济的整体走势。2.2.3宏观经济预测系统依据现有的统计制度,设置合理的统计指标及经济模型,实现宏观经济预测,建设安全的数据采集模块,依托省发展改革委、省交通运输厅、土地管理局、税务局等相关部门及其他安全来源的数据实时对接处理;建设经济预测模型,根据当前的经济运行状态数据、经济统计指标体系及历史数据,构建模型方程,确定模型所包含的变量、建
20、立经济变量之间的关系,确定模型的数学形式、拟定模型中参数的符号和大小的理论期望值,用以评价模型的估计结果;引入“三新”统计模块、文化产业模块分析结果,并考虑预判期间各种政策因素及突发事件对经济形势的影响,参照XX统计月报指标体系,提取部分关注度高及预判相对准确的指标,对宏观经济走势及发展方向进行预判。2. 2.4应用系统配套工具(1)分类挖掘与计算机系统依据业务统计制度,设置合理的统计指标,实现数据的分类、汇总、计算为一体的数据分析系统。(2)数据展现系统依据各种统计指标计算,建设统计报表编制和统计图形制作、输出、上报为一体的数据输出系统。实现数据查询功能、基本统计指标的计算功能、图形展示功能
21、、与。ffice的集成及导出功能。灵活设置查询条件,快速查找符合条件的记录;满足对查询结果进行排序、分组求和等操作;实现数据计算有关指标的最小值、最大值、平均数、分位数、方差和标准差等计算功能;实现数据发展趋势、各项目占比、指标间的相关关系、时间和空间分布等信息图形化展示功能;满足导出到office办公软件里进行编辑。支持常见格式(doc、xlscvshtmlxmltxt等)的导出,具有离线浏览交互式数据报表功能。2. 3平台性能需求分析2. 3.1一般性需求大数据平台应该满足下述性能要求:(1)可靠性。系统建设采用主流产品,以保证系统的高质量和稳定性;对系统如硬件、操作系统、网络、数据库应设
22、计尽可能详尽的故障处理方案,使系统在出现故障(硬件、软件、网络)时,能够快速恢复应用系统及其相应的数据。(2)安全性。充分考虑应用层的安全性,做好信息资源的访问控制;应用系统应能够提供用户权限配置及用户操作审计控制。(3)扩充性。系统采用分层结构设计,网络基础设施层、应用支撑层和应用层结构易于扩充。(4)易维护性。充分考虑系统软硬件及网络运行的实际情况,在系统总体设计上注意系统的可维护性;采用易于维护的系统平台;应用软件安装应简单、易于操作。系统数据维护方便,备份及数据恢复快速简单;系统软件配置体现自动化,避免复杂的系统配置文件。(5)可操作性。界面友好,充分考虑操作人员的特点,使数据处理工作
23、简单、方便、快捷。3. 3.2业务系统性能需求业务系统性能主要是指作业响应时间方面的要求,作业响应时间是指完成目标系统中的交互或批量处理所需要的响应时间。根据业务处理类型的不同,把作业划分为查询类业务和统计分析类业务,分别给出响应时间要求的参考值,包括峰值响应时间和平均响应时间。(1)查询类业务如信息查询、统计报表生成或决策支持的信息查询等。查询业务由于受到查询的复杂程度、查询的数据量大小等因素的影响,需要根据具体情况而定,在此给出三个参考范围。简单查询平均响应时间:不超过10秒;复杂查询平均响应时间:不超过100秒;极限数据查询时间:最大样本量时数据查询时间不超过3分钟;(2)统计分析类业务
24、一般统计时间:不超过30秒;一般分析时间:不超过30秒;4. 3.3数据检索性能需求根据数据检索方式不同,把作业划分为区块链元数检索、检索引擎检索和流式检索等要求,分别给出响应时间要求的参考值,包括峰值响应时间和平均响应时间。(1)区块链元数据检索数据检索并发:每秒600条记录;单条记录查询时间:不超过10秒;(2)引擎检索要求支持OLTP/OLAP双引擎,并且OLTP引擎支持十万级/秒的事务处理速度;(3)流式检索:要求支持流要就流式计算性能达到30万条/秒,并且支持高效Sql查询。第三章应用支撑平台建设方案根据XX省统计局当前的实际情况,该项目的建设拟分两期进行,本期建设主要基于XX省统计
25、局的现有数据、其他部门的开放数据和互联网数据,建设成服务于XX省统计局常规统计工作,具有宏观经济预判功能、三新统计功能和文化产业统计功能的大数据统计平台。4.1 建设原则根据国家电子政务建设的指导思想,结合XX省统计局的具体情况,项目的建设应坚持以下几项原则:(1)规范性系统设计开发遵循中国国家标准、信息产业部有关软件行业的通用规范、通用的国际规范及各子系统间接口标准,保证XX省统计局的各系统能够根据业务需要实现有效的连接。(2)开放性系统设计的各种接口在遵循规范性原则的基础上,保证其可以集成不同设备厂商、系统或平台供应商、软件供应商的产品;保证系统的设备管理、系统扩容和业务维护不依赖于单一设
26、备厂商、系统或软件供应商的产品。(3)先进性与成熟性相结合系统设计采用先进的流数据实时采集挖掘技术和手段,以保障系统具有高效、全面和稳定等良好品质。系统结构采用分布式、组件化技术和模块化的业务构造与系统构造方式。(4)扩展性系统设计应充分保证系统容量、处理能力和业务范围具有良好的扩展能力;应满足XX省统计局今后业务发展的需要,保护投资,避免重复建设。(5)易用性系统设计需要保证系统软件容易使用,界面简单易操作,能够使操作用户方便识别并易于操作,能够为各类用户提供良好的服务。(6)安全性运用区块链数据库保证系统在运营过程中管理的各种资料的安全,保证系统与其他相关系统信息交换过程的安全;保证系统业
27、务管理体系的安全。区块链数据库技术作为互联网底层安全保障,为数据服务提供分布式安全共性技术和“基础设施安全屏障”。对传统统计专业机构所涉及范围的互联网化新业态开发都将利用区块链数据库的定向追索性、分布式账本及留痕制,保障数据的安全性。(7)可靠性保证系统具有较高的可靠性和良好的容错性能,保证系统能够提供7义24小时不间断访问服务。4.2 建设目标XX省大数据统计平台定位于服务全省14个市州86个县区的数据采集,数据包括统计局的统计业务数据、相关部门数据(如:发改委数据,交通厅数据等)及互联网数据。数据采集之后,平台将对数据进行整合、清洗、汇总、分析对比、数据挖掘等一系列的数据治理活动。根据业务
28、的需求实现各种灵活专题统计任务(如:“三新”统计等)和宏观经济预测。平台提供良好的业务扩展能力,可基于已经整合的数据资源池实现业务制度订制,实现新业务制度的建立、编辑、管理、删除等任务的订制及发布,为业务统计提供友好的扩展接口,实现新增专题统计。5. 3平台架构应用层能力层数据层获取层数据源斗蹄构化、凝构化数据结构化数据图3-1平台架构图(D数据源大数据统计平台的数据包括联网直报数据、住建部门数据、国土部门数据、金融机构数据、税务部门数据、省发展改革委数据、省文化厅数据、省交通运输厅数据及互联网数据,是支撑整个业务应用系统的数据统计及数据挖掘分析。(2)数据获取层数据整理主要通过ETL及内容分
29、析实现数据的治理问题,确保数据的质量,保证数据的正确性、完整性、一致性、完备性、有效性、时效性和可获取性等,主要通过空值处理、规范化数据格式、拆分数据、验证数据正确性、数据替换等手段实现数据的整合。(3)数据层负责存储海量数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。数据加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。(4)能力层通过对原始数据进行整合汇总,形成上层可用的数据挖掘工具,平台能力层主要向用户提供实时数据处理能力、基础分析能力、数据挖掘能力、自助分析能力、数据共享能力等
30、,同时面向使用人员提供FTP传输、APl接口、SQLMDX语句使用能力。(5)应用层数据应用层存储不同的综合级别的数据,主要包括当前明细数据、轻度综合数据、高度综合数据。根据不同的报表分割不同的数据粒度,实现数据立方体的存储。根据统计的基础数据和各行业各领域的数据构造WEB资源池。根据业务需要实现各种灵活专题统计任务(如“三新统计”、文化产业统计等)和宏观经济预测。并可以根据新的业务需求,实现新增专题统计。6. 4大数据平台功能3. 4.1数据交换系统数据交换系统主要实现所有源系统中原始的业务数据进行采集,并对其进行一定的数据处理,并根据业务的需要分为实时数据采集和批量数据采集,实时数据采集不
31、能对业务系统有较大的负担影响到业务系统的运行,建议使用基于数据库日志的方式进行数据同步。整个过程按照主题进行数据重组和格式转换,传送并装载到大数据平台中。(1)数据采集大数据统计平台的数据包括联网直报数据、住建部门数据、国土部门数据、金融机构数据、税务部门数据、省发展改革委数据、省文化厅数据、省交通运输厅数据及互联网数据,支撑整个业务应用系统的数据统计及数据挖掘分析。图3-2数据采集流程图图3-3源数据分布1.统计局业务库数据统计局业务库数据主要包含跟统计业务相关的各类明细数据,数据时间粒度小、数据量大、数据完整,能够正确的体现各业务的状态。数据以结构化数据的格式保存在传统关系型的数据库中,各
32、业务系统库相对独立。2 .相关部门数据相关部门数据是以支持自身部门服务为导向的数据。数据集合了自身业务特点的指标,相关指标与统计局部分统计业务指标一致。为了拓宽统计数据的获取渠道、提高统计数据的样本量、增加统计数据考量维度使得数据的统计更加精准。因此,采集相关部门的数据成为本项目建设的一个亮点。相关部门的数据以结构化的数据形式存储到部门业务系统中。相关部门的数据采集主要包含以下数据:数据源数据描述统计局数据投资项目数据、交通运输统计数据、“三新”统计数据、文化产业统计数据、国民经济统计数据发改委数据项目名称、计划总投资、累计完成投资、本年完成投资、PPP项目进展情况、中央预算资金、专项建设资金
33、、企业债券等交通厅数据公路、水路、航空、管道运输企业、以及运输辅助企业等数据住建部数据新商品房可售面积、发放施工许可证面积、方法预售许可证面积、新建商品房成交面积、二手房成交面积等数据国土局数据土地出让面积、按市州及土地用途分组的各项分项数据金融机构数据中长期贷款、固定资产投资贷款、房地产开发贷款、个人按揭贷款等数据工商局数据企业、个体工商户、商品交易市场信用等数据教育局基础教育、特殊教育、职业技术教育、校外教育、成人教育、高等教育等数据卫生厅血站、社区卫生、食品安全等数据海关数据申报管理、审单作业、接单审核、出证管理等数据税务局数据建筑业营业税/增值税、房地产营业税/增值税、企业所得税/增值
34、税等数据表3-4相关部门数据表3 .互联网数据互联网的迅速发展使得人们的生活方式更加多样化,许多经济活动可以通过互联网方式完成。因此,通过采集互联网的数据来补充统计数据是本项目的又一大亮点。互联网的数据结构复杂,隐藏的信息丰富。数据类型主要表现为文本、图片、动态数据、flash、表格、悬浮数据等;数据的来源可以为PC网站、手机站点、微信、APP等。因此,通过网络爬虫技术实现对互联网数据的采集将更加丰富和完善统计业务数据。统计结果更加接近于实际的情况。互联网数据采集主要包括如下数据:数据源数据描述互联网电商类数据来自阿里巴巴、京东、淘宝、天猫等相关的电商统计指标数据互联网房产类数据来自58同城的
35、房产、安居客、Q房网、搜房网等相关的房产统计指标数据互联网消费类数据来自大众点评、美团网等相关消费统计指标的相关数据互联网分类信息数据来自58同城、赶集网等相关分类信息数据互联网招聘类数据来自拉勾网、中华英才网、智联招聘等相关招聘类数据互联网医疗类数据来自丁香网、挂号网等相关医疗类数据互联网交通来自携程、去哪儿及12306订票等相关交通类数据出行类数据互联网财经类数据来自新浪财经、凤凰财经、雪球等相关财经类数据互联网汽车类数据来自58同城二手车、易车等相关汽车类数据互联网信托类数据来自第一信托、宜信等相关信托类数据表3-5互联网采集数据表以上的三种类型的数据包含结构化数据和非结构化数据。其中结
36、构化数据存储在关系型数据库以两种形式对数据及数据文件两种形式体现;非结构化数据主要体现形式为图片文件、音视频文件等。根据数据的表现形式,可以分为关系型数据库数据及文件数据两个形态数据;针对这两种形态数据采集处理方式如下:关系型数据库数据开通数据库接口,如socket传输或Sqoop组件实现关系型数据库中数据与平台进行对接。文本文件数据数据文件可以通过FTP上传方式实现文件数据采集。根据部门业务库的安全保障体系规范,统计平台提供接口协议、鉴权方式、数据提取的流程定义统一的规范,转化成标准的数据格式。统计平台根据权限控制模块开通相关部门采集权限。根据业务对数据的时效性,数据采集分为实时数据采集、定
37、时数据采集及离线数据采集三种模式。(2)数据交换数据交换系统通过访问接口管理实现数据共享交换的统一管理和元数据管理实现系统数据资源的统一规划。1 .数据接口元数据访问接口元数据访问接口提供了对数据结构的统一修改、访问方法,通过元数据访问接口,应用程序可以调整资源库中各个组成部分的结构、约束关系,也可以掌握目前资源库的情况。数据访问接口数据访问接口为面向应用和联机事务处理系统提供统一的访问数据的方法,包括维护、查询、统计等数据操作。通过应用系统访问接口,应用系统只需要知道信息资源库的元数据,就可以实现对数据的访问,而与数据的存储、组织方法无关,这种实现机制有效的屏蔽了网络异构、操作系统异构、数据
38、库异构给数据访问带来的影响,保证了信息资源库的技术变化不会影响到应用系统的访问,从而既实现了应用的透明访问,又支持了资源库的不断发展和管理机制的不断完善。与外系统交换接口与外系统交换接口通过映射的技术,将外系统中数据导入到信息资源库中来,同时也可以根据外系统的需要,将信息资源库中的信息按一定格式导出到外系统中去。2 .元数据库元数据是描述数据的数据。通过元数据,应用程序可以知道数据以及数据之间的关系。应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据信息。统一的元数据管理能够保证数据从数据交换、数据建模、数据清洗、数据加载、数据存储、数据分析、数据查询、信息发布等全过程中的有效和一致
39、性,以及使核心数据能够在不同数据库和应用中共享和同步更新。为各种应用和数据库的信息共享提供服务。本期数据交换系统主要提供源数据采集及数据交换功能。以文化产业为例,数据源除统计局的业务数据外还包含宣传部的统计数据及互联网有关文化产业的数据。为保证数据质量,在新增数据接口前,通过制定相关政策与规章制度,以及从事数据管理规划、实施、管理、监控的团队之间协同工作,完成数据从原系统到大数据平台的采集存储工作。3 .4.2数据质量管理数据在数据存储层中进行集中管理。在数据存储层,数据是存放在两类数据库中:关系型数据库和多维数据库。(D数据整合通过数据获取层采集到数据后,对源数据进行一定的数据处理,按主题进
40、行数据重组和格式转换。由于源数据分散各自的业务库系统中,子系统之间使用的软硬件平台不同、字符编码及数据结构不同,导致数据难以统一。因此,数据需要进展数据抽取、数据转换、数据装载的处理过程,即ETL过程。确保数据进行数据存储之前,同类业务数据的一致性和完整性。数据抽取数据清洗数据转化数据加载工作流调度图3-6ETL工作流程图1.数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据大数据平台中去。2 .数据转换主要用于解决数据不一致问题,数据加载就是将从数据源系统中抽取、转换后的数据加载到数据存储层。3 .流程管理调度是E
41、TL过程中的统一调度者和指挥者,它把复杂的数据处理过程中各个步骤整合成一个整体。4 .异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套机制。数据进行ETL处理之后,生成规范的综合的业务统计基础数据。根据不同的业务分析系统的业务口径,进行汇总、生成汇总数据,在汇总数据的基础上再加工生成多维数据、报表数据和统计分析数据等应用数据支持数据使用层的业务系统调用。(2)数据治理原则图3-7数据治理原则1 .约束输入:设定用户输入权限及范围,做好输入约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列
42、表让用户选,不能再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不能产生有大量相同数据的表,造成数据重复隐患。2 .规范输出:统一报表指标与参考值,统一语义,统一口径,排除计算错误,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备案,语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程
43、申请注册一个新词到语义字典。(3)脏数据处理脏数据的种类有如下几种分类:01.数据缺失脏数据的种类02.数据重复03.数据错误04.数据不可用图3-8脏数据分类图1 .数据缺失:处理过程中因系统或人为导致部分记录缺失的,如一条记录里缺一些值(空值),或者两者都缺。如果有空值,为了不影响分析的准确性,则判断是否将空值纳入分析范围,或者进行补值。前者排除空值会减少分析的样本量,后者需要根据分析的计算逻辑,选择用平均数、零、或者等比例随机数等来填补。如果缺少记录部分,若业务系统中还存有这些记录,则可以通过系统再次导入解决,若业务系统内也没有上述记录,则通过手工补录或者放弃。2 .数据重复:相同的记录
44、出现多条,则去掉重复记录。如出现不完全重复情况,比如两条会员记录,其余值都一样,但部分值不同,如住址不一样,则以时间属性做为新值判断依据,如无时间属性的,则通过人工判断处理。3 .数据错误:数据没有严格按照规范记录。比如异常值,价格区间明明是100以内,但出现有价格二200的记录;比如格式错误,日期格式录成了字符串;比如数据不统一,有的记录叫XX,有的叫LZ,有的叫IanZhOu0对于异常值,可以通过区间限定来发现并排除;对于格式错误,需要从系统级别找原因;对于数据不统一,系统无法处理,这些并非真正“错误”的记录,如系统无法判断LZ和IanZhOU是同一事物,只能通过人工干预解决,如做一张清洗
45、规则表,给出匹配关系,第一列是原始值,第二列是清洗值,用规则表去关联原始表,用清洗值做分析结论,或通过近似值算法自动发现可能存在不统一的数据。4 .数据不可用:数据正确,但不可用。比如地址写成“XX省XX市西固中街1号”,想分析“区”级别的区域时还要把“西固”拆出来才能用。这种情况最好从源头解决,即数据治理。事后补救只能通过关键词匹配,且不一定能全部解决。基于数据交换系统采集文化产业数据之后,结合业务现状对源数据进行加工(脏数据清洗、数据整合,统一数据指标)。提高数据可用性。3.4.3基础模型搭建(1)搭建目标结合XX统计局业务情况进行,对已采集数据进行汇总,针对分析人员及领导重点关注业务及数
46、据分析习惯,对ODS数据进行轻度/重度汇总,搭建模型存放于WEB资源池中,为OLAP多维分析、定制报表开发、自主取数进行数据支撑WEB资源池互联网数据其门数据图3-9WEB资源池架构统计基础数据:轻度汇总数据,数据粒度较细,主要用于清单数据提取,OLAP多维分析统计综合数据:重度汇总数据,数据直接反映了某一指标总体情况,用于分析人员汇报、辅助领导决策。互联网数据:通过对PC网站、手机站点、微信、APP网络途径进行网络爬虫技术分析所采集的数据。相关部门数据:XX统计局相关合作部门数据。(2)建模依据根据XX省统计局相关规划,基础模型搭建主要围绕文化产业统计、“三新”统计、宏观经济预测四个方面进行数据模型建设。结合分析部门具体需求,对底层数据进行建模处理,将底层数据进行关联、汇总得到统计基础/汇总数据,数据存放与WEB资源池,用于支撑后续OLAP分析,报表分析,针对自助取数功能,分析人员可直接在页面通过拖拽方式对新增指标进行分析。3.4.4多维分析模型搭建通过搭建多维分析模型,可以有效的对全行业务数据进行更加灵活的查询,更加多样化的展现方式,更加丰富的数据探索能力。本期建设基于三新统计、文化产业统计、宏观经济分析四个方面的进行多维分析模型搭建,业务管理人员能够从多角度对信息进行快速、一致、交互地存取,并能够结合自身分析思路,获得对数据的更深