《中小企业如何做数据治理.docx》由会员分享,可在线阅读,更多相关《中小企业如何做数据治理.docx(10页珍藏版)》请在课桌文档上搜索。
1、中小企业如何做数据治理?关于数据治理,现在可以搜到很多的文章和资料,在研究了众多文章之后,发现大多数的文章常见大而全的框架图,方案上搭平台、建架构;案例上都是华为、阿里等头部企业。但是,大多数企业都不具备去实现这些复杂架构的基础条件,比如架构丰富度、数据基础能力、人才储备、内部流程完善度等。本文作者在互联网领域数据板块工作近十年中,长期作为数据治理项目的核心成员,对于数据治理的策略和执行效果有比较深刻的体会。同时在观远数据接触了比较多的传统行业头部企业、中小企业、新锐品牌等,发现中小企业有不一样的数据治理方法。针对数据化建设15年、专职数据团队小于20人的企业,怎么做好数据治理,是本文将要解答
2、的问题。内容目录:01.数据治理的价值02.数据治理的内容03.怎么做数据治理04.总结中小企业和头部企业做数据治理的区别05.常见的坑有哪些01.数据治理的价值为什么要做数据治理,数据治理解决的是什么问题?价值是什么?首先我们需要解决跟老板汇报的问题。很多企业的CIo或者Bl负责人意识到需要做数据治理时,常见是由于出现了指标乱、页面多、任务杂、权限管理不规范等问题,同时还可能伴随性能问题,比如页面卡顿,加载时间长等等。如果解决这些问题相对简单,就不用上升到价值输出层面。但是如果问题严重到需要撬动高层资源去形成一个项目,就需要有更多的价值呈现。在对很多企业数据治理的痛点与最终创造的价值进行收集
3、整理后,我们从四个层面总结了数据治理的价值,供大家参考:一、信息价值。数据系统的基本使用保障,避免高层或者业务方需要看业务指标时无法看数,无法做出运营决策。或者一个指标在不同地方出现不一样的结果,口径、范围等不对齐导致的内部信息传递异常。二、风险控制。规范的权限控制,对不同部门、不同层级的员工进行精准和一致的页面、数据表、任务权限管控,在保障必要的看数需求的同时,也避免数据泄露,满足内部风控部门要求。三、成本控制。出现服务器性能瓶颈,最快速有效的方式就是服务器扩容,但扩容有成本,大多数企业都不能接受无限制的扩容,数据治理本身也是在做服务器的成本管控。四、业务价值。数据治理最大的价值所在。我们发
4、现如果一个企业的数据开发都在IT/数据部门时,往往不会存在数据乱、需要治理的情况。需要治理的情况很多都出现在开发能力往业务团队渗透的阶段,也叫业务推广期或者业务自助分析期。这个阶段不只释放了数据部门同学的人力,也是数据价值飞跃的阶段,业务同学会全面基于数据结论来指导运营决策,甚至去自发地基于自己的业务问题,做更多的数据探索和深度挖掘。在这个阶段做数据治理,保障数据的稳定和规范化的使用,本身就是在极大程度地创造数据的业务价值。Ol020304图示1:数据治理的价值体现信息价值风险控制成本控制业务价值保障看数决策 确保信息准确合理分配权限避免信息泄露提升机器效率降低采购成本数据使用爆发 全面数据探
5、索02.数据治理的内容业内比较认可的数据治理内容可以参考DAMA(国际数据管理协会)发布的车轮图和DMBOK金字塔:数据架构管理数据质量规范数据治理元数据管理数据操作管理项目和服务交付估值文档和内容管理数据安全管理必略组织和角色政策和标准数据开发分析数据建模数据库设计开发数据仓库和 商务智能管理架构,培训和支持 实施监控和调优参考数据和主数据管理,外部规范内部规范客户数据产品数据维度管理/授权获取和储存备份;内容管理检图示2:DAMA车轮图阶段4数据集成和互操作数据安全数据建模 和设计数据存储 和操作数据仓库和参考数据文件和 商务智能和主数据内容管理高端实践阶段3阶段1数据治理数据质数据架构&
6、 2元数据阶段2图示3:DMBOK金字塔但是DAMA车轮图与DMBOK金字塔中的内容对于中小企业而言,既有内容和习惯上的不匹配,又有实际执行中的不够具象。观远数据的建议是重点从五个方面来做:数据表,任务,报表,指标,权限。当然企业实际执行需要考虑当下面临的问题来做选取和新增。具体需要做的内容可以参考下表:常见数据治理内容其他数据治理内容Mmi(大小,/!.保存期眼)数据表Ii擀分篇(dwmid.dm、dn.ten)(Mr主重)ttffl2Hk电据法02ft.Att.漕性)政我猿RX况任务期53偿时)任务侯表奴是(数18股使用含&慢)俄美系任务脑员任务布殁性冷任务性今彩*(CPU两行修HIMit
7、l长)ARB*(w,神精)三三17报表 99表GaB(数挖内容,翕,可柳化,stl) nMtt(冷) 归耳仅疑(Wl.Tdmdim层,以及按营销、商品、采购、仓储等域区分,同时有商品、部门、用户等主键用于权限隔离。 权限控制规范。不同层级表的读写权限控制,有公共库和业务库的区分,全量表和增量表的区分。任务标准化SqI或者etl任务,在执行过程中的读写操作,是性能消耗的最大影响点,同时也决定了数据表数量和数据量的生成速度。任务的标准化对于数据治理而言重要性非常高,可以考虑从以下三个方向: 任务本身规范。包括命名规范,执行规范,全量表增量表的使用规范等。 任务之间的规范。依赖关系要有且清晰,以及层
8、级清晰,层级也不宜太多。 性能最优。需要考虑单任务的执行效率,精准使用不同层级的表,以及不过度生产数据、不重复生成数据。在真正治理过程中发现性能异常的任务,往往都是因为没有做性能优化导致。报表页面标准化报表在企业内会被大规模使用,核心报告也在被高层关注,对报告的标准化管理,能很直观地体现数据治理效果: 分层报表管理。核心公共报表统一管理VS.自由报表单独域或者目录,移动端统一管理VS.PC端自由产出,部门级核心报告VS.次核心报告分层等。 目录规范。一般是建议按照业务属性、部门属性、项目属性进行划分,方便做权限管理。 页面规范。这个就比较细致了,包含对于表头,排版,颜色,字体,对齐,图表大小,
9、筛选器位置,统计表和明细表规则等等一系列的规范。指标标准化在数据治理中,指标的问题是看似简单但往往是问题最大的一类。我们常见的指标混乱问题,包括同样的指标多口径共存,口径范围不清晰,规则不清晰,逻辑不严谨等等问题,均需要做标准化处理: 指标和指标体系设计。参考阿里的原子指标、派生指标、衍生指标,不详细讲。 指标规范。需要从命名,口径,范围,逻辑,时间等等维度进行规范,建议做指标管理平台或建设企业的指标白皮书。 指标归属。核心指标归属IT/数据部门统一管理,并且需要做自上而下的宣导,以及统一性保障(错也一起错)。而业务部门自己开发的指标,在命名上就需要做一些区分,以及在使用场景上需要规避跟核心指
10、标产生信息冲突。权限管理标准化需要对指标、数据表等进行机密性分层,以及按不同部门不同层级的成员进行权限的划分,同时需要跟高层协商审批的规范,包含系统。r邮件申请,不同类型申请对应的审核人。容易忽视的一点是,报表的权限和数据表的权限之间,需要保持权限的统一。任何阶段的数据治理,标准化建设都是必不可少。中小企业对于这块容易忽视,在跑得快的过程中没有及时将规则制定清晰,会为以后留下不少坑。在做好标准化的设计后,下一步标准化的执行,难度会大很多,需要的是做一系列的流程建设,为标准化落实下去保驾护航,方向包含以下几点: 监控机制。对于任务、页面、数据表等,进行监控,以及针对异常项报警,邮件或消息提醒。
11、复盘机制。月度或季度进行项目的复盘,针对治理的效果、目标达成进行反馈,以及头部异常客户通晒。 责任划分。责任到人,各方分别需要做的事情和承担的责任进行同步。 培训机制。使用规范的培训,确保大家有统一的行为准则。 启动专项。拉齐相关方,拉高层站台,组织项目启动会,并且做价值和目标的同步。对于不同阶段的数据治理适用的方法,如下图:监控机制复盘机制责任划分培训机制启动专项S2阶段-容易协作S4阶段-容易协作S4阶段-较难协作3.4.数据治理究竟需要做成什么样?以及做多久?数据治理是重要项目,但是在企业内部却不一定是最重要的项目。投入人力也很容易碰到边际效应,因此也需要考虑投入产出。我们需要做的其实就
12、是抓头部、抓重点,针对核心有问题的个人进行专场的培训和案例分析,能解决很大一部分问题。同时,数据治理是一件长期的事情,前期可能有较多的例会和讨论,中后期会逐渐趋于稳定和平淡化,但依然需要有专人长期对这个事情负责,对数据系统健康度保持关注,做风险同步和及时止损。3. 5.数据治理专项的关键指标有哪些?怎么考核?常用监控指标 资源利用率:内存/CPU/硬盘使用占比 冷任务、冷页面、冷数据表、空数据表的数量 计算超时(分钟)任务数/页面数 报表页面加载时间 核心任务执行完成时间 依赖超5层任务数 无依赖的任务数考核指标一般没有特别通用的考核指标,主要看各个企业当下最核心的痛点是什么。比较常见的考核项
13、是上述的“资源利用率”和“报表页面加载时间”。3.6.可以用哪些工具帮助到数据治理?借助工具能辅助项目团队更高效地完成数据治理任务,尤其是对于技术团队。往往项目内需要的工具包括如下两类功能:资源管控类 数据源限制,设置角色/部门,新建权限/连接池个数/接入的数据源数量等的限制ETL限制,设置角色/部门,上线审核/ETL处理的数据行数等限制,优先级设置功能 存储限制,设置角色/部门的存储上限,以及公共存储池设定 算力限制,设置角色/部门的性能使用上限,以及灵活使用功能算力监控和报警类 实时资源使用情况监控 针对角色的使用触达上限时的报警 异常任务/资源使用报警 任务血缘关系监控 短信/邮件/外呼
14、等报警功能 智能运维的页面监控精炼好用的工具才会对项目有帮助,过多的工具反而会让大家用不起来。熟悉观远数据产品的同学一定能感受到,观远数据一站式智能分析平台自带的!云巡检功能其实能很好的帮助企业做好数据治理,并且本身的管理员配置界面中也有强大的资源管理和权限管理功能,让数据治理更加规范化、标准化。04.总结中小企业和头部企业做数据治理的区别05.常见的坑有哪些1 .认为是个技术问题。实际上,应该把数据治理当作一个管理问题,项目中真正难的,是部门间协同以及认知统一。2 .认为是技术部门的事。看主要问题产生的根源在哪里。如果在S4阶段,那么技术部门和业务部门都是需要关注的。3 .过度开发工具。在开发工具上投入过大,过度依赖工具,导致治理效率低下,实际上工具够用就行。4 .建立机制但是执行不下去。机制好建立,但是真正能高效是机制的落地执行和行为闭环,需要从上往下驱动。5 .短期达成目标后便忽视。这是一个长期的事情,需要长期投入人力做监控和预警,以及问题反馈和培训。6 .过度投入。其实处理好最头部的有问题的任务或培训好相关人员,数据治理就会有一个比较明显的进展,项目不宜投入过大。