《数据资产图谱关键资产识别研究.docx》由会员分享,可在线阅读,更多相关《数据资产图谱关键资产识别研究.docx(13页珍藏版)》请在课桌文档上搜索。
1、数据资产图谱关键资产识别研究中南大学唐健恒,李国统,段凯轩(I.中南大学计算机学院,湖南长沙410083;2.中南大学计算机学院,湖南长沙410083;3.中南大学计算机学院,湖南长沙410083;)周芳芳教授中文摘要:随着数据时代的到来,数据资产变得越来越重要,企业亟需寻求种有效的方法来管理和利用自己的数据资产。数据资产图谱是一种描述企业数据资产及其关联关系的点边双异质网络,可以帮助企业实现数据资产化运营,加快数据变现,方便企业智能化构建行业知识库以及快速构建数据运营能力。然而,由于数据资产的网络规模不断扩大,节点连边的数量越来越多,导致用户难以理解网络的拓扑特征,从而无法有效地挖掘、分析数
2、据资产图谱并提炼出图谱中高价值的信息。针对上述难题,提出了一种基于子图塌陷机制的可靠的数据资产图谱化简方法,用以克服现有技术中对数据资产图谱无法有效化简的问题,从而实现对企业数据资产的有效挖掘,更好地探索和利用大数据时代下数据资产的价值。英文摘要:With(headventofthedataera,dataassetshavebecomeincreasinglyimportant,andenterprisesneedtofindaneffectivewaytomanageandutilizetheirdataassets.Dataassetgraphs,whichdescribeanenter
3、prisesdataassetsandtheirrelationships,canfacilitateoperations,acceleratemonetization,andbuildknowledgebases.However,asthegraphsizeincreases,itbecomeschallengingforuserstounderstanditstopologicalfeaturesandextracthigh-valueinformation.Thisarticleproposesareliablegraphsimplificationmethodbasedonsubgra
4、phcollapsingtoovercomethisissue.Itenableseffectiveminingofenterprisedataassetsandbetterutilizationof(heirvalueintheeraofbigdata.关键词:数据资产:知识图谱;关键资产识别;图化简国家级大学生创新创业训练计划支持项目(7)作者简介:唐健恒(2002-),男,湖南永州人,数据科学与大数据技术,2020级,主要从事数据可视化等研究。李国统(200I-),男,河南南阳人,数据科学与大数据技术,2020级,主要从事大数据分析等研究。段凯轩(2002-),男,湖南娄底人,计算机科学
5、与技术,2020级,主要从事数据挖掘等研究。一、引言步入二H世纪,我们正处于IT(InformationTechnology)时代到DT(DataTechnology)时代转型的历史变革中,”数据即资产”俨然成为了这场变革中最核心的变化趋势和最广泛的思维逻辑。在这场变革中,数据不仅用于记录已发生的事情,而且还用于以惊人的效率和力量预测和驱动社会性的变革。在这个数据为王的时代,越来越多的互联网企业的关注重点不只局限于关于架构、开发语言、软件开发模式的选型,或对于网络、存储、安全设备这类硬件的创新,还包括自身的“数据资产”。2020年4月9日,中央出台了第一份关于要素市场化配置的文件中共中央、国务
6、院关于构建更加完善的要素市场化配置体制机制的意见,正式把数据列为生产要素,数据与土地一样有价值,具备登记,抵押,融资,交易等经济属性,这标志着对“数据即资产”的认同以及数据资产的定位已经站在了国家层面的高度,数据中潜藏着巨大的经济价值川或数据资产图谱是一种以数据资产为节点、以数据资产间关联关系为连边的点边双异质网络,用于描述一个或多个公司掌握的数据资产及资产间的关联关系,从而能够高效地挖掘与综合企业数据资产的价值,帮助企业实现数据资产化运营,加快数据变现,方便企业智能化构建行业知识库以及快速构建数据运营能力,从而实现数据增值化。随着现在数据资产的网络规模不断扩大,节点连边的数量越来越多,导致用
7、户愈加难以理解网络的拓扑特征,以至于无法有效地挖掘、分析数据资产图谱并提炼出图谱中高价值的信息。为了解决上述问题,现在经常采用例如图聚类的方法实现数据资产图谱化简阳,首先,通过定的指标将近似节点归并成群组,然后,根据该指标应用图聚类算法计算出所有的群组以及节点-群组的从属树型关系,最后,采用聚类节点等隐喻实现聚类树的可视化表达,并提供一定的交互方法以帮助用户进行可视分析。然而,在数据资产图中存在很多视觉上冗余的小结构,它们的拓扑特性基本一致,在数据资产图中表达的语义也相同,在真实场景中也发挥着相同的业务作用,这部分小结构在工业界和学术界上可称为结构等价子图,对于这些结构等价子图,无法有效寻找出
8、不同结构的子图类型,无法很好的进行子图分组,同时也不能有效识别子图是否同构且同质,因此,传统的图聚类化简方法无法实现有效的化简。针对上述难题,本文对数据资产图谱进行了全面的抽象化图谱建模,并基于子图塌陷机制,提出了一种可靠的数据资产图谱化简方法,用以克服现有技术中对数据资产图谱无法有效化简的问题,从而实现对企业数据资产的有效挖掘,更好地治理和利用大数据时代下数据资产的价值。二、数据资产图谱建模(一)知识图谱技术架构知识图谱在2012年5月被GoogIe正式提出,初衷是增强搜索引擎的能力,提高用户的搜索体验。目前,随着智能信息化的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领
9、域。知识图谱是结构化的语义知识库,以符号形式描述物理世界的概念及其相互关系,其基本组成单位是“实体关系实体”三元组,以及实体及其相关属性值对,实体之间通过关系相互连接,构成网状的知识结构。图1展示了知识图谱的技术架构。KnowledgeGraphConstruction/UpdateProcessDataAcquisitionInformationKnowledgeFusionKnowledgeAcquisitionProCeSSing图1知识图谱的技术架构三元组是知识图谱的一种通用表示方式,构建一个知识图谱G,有G=(E,R,S),其中上=%,为是知识库中的实体集合;R=M,公,他是知识库中
10、的关系集合;SqERE代表知识库中的三元组集合。(二)数据资产类型的抽象数据资产图谱以节点表示产业实体,实体对应现实世界客观存在的数据资产,例如目录、数据表、逻辑实体等。我们规定主要数据资产与图谱的核心功能高度相关,能够满足用户的主要业务需求,因此需要在数据资产图谱网络中应保持默认显示;边缘数据资产满足用户的特定需求,供用户灵活探索图谱网络,因此可以通过多种交互手段从关键数据资产处拓展显示。通过参考行业标准和数据资产图谱的功能设计需要,数据资产图谱将需要进行管理的数据资产,我们将其概括为10种,并划分为关键数据资产和边缘数据资产,如表1所示:表1数据资产实体分类类别数据资产关键数据资产逻辑实体
11、、业务属性、数据表、字段、见解边缘数据资产数据库、目录、表作业节点、见解节点、作业(三)数据资产关联关系的提取数据资产图谱以边表示各个实体之间的关联关系,关联关系对应现实世界中数据资产之间的联系,例如数据表和作业节点之间存在的数据流向关系、逻辑实体与数据表之间的逻辑模型和物理模型关系等。我们可以将数据抽象为节点与节点以及节点与边之间的关系,从而得出网络资产图谱的抽象模型。譬如目录与目录、目录与逻辑实体、逻辑实体与业务属性等关系。根据数据资产类型的定义与相关研究,我们梳理出4种数据资产关联关系:PARENT_CHILD、LOGICAL.PHYSICALDATA_FLOW、PK_FK这4类关联关系
12、具体可以演化为17种细分的关联关系。(四)图谱模型的构建与存储根据以上数据资产类型和关联关系的梳理,我们将其构建为一个具备10个节点、17条边的抽象数据资产图谱,用于表示数据资产图谱数据中的10种实体及其之间产生的17种关联关系,其中,节点表示数据资产,单向边表示数据资产之间的单向关联关系。我们将其进行具象化,确定其字段、表作业节点、字段作业节点等信息,最终得到数据资产图谱点边双异质的抽象建模见图2所示,并将其存储到基于图模型的数据库中。图2数据资产图谱点边双异质抽象建模三、网络中心性与关键资产理论(一)网络中心性理论在图论和网络分析中,中心性(CemraliIy)是判断网络中节点和连边重要性
13、的指标。在社会网络分析中,一项基本的任务就是鉴定一群人中哪些人比其他人更有影响力,从而帮助人们理解他们在网络中扮演的角色。常用的中心性有度中心性与随机游走介数中心性,下文将对度中心性与随机游走介数中心性分别进行介绍。1 .度中心性度中心性通过衡量节点的度值大小来确定节点在网络中的重要性。如果节点的度很高,那么该节点可以直接影响到的节点就越多,该节点在网络中的重要程度越高。对于一个拥有g个节点的无向图,节点i的度中心性i与其他g-1个节点的直接联系总数,数学表达式如下:CD(Ni)=EXij(ij)J=I其中CD(Ni)表示节点i的度中心性,之马力用于计算节点i与其他g-个节点j=l之间直接联系
14、的数量。采用这种方式计算度中心性时,网络规模越大,度中心性的取值就越高。为了消除网络规模变化对度中心性的影响,可以对采用以下公式进行标准化:g-12 .随机游走介数中心性随机游走介数中心性又称电流介数中心性,本质与传统的介数中心性相同,即假设信息会沿着重要路径传递,重要路径上的节点就是对于信息传播比较重要的节点。随机游走介数中心性利用随机游走算法衡量信息传递的路径,求出节点S到节点t游走的过程中经过节点i的次数,这个次数作为衡量节点i中心性大小的核心。此外,随机游走算法的求解过程与节点电流的求解过程思想一致,因此,可以使用电流模型模拟网络的传播路径,将初始边权看作电阻,运用物理上的基尔霍夫电流
15、定律求出节点电流,将节点电流大小作为最终的中心性取值。(二)关键资产理论1.簇结构与桥接结构网络资产图谱中存在丰富的图结构,其中有两类比较重要的结构,可以帮助用户挖掘资产簇以及资产簇之间的联系,定义如下:定义1:簇结构。以单个节点或多个节点为中心的集群,包括单中心簇与多中心簇两种,分别如图3(a)、(b)所示。O(a)单中心簇(b)多中心簇图3簇结构示意图定义2:桥接结构。使簇之间通过单个或多个节点联系起来的结构,可以从两个层级进行分类:单/多重桥接结构(簇之间的路径数量)、单/多级桥接结构(簇之间路径的节点数量),如图4所示。图4簇间桥接结构2.簇中心与桥节点网络资产图谱中有两种节点在簇结构
16、和桥接结构的连通性上起到关键作用,定义如下:定义3:簇中心。在结构上比较重要的节点,即簇结构的中心节点。定义4:桥节点。在结构上比较重要的节点,即组成簇中心之间路径的节点。为了进一步挖掘簇中心与桥节点的特点,本文分别从网络资产图的结构和业务的角度上进行分析,将簇中心和桥节点进一步细分,如表2所示。表2簇中心和桥节点的分类类型具体名称含义簇中心业务影响力簇中心簇中心集合中满足表3所有规律的簇中心。节点影响力簇中心簇中心集合中度较大的节点。结构影响力簇中心簇中心集合中与多个其他簇中心距离比较近的节点。桥节点业务影响力桥节点桥节点集合中满足表4中所有规律的桥接链路上的节点。比如某桥接链路为“IPl-
17、DoInainl-IP2”,其中IPl和IP2为不同簇的业务影响力簇中心,那么DOmainl就为业务影响力桥节点。一级桥节点桥节点集合中组成1级桥接结构(簇中心-桥节点-簇中心)的节点。二级桥节点桥节点集合中组成2级桥接结构(簇中心-桥节点-桥节点-簇中心)的节点。三级桥节点桥节点集合中组成3级桥接结构(簇中心-桥节点-桥节点-桥节点-簇中心)的节点。四、关键资产识别算法与实验(一)关键资产识别算法本文提出了一种基于结构等价子图的网络资产图化简方法,采用图嵌入g和聚类技术,能够自动化的提取并丢弃掉图中的部分冗余节点和子图,达到化简网络资产图的目的。首先通过算法挖掘图中的冗余子图,将这些子图塌陷
18、成一个超点。然后将这些超点与插入的虚拟节点相连形成一个新的图,输入到图嵌入算法中,得到每一个节点的向量表示。最后利用聚类算法对向量进行聚类,将同一个类中的节点进行随机采样,进而达到化简的效果。该方法主要分成了3个步骤。1)第一步:基于核节点的子图挖掘。我们按照节点数量枚举子图的连接模式。然后通过基于核节点的子图挖掘算法识别出图中所有的不重叠子图;2)第二步:基于图塌陷的子图表征。我们将子图进行图塌陷收缩,并插入虚拟节点,得到一个新的图。然后将这个新的图输入到SDNE图嵌入算法中得到节点的嵌入向量,3)第三步:基于结构等价子图的图聚类化简。我们用DBSCAN算法进行聚类,对聚类出的节点进行统一采
19、样,达到化简的目的。方法流程如下图5所示。a图5基于结构等价子图的图化简流程示意图(二)实验结果与案例分析将我们的算法分别应用于小型、中型和大型3个典型数据资产案例中进行分析。首先让我们分析一个包含了114个节点和145条连边的小型数据资产图谱,该案例中包含了49个由两个节点组成的子图gl,和三个由三个节点组成的子图g2,如下图6-a中蓝色凸包和橙色凸包所示。这个案例我们重点关注整体的化简效果。首先我们从节点和连边的数值特征分析,通过55.05%的采样率对资产图进行采样,丢弃掉被采样节点以及关联的边,最终化简掉了45.61%的节点和48.11%的边,几乎化简掉了一半的节点和连边。然后从可视化的
20、结果上看,通过对比图6a和图6-b,我们可以看到,在化简掉了一半节点和连边的情况下,还很好的保持了原始图的整体结构。同时簇结构上的节点分布更加的清晰,节点与节点之间的连接关系也更加直观的呈现了出来。此外,我们还在子域名关联聚合化简的基础上,再进行了一次等价结构子图的化简,化简效果如下图6c所示。同样从数值上来分析,化简后仅保留了34个节点和38条连边,化简率已经达到了70%多,但是从资产图的可视化结果来看,该资产图的整体轮廓一样得到了很好的保持。说明了该方法能够和其他的化简方法结合达到更好的化简的效果。图6小型数据资产图谱案例结构等价子图化简效果对比图:(a)原始图:(b)原始图直接化简;(C
21、)子域名关联聚合化简后再进行结构等价子图化简然后,让我们关注一个中型数据资产图谱,它包含了589个节点和1099条连边,如图7所示。该案例最大的特点是基本都是由子图产生的冗余结构,该案例中除了g7和g9,其他每一种子图都存在,但g4、g8只存在一个,g5只存在两个,数量太少我们不对这三种子图进行化简。所以本案例重点关注gl,g2,g3,g6这四类结构等价子图化简后产生的效果。首先从化简率来看,该案例化简掉了20%左右的节点和连边。虽然从数值的大小来看化简比例不算太高,但是与子域名关联聚合化简和结构等价点化简相比,化简率分别高出了10%和15%左右。这也侧面反应了案例5中,冗余节点大部分都是由子
22、图产生的冗余。然后从子图数量变化来看。我们对于冗余节点和子图采样了36.75%,采样化简后的效果图如7-b所示。通过对案例进行统计分析可知,gl、g2、g6三种类型的子图个数分别为34、33、20个,数量相对较多,结合化简前后的对比图,我们可以看到gl所示的蓝色凸包、g2所示橙色凸包和g6所示粉色凸包明显减少,比如图中虚线框所示簇结构中的gl、g6两种子图。而g3数量虽然有12个(图种绿色凸包所示),但是分布在不同的簇结构中,每一个簇结构中仅包含了个三个或者四个g3子图,所以基本上没有化简。最后从可视化效果来看,视觉复杂度有所降低,节点和连边之间的重叠明显减少。此外化简前后资产图的心理地图没有
23、变化,布局更加清晰,让簇结构之间的连接关系更加明显。b图7中型数据资产图谱案例结构等价子图化简效果对比图(a)原始图、(b)原始图直接化简最后,让我们再来探索一个包含了1079个节点和2356条连边的大型数据资产图谱,如图8所示。在本案例中,我们重点关注基于等价结构子图的图化简方法的识别与化简效果。首先通过化简数据统计分析,可以发现点和边的化简率都很好,都超过了40%。此外,该案例子图数量最多的是20个gl和10个g3,但是从图8-a可以看到,gl所示的蓝色凸包和g3所示的绿色凸包,分散不同测簇结构中,构成结构等价子图的很少,所以该案例子图造成的冗余很少。大部分造成冗余的是一些直接如簇中心相连
24、的节点,即本文中定义的一级结构等价点和桥结构等价点,如图中有颜色的节点所示,同一种颜色表示同一组结构等价点。这也说明了,本章介绍的方法也能够对部分结构等价点起到很好的挖掘效果。然后从整体视觉效果上来看。首先图中的多个簇结构上的节点都明显减少,单个簇周围节点之间的重叠也减少了;然后连边之间的交叉也明显减少,布局更加的合理,簇结构与簇结构之间的关联关系更加的突出。最后对于化简前和化简后的两个图来说,整体的拓扑结构得到了很好的保持,并且整体的视觉复杂度降低了很多。图8大型数据资产图谱案例结构等价子图化简效果对比图(a)原始图、(b)原始图直接化简五、结语本文通过对数据资产图谱建模的深入研究,提出了一
25、种基于子图塌陷机制的数据资产图谱化简方法,用以解决现有技术中对数据资产图谱无法有效化简的问题。该方法不仅能够有效地减少数据资产图谱中的视觉冗余,还可以识别出不同结构的子图类型,更好地进行子图分组,同时也能够有效识别子图是否同构且同质。在实验中,我们对该方法进行了验证,结果表明该方法能够在保持数据资产图谱基本特征的同时,有效地化简图谱,为企业提供了更好的数据资产管理和利用方案。在未来的研究中,我们将继续探索更加精细的数据资产图谱建模方法,以更好地挖掘数据资产的价值。参考文献:1数据资产管理实践白皮书4.0.北京:中国信息通信研究院,大数据技术标准推进委员会,2019.22018工业企业数据资产管
26、理现状调查报告.北京:工业互联网产业联盟,中国信息通信研究院,2018.3戴国忠,陈为,洪文学,刘世霞,屈华民,等.信息可视化和可视分析:挑战与机遇J.中国科学:信息科学,2013,43(1):178-184.4任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述J.软件学报,2014,25(9):1909-1936.5张康之.数据治理:认识与建构的向度J.电子政务,2018(1).6刘崎,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述J.计算机研究与发展,2016,53(03):582-600.7徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述J.电子科技大学学报,2016,45(04):5
27、89-606.8Linton,C,Freeman.CentralityinsocialnetworksconceptualclarificationJ.SocialNetworks,1978.9Newman,M.EJ.Scientificcollaborationnetworks.II.Shortestpaths,weightednetworks,andcentralityJ.PhysicalReviewEStatalNonlinear&SoftMatterPhysics,2001,64(1):016132.10袁立宁,李欣,王晓冬,刘钊.图嵌入模型综述J.计算机科学与探索,2022,16(1):59-87.llCuiP,WangX,PeiJ,ZhuWW.ASurveyonNetworkEmbeddingJ.IEEETransactionsonKnowledgeandDataEngineering,2019,31(5):833-852.12CaiHY,ZhengVW,ChangKCC.AComprehensiveSurveyofGraphEmbedding:Problems,Techniques,andApplicationsJ.IEEETransactionsonKnowledgeandDataEngineering,2018,30(9):1616-1637.