《2024新一代联邦学习技术及应用实战.docx》由会员分享,可在线阅读,更多相关《2024新一代联邦学习技术及应用实战.docx(36页珍藏版)》请在课桌文档上搜索。
1、新一代联邦学习技术及应用实战导读:随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,同时,大多数行业数据呈现数据孤岛现象,如何在满足用户隐私保护、数据安全和政府法规的前提下,进行跨组织的数据合作是困扰人工智能从业者的一大难题。而“联邦学习将成为解决这一行业性难题的关键技术。今天会和大家分享下微众银行主导的新一代联邦学习技术及应用,而FATE则是联邦学习落地的一个工业级开源平台。今天的介绍会围绕下面五点展开:o联邦学习背景介绍o纵向联邦学习o横向联邦学习O应用案例OFATE:联邦学习开源平台I联邦学习背景介绍首先和大家分享下联邦学习的背景。1 .AI落地的理想与现实Al落地:理想
2、VS现实数据质量好标签数据充足数据质地差缺乏标签数据数据集中数据分散隔离昔日的人工智能老大哥,IBMWATSON为什么现在会破看作一个笑话?“80%壮的企U华田姬In岛问虺(informationsilos)TwittertaughtMicrosoft*sAIchatbottobearacistassholeinlessthanadavm:无法了解基因与疾病的关系(只有医生可以蛤数Ig打标签),买数据?Verity1.ifeSciences有一万名神睹,!我们知道AI落地的时候,会遇到很多现实的问题:O现实中,我们的数据质量是非常差的,比如聊天数据中有很多噪音;O数据标签,收集是比较困难的,很
3、多场景中的数据是没有标签的;O数据是分散的,(这也是最重要的一点)每家应用的数据不一样,比如腾讯用的是社交属性数据,阿里用的是电商交易数据,微众用的是信用数据,都是分散来应用的。现实中,如何进行跨组织间的数据合作,会有很大的挑战。2 .国内数据监管法律体系研究国内数据监管法律体系研究国家法律I行政;法规11部门规章I全国人民代表大会常务委员会关于加强网络信息保护的决定I刑法修正案九T2009.01.282012.12.288.03.172018.07.122018.08.312015.08.292016.11中华人民共和国网络安全法I数据安全管理办法!(征求意见稿)1一严格化2019.05.2
4、8.一二1.1I刑法修正案(1.)II科学数据管理办法I愎尊歌餐舞器汨I中华人民共和国电子商务法全面化严格化:数据控制方贵任明确,刑罚到自然人全面化:各领域数据管理细则密集出台,用户授权+监管部门府批HeBanku从09年到现在的10年时间内,国家关于数据的法律条例是趋向于严格化的,同时趋向于全面化,每个细分领域都纷纷出台了相应的条例和条款。相对来讲,让之前可行的一些数据合作方案变得不太可行。3 .基于联邦学习的技术生态基于联邦学习的技术生态HeBank针对上述问题,微众银行提出了基于联邦学习的技术生态,特点如下:o数据隔离:联邦学习的整套机制在合作过程中,数据不会传递到外部。o无损:通过联邦
5、学习分散建模的效果和把数据合在一起建模的效果对比,几乎是无损的。O对等:合作过程中,合作双方是对等的,不存在一方主导另外一方。O共同获益:无论数据源方,还是数据应用方,都能获取相应的价值。4 .联邦学习的分类体系样本纵向联邦学习的联邦迁移学习横向联邦学习联邦学习的分类体系样本HeBank联邦学习的分类体系,包括:O纵向联邦学习,两个数据集的用户(U1.U2,)重叠部分较大,而用户特征(X1.X2,.)重叠部分较小;O横向联邦学习,两个数据集的用户特征(X1.X2,.)重叠部分较大,而用户(U1.U2,.)重叠部分较小;o联邦迁移学习,通过联邦学习和迁移学习,解决两个数据集的用户(U1.U2,.
6、)与用户特征重叠(XI,X2,.)部分都比较小的问题。下面,重点分享下纵向联邦学习和横向联邦学习。I纵向联邦学习1 .联合建模需求场景纵向联邦学习联合建模需求场景举例:微众与合作企业联合建模,微众有Y(业务表现),期望优化本方的Y预测模型皿:,只有微众拥有Y=逾期表现/合作企业无;去暴露含有隐私的X传统建模方法问题:,告管色猿丫无去啦则,X数据全量传输到微众不可行期望结果:,保护的私条件下,建立联合模型/联合模型效果超过单边数壁模HeBankIxiX2X3。送93Ul98000AU245000CU323500CU410100AUSS75BU6575AU7880B合作企业业务系统A数据微众银行I
7、DX4*ntranX5CtAIYUl6600无U2550500桁U3520500有4600600无U86600无U9520500布UlO600600无业务系统B世举个例子:微众与合作企业进行联合建模,比如做信贷逾期模型,微众有Y数据,包括标签数据,逾期记录,用这样的数据可能会建一个很好的模型,但我们希望用更多的数据,比如合作方的标签数据和画像数据来更大的提升风控模型的效果和稳定性。传统模式的问题是:合作企业缺乏Y无法独立建立模型,需要微众把Y数据,带入到合作方的生产环境建模,但是由于国家的数据保护条款和各企业自身对数据的严格规定,得到的X数据不能全量的传输到微众。针对这个问题,通过纵向联邦学习
8、来解决。如右图,两边的数据都有共同的ID,特征是完全不一样的,可以通过一方特征来弥补另一方特征的不足。2 .同态加密技术保护隐私模型参数分别独立IeWSub-ModelA只包公Xl.X2.XHMtSub-ModelB只包X4,XSlHBl同态加密技术保护隐私数据隐私保护:/整二向对方蟠/任何底层X,Y数据不向对方泄露雌然册:,分别持有,联合使用结果:/AT5ulfu2,u3)=r严H(Ui)IUieXAMrand匕-(rl*H(ul),r2*H(u2),r3*H(u3),r4,H(u4)DatH(ri(H(uf)dri)=H(H(ui)d)Z,Zb11*(H(uO)dZa)I=D4ZI=H(H
9、(ul)ul,u2,u3HeBank这里是通过RSA和Hash的机制做到的,B方会作为公钥的生成方,会把公钥给到A方,A方基于Hash引用一个随机数,再交互传给B方,B方同时做Hash然后传给A方,A方会最后做一个结果的交集。整个过程中,你可以看到没有任何一个明文数据传递过来,即使采用暴力或者碰撞的方式,依然解析不出原始的ido通过这套机制,我们很好的保护了双方的差集部分。4 .同态加密,全同态或者半同态FullHomomorphicEncryptionandPartialHomomorphicEncryption,数据层面的信息保护Data-Ievelinformationprotectio
10、nPaillier半同态加密Partiallyho11onorphicencryptionAddition:u+v=u+vScalarmultiplication:nu=nullRivest,R.1.:Adlemanl1.;andDertouzos,M.1.1978.Ondatabanksandprivacyhomomorphisms.FoundationsofSecureComputation,AcademiaPress,169-179.HeBank分享了匹配过程中隐私保护的问题,接下来分享一个通用的技术,同态加密。刚才提到建模过程中,引用了同态加密技术,比如对两个数字进行加密,加密后两个数
11、字的密文可以进行数学运算,比如加法,其结果依然是密文,对密文解密后得到的结果和它们明文的加法结果是一样的。问题:在保护双方除私下,A侧(含X)和B侧(含X,Y)特征如何计算WOE和IV?,A侧只有特征X,没有y;计算Woe和IV得同时依赖x,y(B侧特征WOe&IV可以本地计算)A侧J不能对B侧叫ix,B侧印能对A便曝露V最终只能让B侧联得所有特征Woe&IVHeBank通过这样的同态加密技术,我们把它应用到机器学习,包括特征工程中。接下来会重点介绍,联邦机制下特征工程和机器学习建模的一些细节。我们知道特征工程是机器学习建模中非常重要的一环,在联邦机制下,如何完成联邦特征工程?尤其A方只有X没
12、有Y,如果想做一个WOE或者IV值的计算是非常困难的。那么如何在联邦学习的机制下,A方利用B方有Y的数据计算WOE和IV值,且在这个过程中B方没有泄漏任何数据?,联邦特征工程Woe&IV方案1.ldi,Encry(yl),Encry(l-yi)2.Encode(id_setJ),Sum(EncryM),sum(Encry(l*yl)Encry(x):X的加法同态加密,Encode(x):本码B方本地计算1. distposj=npos_l/pos_total;distneg_i=nneg_i/neg_total2. Woe_i=100log(distposj/distnegj)3. IV=(d
13、isposj-disnegj)o(disposjdisnegj)WeBank首先,B方对y以及1-y进行同态加密,然后给到A方,A方会对自己的特征进行分箱处理,进而A方在分箱中进行密文求和的操作,再把结果给到B方进行解密,然后算出A方每个特征分箱的WOE值和IV值。在这个过程中,没有明文数据传输,A方不知道B方的y值,同时B方也不知道A方每个特征的值是什么,从而在安全隐私保护的情况下,完成了特征工程的计算。同态加密在机器学习上应用多项式近似Polynonialapproxinationforlogarithmfunction/(u)=log(l+exp(-,Hrx)log2-ywrx+-(*7
14、x)2“W).(:7J-T-Dyx1 +exp(-Wx),11I*(yH-1)yx加密计算Encryptedcoputationforeachterinthepolynomialfunctionw=Iog2(MJXy(M=Uog2(-I)*.r6x)2Zo,Kim1M.;Song,Y.;Wang,S.;Xia,Y.:andJiang,X.2018.Securelogisticregressionbasedonhomomorphicencryption:Designandevaluation.JMIRMedInform6(2)HeBankY.Aono,T.HayashilT.P.1.e,1.Wa
15、ng,Scalableandsecurelogisticregressionviaishomonorphicencryption.CODASPY16说完特征工程,再讲下最核心的机器学习,比如常见的逻辑回归,这是经典的lossfunction和梯度,刚才说的同态加密的特性,目前用到的是半同态的技术。所以,需要对lossfunction和梯度进行多项式展开,来满足加法操作。这样就可以把同态加密的技术应用在lossfunction和梯度中。5.SecureBoostSecureBoost Collaborativelylearnasharedgradient-treebstingnodel 1.os
16、slessmeanwhilesecurescuroo*tWeBank氏胞/+总工Q-,201W-S-B:a1.M仙”F&ra吃在很多现实的业务应用中,树模型是非常重要的,尤其是XGBoost,对很多应用来说,提升非常明显,因而被业界广泛使用。在联邦机制下,如何构建这样的树?这里我们提出了SecureBoost技术方案,双方协同共建一个boosting树,我们证明了整个过程中是无损的。图中为一些P叩er和链接,感兴趣的小伙伴可以查找下。SecureBoostXgboost小棵树预测实例HeBank11SecureBoost的核心技术点。上图为基于SecureBoost构建的树,A和B代表不同数据
17、的owner,1.O,1.l,1.2,1.3,1.4代表不同feature的分割点编码,整颗树由A和B共同维护,每一方只维护自己的树节点,对另夕1.方的树节点信息不可见(只知道编码,不知道编码具体含义),保证整个训练和预测过程都是安全的。构建SecureBoost核心的关注点是如何构建分裂节点,尤其一方只有X,另一方有(X,Y)的情况。BStep1:idi,Encry(gi),Encry(hi)Step2:index(id_set_i),sum(Encry(gi),sum(Encry(hi)Step3sma(gain),argma(gain)Decry:sum(Encry(gi),sum(En
18、cry(hi)ifVmax(gain),argmax(gain)隐私保护:信息增益是在B侧本地计算,B侧没有样本信息泄露A本地计算加密后的梯度直方图,B解密梯度直方图,但是不知道具体对应的id集合,保护/A侧id集合隐私信息基于同态加密的机制,B方会把1阶梯度和2阶梯度传递给A方,A方基于分箱之后的结果算出每个分箱中的1阶梯度和2阶梯度的求和值,然后传递给B方,B方会解密这个求和值,算出信息增益,然后给到A方。求分裂节点的核心就是如何算信息增益,通过这样的机制,就可以算出每个分裂节点,同时没有泄露任1可隐私信息。I横向联邦学习横向联邦学习联合建模需求场景举例:微众和合作行共建反洗钱模型,期望优
19、化反洗钱模型陵:/Y表示是否存在;辘行为”/合作行和微众都有(KY),双方不基露自强(KY)传绷翻昉油句题:/微众和合作行各自样本不够多期堂结果:,保护隐私条!牛下,建立联合模型/联合横型效果超过单边数据建横HeBank举个例子:微众和合作行共建反洗钱模型,期望优化反洗钱模型。因为,各自利用自家样本建立的反洗钱模型的效果和稳定性都不能满足现实需求。我们可以利用联邦学习的机制,充分利用多家的反洗钱样本,同时在不泄露样本的条件下,构建一个非常大的模型,可以看到横向联邦学习中,微众银行和合作行,都是有(X,Y)的。同态加密技术保护隐私,联合模型比朝螟模好联邦学习学习系统A(觎)1D,X,Y广idl,
20、x,x2,y)联邦学习建模SecureAggregation联弹习阚(合作行)Hid,X,Yid2,xl,x2,y)WeBank提取X,Y提取X,Y业务系统A(酥)业务系统B(合作行)数据障私保护:/任何底层X,丫数据不向对方泄席技术层面上,采用了同态加密、Secret-Sharing技术,整个过程中,双方交互的是模型和梯度,同时引入了SecureAggregation机制,让交互过程中的梯度也是很难被反解的。最终,大家都会得到一个相同的模型。横向联邦学习,综合多家样本,可以让模型更加稳健,效果更好。横向联邦核心技术点H.BrendanMcMahanCt叫Communication-Effic
21、ientloamingofDeepNetworksfromDecentralizedDatafGoogley2017BonawitzK,IvanovV,KreuterB1Ctal.Practicalsecureaggregationforprivacy-preservingmachinelearning,Googlev2017HeBank联合反洗钱建模案例召回率提升1处人工审批效率提升50%小.Idll联合I定价准确率大幅提升解决新客覆盖问题互联网,零售联合客户价值建楔,营销效率提升25%,个性化定价翟差率超9伙下面分享下横向联邦学习的核心技术点,这是Google的两篇paper,第一个是每个
22、端自己训练模型,然后发给云端进行综合各个模型的效果,但是这里面会有个问题,就是模型本身也可能会泄露隐私信息,所以引入了SecureAggregation,各方在传输模型的时候会加一些噪音,通过云端来消除这些噪音,使数据和模型得到保护。I应用案例赋能众多关键领域互联网,银行联合信货风加蚓i数据合作型室降低模型效果提升12%HeBankM联邦学习目前已经赋能众多关键领域,取得了不错的效果:O银行+监管,联合反洗钱建模O互联网+银行,联合信贷风控建模O互联网+保险,联合权益定价建模O互联网+零售,联合客户价值建模以其中的两个场景以及在视觉领域的应用来说明:1 .保险业个性化定价保险业的个性化定价难题
23、HeBank对于保险公司如果想做个性化的定价,是一件非常困难的事情,保险公司只有一些业务数据、承保数据和理赔数据,通过这样的数据,对用户做千人干面的定价是非常难的。通过联邦学习机制,可以融合多个数据源,来构建这样一个千人千面的定价。基于联邦学习的保险定价通过对年龄.职业、年租车次数等标第性迸行我邦学习窿模,f测出险强率,决策是苦也险直接承保人互联网企业1BillionIDXl2X2三Ul30金融U230侑瞥U330U455金融U950金电UlO30Ull20IDBBW5X3YDl10.11U260.85U320.15U410.89U510.81U650.90U710.933Million载唐塔
24、念I财务状况卜T200维度30tJgT*f5,I订触伉患I业为嬴这是我们目前在做的案例,当你购买权益产品之后,如果违章了,可以帮你免赔,在这里每个人看到的价格是不一样的,这就是我们通过联邦学习帮它们做的。我们综合了出险数据和互联网数据,如标签、用户画像,构建了一个基于保睑定价的联邦学习产品。2 .小微企业信贷风险管理小微企业信贷的风险管理难题银彳帚感的现实银俏想的iS施集HeBank对客户好全面了解Ing分布假料严重通例只有央行自用报告为BSJ表现的客户小于1670M户无任何信用表现很多时候对小微企业我们只有央行的征信报告,想要更精准的刻画企业的信用状况,需要更多的数据,比如发票、工商、税务的
25、数据。基于联邦学习的企业风控模型60MillionIDVMRACtaHXlX2场拿金,Ul90150U2401IO2080U4100200W5050UlO610Ull25ID*R人神!写X3央行仅分YVfiMUl600&U2550SU3520RU4600SU5600SUe520SU76否400K通过对近3/6个月开票金椒.央1亍征(S分等标签篇性进行IK合建模,颁保否预期HcBank这是我们的一个案例,我们利用了开票金额和央行的征信数据共建了一个联邦学习模型,来预估每个企业的风险。3.联邦学习在视觉领域的应用与AI公司探索重塑机器视觉市场装备制造业、物联网AIOT、智慧安防等行业,依托联邦学习
26、,进行视觉市场的场景拓宽优势:相对于本地建校进一步提升研去准确率;智总制造智患安防智慈城市形成网络效应,降低长尾应用成本,提升视觉业务总体利润率;行人检测出行检测区域检测设箭异常检测三l烟雪检测与AI公司探索重塑机器视觉市场,利用联邦学习的机制,相对于本地建模,进一步提升算法准确率,并且形成网络效应,降低长尾应用成本,提升视觉业务总体利润率。挑战联邦学习视觉应用-城市管理 标签数量少 数据分数,集中管理成本高 离茂延迟的模型更新和反馈联邦学习 在猫模型更新和反馈 无需集中上传数据 WJ,锦性高这是联邦视觉在城市管理上的应用。I联邦学习开源平台:FATE通过刚刚的介绍,相信大家对联邦学习能够做什
27、么,有了大体的认识。而联邦学习想要落地,不可避免的就是开源,接下来为大家介绍下微众银行开源的联邦学习平台FATE:遇见FATE隧景工Ik级别联邦学习系统磔帮助多个机构在符合数据安全和政府法规前提下,进行配g使用和联合建模谢十原则 支持多种主流算法:为机黑学习、深度学习、迁移学习提供高性能联邦学习机制 支持多种多方安全计算协议:同态加密、秘密共享、哈希散列等 友好的跨域交互信息管理方案,解决了联邦学习信息安全审计难的问题苜次发布2019年1月份,FATE宣布对外开源Github:httDsqithub.8mWeBankFinTeCh/FATEHeBankMFATE定位于工业级联邦学习系统,能够有
28、效帮助多个机构在符合数据安全和政府法规前提下,进行数据使用和联合建模。设计原则:O支持多种主流算法:为机器学习、深度学习、迁移学习提供高性能联邦学习机制。O支持多种多方安全计算协议:同态加密、秘密共享、哈希散列等。O友好的跨域交互信息管理方案,解决了联邦学习信息安全审计难的问题。1.里程碑里程碑2019.02FATEvO.1酋发201905发布FATEva2版本201907发布FAIEVl.0版本WeBank发布FATE-SerVIne发布FATE-F1.0联邦模型训练,当上线部署的时候会有联邦在线推理模块,底层则会采用多方安全计算协议去支持上层各种联邦算法。核心功能FATE-Serving一
29、联邦在线模里服芬FATE-FIowFATE-Board)WeBanklFATE-Board的目的是实现整个联合建模Pipeline可视化追踪,记录联邦学习的全过程,可以监控建模进行到哪个步骤,以及模型效果如何。4 .FATE部署架构一方部署网络拓扑-示例HeBank这是FATE的部署架构,每一方都是差不多的,是一个对称的结构,通过EggRoII实现分布式计算和存储,通过FederationService和外部交互。5 .FATE应用基于FATE的联合建模联合建模、预测示意图一一安全合规的数据合作过程HeBank注:e=11R任仲和H于客户口你i*三手机号.i*ID(tel)等:H令IMR过得由
30、IreM森SE败K!)的一方发Ie:现实中,FATE是如何应用的呢?这里和大家分享一个示意图,会在每一方部署一套FATE系统,双方都是在各自部署的FATE系统中进行交互。6 .开发流程开发流程习箕法,定义多方交互的数据变构建寞却I行工作流设计多方安全计算协议员基TEggROIl&FederationApi实法工作流中各个功能组件HeBankn如果大家对FATE感兴趣,作为开发者利用联邦学习框架实现算法,只需要四步:选择一个机器学习算法,设计多方安全计算协议定义多方交互的数据变量构建算法执行工作流基于EggRoII&FederationApi实现算法工作流中各个功能组件7 .目前FATE项目中的
31、算法和案例目前FATE项目中算法&案例 SecureIntersectionforSampleAlignment Vertical-SplitFeatureSpaceFederatedFeatureEngineering SecureFeatureBinning SecureFeatureSelection SecureFeatureCorrelation(ComingSoon) Vertical-SplitFeatureSpaceFederated1.earning Secure1.ogisticRegression SecureBoostingTree SecureDNN/CNN(ComingSoon)Horizontal-SplitSampleSpaceFederated1.earning Secure1.ogisticRegression SecureBoostingTree(ComingSoon) SecureDNN/CNN(ComingSoon) SecureFederatedTransfer1.earningHeBank这是目前FATE项目中的算法和案例,会根据需求,不断增加各种各样的算法。