个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx

上传人:夺命阿水 文档编号:1710767 上传时间:2024-11-25 格式:DOCX 页数:17 大小:75.26KB
返回 下载 相关 举报
个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx_第1页
第1页 / 共17页
个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx_第2页
第2页 / 共17页
个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx_第3页
第3页 / 共17页
个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx_第4页
第4页 / 共17页
个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx》由会员分享,可在线阅读,更多相关《个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx(17页珍藏版)》请在课桌文档上搜索。

1、附录A资料性)脱蚀算法能力评估示例概述本附录以k-匿名算法对文本类医疗数据的脱敏能力评估为例,介绍针对脱敏算法能力评估指标体系的使用方法,供进行脱敏算法能力评估时参考,脱收算法能力评估过程的关键处理环节包括脱被算法评估维度权重确定、敏感信息属性确定、评估指标选定、可逆性评估、信息偏差性评估、信息损失性评砧、更杂性评估以及评估报告生成.脱敏算法评估维度权重确定根据数据的使用场景、来就、脱敏意图等因案,定义脱技。法评估维度的权重.本示例中数据的应用场景为医疗问诊场景,数据模态为结构化数据,使用的k-匿名W法(脱坡参数k=3)屈于泛化技术,参考表A.1建议的不同脱敏算法类别(泛化、匿名、置换、差分或

2、私处理文本类医疗数据时的评估指标维度权重,将可逆性、信息偏差性、信息损失性、女杂性四个维度的对应权重分别为0.2、0.2、0.5,0.1.不同脱敏算法类别处理文本类医疗数据时的评估指标维度权重叁考ii信恩偏整性信息抠失性i性圜评估点番号权31褥估点方考权St参考ttR押估京普考权成化术泛技脱政算法是否可逆0.1脱收前后数据均值.04值息息整O1.0.5时间fi!fS0.05脱敏前后效据方经.(M还吼信息的港确性0.05脱收IW后数期均方於0.03K1.ift度0.03空同纪杂度0.05还原佑息的误差性0.05欧氏即悉0.03平均绝时值0.03的名技术脱敏算法是否可逆0.1脱故前后致据均值0.0

3、4信息嫡尤值0.5时间乂杂度0.05脱敏前后数据力差0.04还Ki信总的於确性0.05IftfeiWJfrft据均方差0.03K1.1.tt度0.03空间复汆慢0.05还瞭怡息的谯差性0.05Bfc氏手离0.03平均绝对值0.03*m技术脱或算法是否可逆03脱敏前4数据均依0.04倡总息案位0.2时间纭杂度0.05脱政前后数1方差0.04还原信息的推碗性0.1脱收前后数据均方差0.03K1.般度0.03空网0.05还原侑对的误差性0.1欧氏神离0.03手均绝对他0.03脱政算法是否可逆0.1脱地前后数M均值0.08信息燧差僮0.2时间乂杂度0.05弟分的私技术脱於前后攻据方整0.08还Iei伯

4、息的涯确性0.05脱敏前E数累均方差0.08K1.110.08空间0.05还原信息的误差性0.05欧氏即感0.09平均绝对低0.09敏感信息属性谈定收集并整理待评测的原始数据和经过k-匿名修法处理后的数据,在本示例中,原始数据如表A.2所示.k匿名算法处理后的数据如表A.3所示.确定本次脱敏操作的敏感信息M性为“年龄”.原始数据序号IW编年龄期症I4767729QK烧24760222心脏晒3476727心脏病44790543流期54790952心脏饶64790647癌在7476()530-C-IRVi476173694760732麻丘脱敏后数盘序号邮箱年舲I476”2*91:01247632心

5、脏切3476t*24.8I,脱敏前后数据的欧氏距离为11.0。,依据评估指标11.00938,故本次脱敢效果中的偏差性高。信息损失性评估计算知到脱陂函数捌的信,&淄为3.17.脱敏后数据的估息雌为1.58.脱敏的后数据的信息烟差值为1.59,依据评估指标006G.594.36,脱敏前后数据的互信息为0.48,依据评估指标O.40,180.8,故本次脱敏效果中的信息损失性中等.复杂性评估分析k-限名灯法的时间杂侬为O(ndog(n),空间红杂度为0(n),故本次脱败效果中的配杂性离。评估报告生成对可逆性评估结果、信息假养性评估结果、信息报失性评估结果、复杂性评估结果进行加权操作,得出算法能力的综

6、合评估结果,附录8(奥科性)脱敏算法分类示例概述本附录以脱收算法的按需选择为例.根据脱敏算法的实现原埋、应用场景、处埋数据方式等因素,可以分为差分的私、泛化、匿名、巴换四类技术,在本示例中,分别介绍般f差分盼私技术的脱收算法描述示例、基于泛化的脱故算法描述示例、基于匿名的脱敏立法描述示例和基于置换的脱敏灯法描述示例.供执行脱敏算法选择操作时参考.姑于差分隐私技术的脱敏算法衣BJ给出了27林基于差分隐私技术的脱故算法描述示例.友B.1基于差分隐私技术的脱敏算法描述示例序号名称编号功能使用方式11.ap1.aceMtx1.iaiiianA1.1.添加拉普拄斯嚎J*.返P1.添加曝声后的数值列表将入

7、:数值列K输出:S(Ui列表tt:隐私保护01别Wsk含义:选取班私用算2ReportNoisyMax1.-1.J1.PbCCA-1.-2添加拉普拉斯唯声,返I可添加n次魄加后的城大位索引列表轴入:数位列表输出:数位列表sfsk:酹私保护级别,乘样次数n器软;V义I选取融款招。,对输入的数值列&添加噪声的次数3RcponNoixyMaX3A-1.-3泽加拉甘拄期嗓声,返回添加n次噢出后的域大位列*输入:故值列表悔出:数次列表Stt.心品保护国别.采柞次数nStt选取越私预立,对输入的数值列表添加噪声的次数4SnappingMochnnismA-1-4滓加拉普依斯味声.这也I武斯后的故俶列发输入

8、:散位列表输出:数优列表被断边界B,采样次数。梦欲含义,数值列表中敏据的载断边界,对脩入的数值叫我淞加啖尚的次数5IM-CodCr1.A-1-5为图片添加捡甘拄斯噪声.这回加味后的图片输入I图片检出r图片参微Ia私保护级别畛数含义:或取送私1。6dpAJ沁A-1-6时小纹特征添加拉希拉斯*声.返回加噪后的音频输入I*输出Ift参微隐私保护级网ttZ.选取K1.私及以7dpGraphA-1.-7为图形IS据渐加拉普拉斯嚎出怖入I图形输出I图形参微隐私保护级期参(含义I选双跄私预算8dpDacA-I-S为日期数据滓加拉普拉斯味祖.SiM加味后的U期数组输入IH期列&输出IH期列表参微隘私保护蝮期参

9、数含义,选取防私预。9IM-Coder2A-1-9为图像渗加拉。拉斯噪MM后的图像输入I图像输出I图恢参数I隘私保护级别选取S3私预算IOExponcntia1.Meciiani、mA-2-1.返回一姐数值中期个数位被选中的“率.这回斛个致使被选中的察率幡入I数值列表输出I数次列表ft隘私保护SS别参数含义:选取魁私用口I1.Rco选取跄款孩以,对输入的数值列表添加噪声的次ft.川干比较的阈火,返M应答的计数C15S1rcVccinrTechniquc3A-3稀破向用技术,给IHf1.ift和网值t加11后进行比较.&n个比较结果列表幡入I数值列表输出I数值列表tk.Ia私保护级别,采样次数n

10、.M(f(c.计数C含义:选取K1.私预算.对输入的数值列表添加嗔出的次数.用于比收的阳位1.返阿应答的计数C16SparseVectorTcchnique4A-M树武向小技术,给数组例和储值t加啖后进行比较.Hn个比仅结果列表输入I数值列表输Hh牧何列表-r,:除稻保护级别.栗样次数n.Mtfi1.Jtic参数含义:选取跄想色界对检入的数值列表滋加鹏声的次畋,用于比较的阈U,返网应答的计数C17SpcrneVcviorTcchniquc5A-35稀M向量技术.论同U加嗓后与数If1.进行比较,返问n个比较拮果列表输入:数值列衣1IH:故假列衣:做私保护级别,采样次致n,WifU答效含义:选取

11、卷私Jf1.算对输入的散位列技添加噪小的次ft.用于比较的网Wt18SparseVectorTcchniquc6A3幡船向fit技术.除aaitffWffiiiM噢避行比较.返回n个比较结果列表检入:敞俄列衣抽出:数他列我龄Sk:隐私保护依别,采样次数n.MtfuS51iJG选取期私预3,对输入的数值列表添加喋出的次.用于比较的同u19Nunerica1.SparscVeiorTcdinxue.-3-7林然向纸技术,给故网位和网值I加味后进行比较.&Mn个比较玷米列K输入:数(ft列表输出:数(ft列表S4.IiS札保护侬别.采样次数n,Kff1.(,i1.ftc梦欲含义,选取的私预算.对输入

12、的数值列表添加耍出的次ft.用于比较的阙值1.返回应答的计数。20RappoiA-4-1.Ui尸H1.机啊机观计用户某特征的比方图(为次)与息,返I-In淮二进制敌凯输入I数值则我输Mh数值则表参数:陷私保护级别.采样次数n参数含义:选取险私用。,对谕入的数位列表浑垢暧潦的次攻21OneTiIt1.eKapPOfA-42些干防机看应就计用户某一特征的直方国(虢次)信息,返回n维二避制数机希人:数值列衣物出:数依列丧龄双:隐私保护依别,采样次数nS51iJG选取期私预3,对输入的数值列表添加喋出的次数22dpC11dc-4-1.城于随机驹应统诃用户某一特征的n方图频次)信见.这回数值列货愉入:数

13、位列表输出:数初列表Stt.融札保护级别tk含义,选取Sa私预算23unxMeanA-4-4为数出添加随机均句手防返回添加啖声后的数值列表输入I数值列表输出I数次列表Stt.隐私保护级别参*含义,选取的私用片24nm&xnIuip1.aceA45为教机添加1机拉普拉加哄湖.返回添加啖声后的故的列表输入I数值舛表输出I数软列表参数I隘科保护级别x.选取雌私预算25undomGaussiunA-4-6为数现海加随机密斯噪声.KBNSiI啖声后的数(ft列表输入I数值列表检出Ii位列我参加隘私保护力别参数含义:选取Q私依。26NoixyHisKynim1.A-4-7的在方图的每个城加明返回n堆攻1将

14、入:数值列表W)U1:数依列表#:南私保护级别采样次数n梦SC含义:志取珍.玄用舒,对输入的数值列代济加喋,h的次数27NoixyHhk驾HIm2A-4-K给)1方图的每个的加*并反馈影的门输入I数值列我,旬Ih代值列衣舲如能私保护级别.采样次数n警状含义:近双地弘用口,对输入的致值列会浑加联,的次数基于泛化技术的脱敏算法表B.2给出了22种基干泛化技术的脱敏算法描述示例.表B-2基于泛化技术的脱敏算法描述示例序号名称编号xftt使用方式ITruneationB1.-I收字符f;遥行星部截断,返回截断后的字符器输入:字符卡输出:字符:1:畲数I1私保护等级Stt选择是否进行字符小被新2F1.w

15、rBI-2对数值取整,这回取整后的数值输入:ft(ft输出:数值Stt.隐机保护级别参政含义I选择是否进行数位取整3HoorTimcH时时间取整,这回取整后的时间输入:符合时向格式要求的字符;1:输出:符令时间格式!求的字符*S1.RB机保护级别参政含义,选择是否进行时间取电4Mdre4HideB-1.-4会以体堆址侑息.返问a”后的地比信息输入I地址字符小饰出I地址字符小tt.IiS私保护出别参欲含义I选择将要保留的地的行政Kjy级别5da1.cjjrxHp-rcp1.aceB-1-5将日期敢据分A1.将分蛆内日IW怦横为同一日期.JS回处理后的日期列表输入I日期(衣输出:E1.期列衣参加隘

16、稻保护级别参数含义:选择分组大小6mixzonc.IB-2-1.生成仪名曲Jt1.ii息.返回t7.W俏息或假名ID输入I经度.纬收输出,位置信思字符串或假名ID#ft:用户id、进入区域的时向区域点集参数含义:用户id.用户进入该区域的时何,区域四个顶点的炫纬慢7mixzoic_3B22生成祖名位置怡1,返问位艮信息或假ID检入:势度、纬收检出:位置怯息字符4:或粗名ID用户id、进入区峻的时间、区域点集If1.k含义I用户id,用户进入该区域的时间,区域四个顶点的经件度8ACCUraCy.reductionB2-3根据特定的M便都求对用户发送过来的位五信息进行便用处理,返回处理后的经纬度输

17、入:经祎慢fi11i1.:住林度参Ifc1.隐私保护级别t不同的枕度需求9pixdntcB31.对图像打斗赛克,返回处理后的图像输入;图像输出;图像Stt.隐私保护级别布软含义I选择泄液核的大小IOgauaGan_NurB32对图像进行高斯模树,返I-I处理后的图像输入:图像输出:图像Stt.隐私保护级别tt选择裾斯造波哥泄液核的大小I1.bx.b1.urB33时图像进行盒式模糊,返网处理后的图像输入:图像输出:图像Stt.船私保护国别叁ii义I选择愈忒泣波5Ki液核的大小12mcanVauCIInagCB3-4时图像进行均1模树,返回处理后的图像输入:图像输出:图像畲数I1私保护级别卷iiJ

18、G选择均ifti波擀滋液核的大小13rc1.acc.rcgionB35将图像的一忸分像素杓换为黑色,iSI-1.处理后的图像输入:图像输出:图像Stt.RB私保护级别Si选择故替换为掇色的区域大小14pixc1.ae-vic1.eoB41对视顺打马骞克,返回处理后的视频谕入:Mtt给电:衽加叁热能私保护级别答找含义:迂杆池液核的大小15gausMun.b!ur-videOB42对初版进行高斯模横.返回处理后的视领输入I机领输Uhft参数:隘私保护级别参数含义:造扑向乐城法港漆流核的大小16box_b1.ur_videoB-4-3对枕然进行盒式模横返回处理后的视领输入:视频粕出:视版参数:陷私保

19、护级别冬放含义:志扑食式必选等浊波核的大小17mcaVncVidcnB-44对比然进行均侦搜拗.返回处理后的视疑检入:班然希出:找物龄数;隐私保护我别W数含义:选择均力沌波器滋液核的大小18rep1.ace_regkn.vidcOB-4-5对祝融华一M的部分像表为换为黑色,返回处理后的视然粕入:视领输HS:视版参数:陷私保护级别?我含义:选杼战竹换为国色的区域大小19uudio.f1.oorB5I对当版栗样点数据进行取整操作.返I可处理后的音貌输入I输Iha参故:陷私保护纭别*:依含义:或抨未样点数据安保H的初收20uJio.spcCB-5-2射除特定知域段齐城.返网处理后的音领植入:/嫔粕由

20、:音版参数:除稻保护像别薛数含义:控制续域掩码的朋阐21audioIUgmentationB-5-3使用谑波器等对帝城进行失其处理,运Ia处理后的音1输入I音疑输出I音疑参数:陷私保护级别安放含义:选挣选用的效果器22audio.mcdin11B-5-4刘栗林点进行分块,块内果样点的均值作为新的票杆点粕入:或续输出:白版#ft:舫私保护is别去找含义:迂杆分块大小姑于匿名技术的脱粒算法衣B.3给出了12种基于域名技术的脱敏算法描述示例.表C3基于匿名技术的脱敏算法描述示例序序名称t)功徒使川方式1k-anymityC-I-IXtcsv攵件进行k-就名姓理,返回处理后的CSV文件输入:数值或标识

21、符型6V文件IftIh:数位或标识符型CKV文件Stt.k.泛化怏板参政含义,等价类中每条记录的故景.用于确定itt标识符的模板2CirDummyC-1.-2Vi干包;VH户JX实位置的虚损园产生股名位置,返回经纬度列表输入I炷性度筠出I经纬度舛丧tk.何幺Hk.断名区域面积s_cd,微环内径系数Iho结果牧组的长度,指定解名区域的面枳.指定虚环内径系数3GridDuminyC-1.-3些干包含用户真实位置的虚拟方格产生虚拟位置,这回经纬度M表输入I经绛收输出,经纬度列丧匿名15k.俵名区域面联1.Cd畛数含义:结果数组的长度,指定Bi名区域的面积4AdapCiVcInwiva1.Ckwkin

22、gA1.gri1.hnC-1.-4为M户生成虚假位J1.r返回经纬度列表输入I炫度、纬度输出I经纬度列表Stt.以小ttta2k,横弧坐标范围CttX.输出的数纲长度的最小位.包含所有用户的中形横纵4标范画5DSC-1.-5为M户生成虚假位置,返回经纬度列表输入:线度、W1.5TH:俭纬度列及Stt1W法类型杂数含义I用于选择使用哪肿CaDSA以法61.ocationK-anonymityC-1.6Bfi机选择KJ个匿名位置,耳克实位置一起形成K-K名位置集含.遍M经竦度列C.输入:经度、纬及Mr出:俭钝境列於Stt.匿名度k.虚拟位置库设纬度ttZ.近的经知收列衣长度,由损位巴应经纬度横圾坐

23、标列农7IdvcrsiVC-2-1为同一个等价类中生成至少1.料不同的收出属性位,返回处理后的CSY文件将入:数值或标识符型CV文件.1.:数位或标识符里CSV文件ft;k、1、泛化馍板Sftt等价类中林系记录的数M,等价类中放博璃性的种类ftM.用于确定准标识符的模板8Entropy-1.diveni)C22在一个等价类中敏照数据分布端的大小至少是Iog(1.),返冏处理石的C&V文件输入:M值或标识符型6V文件除出:数力或标识符量CSV文件Stt.k.1,泛化模板X等价类中也条记岐的数量.售价类中敢惑发性的种类用f确定小标识符的横板9RvCUniVCCIdivarsityC-2-3通过通归

24、的方式,保证等价类中炭经林出现的值的出现依率不要太5.返回处理后的点V文件输入I数值成标识符型CSV攵件输出I数仪或标识符型CSV文件参数:k、1、C、泛化模板参数含义:等价类中每条记求的数址.等价类中依然属性的种类a,用于调节某侬密机性出现的次教,用于确定准标识符的模板IO卜CIOCienCSS61对CSV文件进行tc1.nness姓理,返回处理后的CSV文件输入:数值或标识符型CV文件Mi1.1.:数处或标识符皇CSV文件*tt:k、1、泛化模板Stt等价类中每条记录的数M,控制等价类中或密M性的分布阔俏.网干确定准标识符的根板I1.Hi1.bcnC-3-2将用户的江实位转换为HI1.bc

25、it曲线上的值,返回经好收列式输入:短度、纬境输出:经祎慢列表Stt.Bi幺吱k.虚拟位费库经纬度tkZ迩网的”外收列衣长度,由拟位理球经托收横圾坐版列农12SpnceTwistC-3-3用于返回距岗用户或近的k个POI.返回经林度列表输入I炫度.纬度输出I经注度列表tk所有用户经绛收参政含义I逐回的经乙度列衣长度.所有Jf1.fI经笫度坐标列农基于置换技术的脱敏算法表B4给出了19种用干制换技术的脱敏峰法描述示例。表&4基于置换技术的脱敏算法描述示例的;名称编号功能使用方式IHidingD1.-I将i值杪换成常M,返回*换后的字符;1;瞬入:字符卡版出r字符中叁如Ia私保护线1参敛含义,选择

26、是否进行数值替换2ShihD12给数值增加一个固定的偏移量,返何处理后的数值谕入:致Ift输出:Wfft叁数I的私保护线别咨效含义:选技是否进行数值偏移3HashingD1.3格款第映则为定长ha5ft,返回处理后的字符申输入:字符申ttJ1.:字符申多敢:IS私保护拨别参侬含义:选择是否映射为哈布力4EnumerationD1.-4度射为新值同时保扑敌抠同序返回处我后的字符串喊人:致f1.则衰徜出,数值列衣参数:的私保护级别变欲含义:透择是否对位进行处理5PasSRCPhCCD-1-5快川随机欲热”代原始牧据.返同处理后的字符申收人:字符由偷出r字符市tt科保炉级1参数含义:选择是否使用防机

27、如K替代原始攻据611amcHidcD-1-6从第2个字符用代怜,返旧处理后的字符串取人:字符小输出r字符市段致:隐私保炉级别参数含义,迭抵足百处理字符小711umberHi1.cD1.7字符中中间的字符用代普,返回处理后的字符中愉人:字符由ttnh:字符*s.Ia私保护级别参数含义,遑杼是否处理字符串8uppressEmaiID1-8藏川希信忠.返财处理后的字符序输入:帆箱格犬的字符串,旬小字符申tt隐私保炉级别尊数含义:迭抵是否处理的精字符串9SupprcssAIIIpD-1-98HP地址五患.返M处津后的字符小输入:1P地址格忒的字符中输出I字符中tt私保炉级1参故含义,选杼是否处理IP

28、地址字符串IO、upp心NpRandomParisOI-IO格IPJfe址的机竹映为.返网处理后的字件串谕入:卬地址格式的字符中粕出:字符小ttsIa私保护线别Stt.选择是否处理IP地址字符中I1.imngc-cxchagc.c1.unnc1.D2-1.将图像的好个母森的RtiB通道他随机打乱,返何处理后的图像输入:图片输出:图片多故:心和保护段期多故含义:迭挣是否进行M机打乱12im3gc.iW.co1.or._ivnKve_bgD32将视嫉行武进行书换,返向处理后的视如牧人:枕寂输出:视加名:背景图片警效含义I选择目标行景图片16video_f3ce_wbD33格原现知人验替换为H标图像

29、人胫.返回处理后的视频蝙入:初版输出:视频参数:目标人脸图片参数含义:透抒H标人脸I?adio.rcshu1.cD41.对黄领进行分块.随机响挣所有分块后今并为一个音频.返回处理后的音箱蛛人:fH输出i与致:限科保炉级M效数含义:选抵分块数418app1.y.ndio.cbcisD42对音航进行拉伸,格位和措益,返回处W后的音频殊人:fM输出i参th科保炉级别ttZ逸拦处用3%的不同参检设网19voiceTPbCCD43川捌定声纹传摸【余始音领的声奴:,返回处理后的白领次人:音寂输出:音叙登数ia私保护纵别咨效含义I是否的炎蛆声仪附录C(奥料性)可逆性的计算方法概述可逆性可以通过逆向映射、字典

30、攻击、统计攻击、机器学习等方法判断,本附录介绍了逆向映时、字典攻击、统计攻击、机器学习的方法描述,可供和脱敏的组织者参考。逆向映射逆向映射是一种简单的可逆性评估方法,即会试将脱收后的数据电新映射网原始数掘.如果能筋准确还晚原始数据,说明脱取贪法不安全,逆向映射的关键在于找到逆向映射函数或算法,使得脱敞结果能够被逆向操作还原.字典攻击字典攻击是一种法于预先构建的字典或映射表来还斑脱敏结果的方法。攻击者通过穷举字典中的映射关系,尝试将脱眼结果映射回原始数据,如果能弊找到兀配的映射关系,即可还原原始数据.为了防止字典攻击.脱放算法需要使用陆机化技术或其他安全措诙,使得字典攻击的成功率极低.统计分析统

31、计分析是一种基于脱敏结果统计特征来推断原始数据的方法.攻击者通过分析脱收结果的统计特征,如焕率分布、均值、方差等,来推测燃始数据的可能取值范围.脱败贪法制要通过添加噪音、扰动或其他技术来陂坏统计特征,从而提高脱敏结果的安全性。机器学习攻击机器学习攻击是一种利用机涔学习模型来还像脱械结果的方法.攻击苻可以使用机器学习分法,通过训练模型来学习脱收结果与原始数据之间的映射关系,旦攻击者成功构建了准确的模型,即可使用该模型将脱敏结果还原回原始数据为了抵御机器学习攻击,脱敬尊法需要采用对抗性机器学习技术或其他防御机制,使得攻击乔难以构建准确的模型.附录D(奥料性)信息偏差性的计算方法概述信息偏差性可以通

32、过计第脱敏算法执行前后数据的均方误差、欧式咫离、余弦距离等我示,本附录介绍了和关计算信息儡差性的方法,可供皓私脱敏的祖织者参考。对于两个数据集X和丫,均方误基(McanSquarcdEaor.MSE)是刖来衡破它In之间的荽异程度的统计指标,它的作用是评估模型预测或拟合的准腌性,或者比较两个数据集之间的差异程度,均方误差的计算公式如卜:mcc=(*i-Ji)2MSE=均方误差nn表示数据点的个数.x表示X数据集中的第i个数据点,yi表示Y数据集中的笫i个数据点。比较俅始信息和脱敏信息之间的信息偏差性,可以计算它们之间的均方误差,均方误差的数值越大,表示脱敏操作引入的偏差越大,均方误差越小,衣示

33、脱械操作引入的偏炒越小.均方误差可运用的数据模态为:数伯型和编码型,均绝对误差对于两个数则集X和丫,平均绝对误差(MeanAbs。IUtCError.MAE是用来衡依它们之间的差异程度的统计指标,它的作用是评估模型预测或拟合的准确性,或不比较两个数据集之间的差异程度,平均绝对误差的计蚌公式如M(1.-y2,%)的欧氏距离d(x,y)的公式如下:d(,y)=W1.(x1.%)2比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的欧氏距昌,如果欧氏距离较小,则说明脱敏操作引入的偏差较小,反之则说明脱敏操作引入的偏差较大.欧氏距肉可运用的数据模态为:数值型和端码型.余弦距姿的计算方法余弦距离(

34、Cosinedistance,CD)是指两个向像之间的夹角余弦值,用于衡最它们的相似度,计算两个向量X和y的欧氏距离的公式如下:d(%y)=1._12I刀I1.XI1.1.1.yI1.其中,Xy是两个向质的点集,I1.X1.I和I1.y1.1.分别是向城X和向ty的范数.比较原始信息和脱敏信息之间的信息偏差性,可以计尊它们之间的余弦距商.余弦即肉的取值在0到I之间,如果余弦距离接近I,则说明脱敏操作引入的偏差较小,如果余弦距离接近0,则说明脱敏操作引入的偏差较大.余弦距离可运用的数据模态为:音领蟹.峙值信噪比峰伯信噪比(PeakSignaMaNOiseRa1.i。,筒称PSNR)是种用于衡法两

35、个数据发之间的重就质量或差异程度的指标,PSNRUJ以用于比较不同数据集之间的相似度,从而确定哪个数据集的质量史诙.较高的PSNR表示数据集之间的差异较小.较低的PSNR表示数据张之间的差异较大.计算两个数据维峰值信味比的公式如下:,MAX2vPSNR=IOgn)(诉F)1IOEi其中,MAX表示信号的般大可能取伯(对于8位图像通常为255,MSE表示均方误差,是两个数据集之间的平均差界。比较原始信息和脱欲信息之间的信息偏走性,可以计蚌它们之间的蜂值信嘤比。峰值信嗓比越高,我示数据集的偏差技小峥值信噪越低,表示数据集的偏差较大.峰值信噪比可运用的数据模态为:图像型和视版型.结构相似性指数结构.相似性指数(Structura1.Simi1.arityIndex.简称SS1.M种用于衡Ift两个图像之间结构相似度的指标.它综合考虑了亮度、对比度和结构等

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号