《2024自然语言处理的隐私政策自动表述研究.docx》由会员分享,可在线阅读,更多相关《2024自然语言处理的隐私政策自动表述研究.docx(22页珍藏版)》请在课桌文档上搜索。
1、自然语言处理的隐私政策自动表述研究目录序言V1简介12工作流程32.1 数据集42.2 数据标注52.3 模型训练73在线检测工具113.1 隐私政策自动表述工具113.2 隐私政策图形化表示124实验结果134.1 虚假隐私政策检测134.2 隐私政策完整性检测134.3 隐私政策的内容分布和完整性评分145总结17参考文献19A附录21隐私政策的自动化表述是隐私政策自动化检测的基础,表述结果可用于虚假隐私政策检测、隐私政策完整性检测等方面。本文针对中文语言的特点,采用众包任务的方式对隐私政策进行标注,创建了目前为止笫一个中文隐私条款训练集。使用自然语言处理技术实现了隐私政策的自动化表述工具
2、,工具的分类模型准确率达到90%。使用该工具,我们对来自华为应用市场的1,500份中文隐私政策进行了检测,检测结果表明38.5%的隐私政策为虚假隐私政策,剩余合法的隐私政策中,92.5%的隐私政策在完整性方面不符合自评估指南的要求。在隐私政策自动表述的基础上,设计了一种隐私政策打分方法,实验结果表明大部分隐私政策的得分位于低分数区间内。Chapter 1简介移动应用快速发展的同时,带来了一些安全问题。移动设备做为隐私集中地,需要确保其承载的隐私信息不被移动应用滥用。为保护用户隐私,欧盟出台了GeneralDataProtectionRegulation14(以下简称GDPR),落实了数据控制者
3、(APP运营者)处理数据主体(用户)信息的规则和数据主体应当享有的权利等规定。GDPR第29条工作组还特别强调,数据控制者的应用程序应该以分层的隐私声明或通知的方式向数据主体提供隐私信息(即隐私政策)相关的链接,而不是在设备上以单一通知的形式展示此类信息。国内也对隐私问题制定了一系列的技术规范和标准。包括:App违法违规收集使用个人信息自评估指南(以下简称自评估指南)、GB/T35273信息安全技术个人信息安全规范(以下简称“安全规范)和信息安全技术移动互联网应用程序(App)收集个人信息基本规范(以下简称“基本规范),从隐私政策文本、收集使用个人信息行为、用户权利保障等角度对隐私政策进行了规
4、范。欧盟的GDPR,国内的技术规范和标准都对隐私政策都提出了相关要求。隐私政策的目的是为了向用户说明个人信息如何被收集、使用和共享等数据实践,同时也对厂商起到约束作用,隐私政策通常可以通过链接访问的方式查看。根据MCDOnaki等人7的估计,如果认真阅读每一份隐私政策,那么身在美国的用户每年需要为此花费201个小时。我们的统计也表明,中文隐私政策平均包含138句话,用户也需要为阅读一份隐私政策花费大量的时间。隐私政策过长的篇幅、专业的内容等现实原因导致许多用户不愿意去阅读或无法直观的理解隐私政策的内容,在对内容不了解的情况下,大多直接选择接受应用的隐私政策,在这种情况下,用户对于个人信息的处理
5、并不知情。如应用ZAo在其隐私政策中声明的:在您上传谶发布用户内容以前,您同意或者确保实际权利人同意授予ZAC)及其关联公司以及ZAo用户全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利被大多数用户忽略。针对这种现状,现有的法规/标准都对隐私政策提出了清晰易懂的要求,也有相关工作试图标准化隐私政策10,3,5,16。另外还有一些隐私政策自动化表述的研究工作来解决用户阅读隐私政策困难的问题。如针对英文,PO1.ISIS等工具使用众包任务对数据进行标注、使用自然语言处理技术自动从隐私政策中提取数据实践内容15,4;C1.AUDETTE2使用了机器学习方法来自动检测不公平条款。本文研究中
6、文隐私政策的自动表述,用于定位一份隐私政策中的相关内容,在此基础上,检测虚假隐私政策,检测隐私政策的完整性。基于自动化表述的结果,我们设计了一种评分方法为隐私政策打分。Chapter 2工作流程为了实现隐私政策的自动化表述,使用众包任务方式对数据进行标注,使用自然语言处理技术识别隐私政策中的相关条款。在模型建立阶段,采用众包任务方式,根据逐步优化的分类标准标注隐私政策以建立训练数据集,然后使用数据集训练分类模型,在对朴素贝叶斯、支持向量机、卷积神经网络三种分类方法比较的基础上,最终使用支持向量机对数据集进行分类;在线检测阶段中,通过分类模型对隐私政策内容进行分类,根据分类结果对隐私政策内容进行
7、分析。具体的工作流程如图21所示。Figure2.1:隐私政策自动表述流程2.1数据集隐私政策可以通过多种渠道采集,如搜索引擎、应用市场等。应用市场为开发者分发应用时,为开发者提供设置隐私政策链接的接口。用户在通过应用市场浏览应用时,可以通过该链接查看开发者设置的隐私政策,如图2.2所示。相比其他渠道的隐私政策,应用市场的隐私政策与移动应用紧密相关,因此质量较高。因为这些隐私政策属于公开信息,所以我们设计了针对移动应用市场的爬虫来获取这些隐私政策。具体来讲,本研究中的数据集为来源于华为应用市场的隐私政策。无服务第卜。Bt84XHftK6S应用详情Q介的评论51387)推券58RIWHannSW
8、住小安装安装安装安装安装咫开发者的其他应用支付宝Alipay(HangztxMj)TechnologyCo.1.tdmr支付TW打开开发者支忖宝(杭州)18技术有限公SI|隐私政策新版变化上次购新时间:2Q19年10月21日支付宝新版来IK1本次更新:多项性嵯优化,启动更快,体验更流圜读更多内容开发者联系信息网站B电子邮件suchang.sc应用权限检,出此应用我取12个轴感玲和权跟:(八)华为应用市场的隐私政策I黄私权政第与此庆用相关的应用/海戏(b)谷歌应用的市场隐私政策Figure2.2:应用市场中的隐私政策为形成训练数据集,我们对从华为应用市场中提取的覆盖17种应用类型(包括影音娱乐、
9、实用工具、社交通讯等)的100个热门应用的隐私政策进行了标注。接下来在2019年11月23日至2019年11月28日期间,通过持续对华为应用市场进行监控,我们爬取了1500份隐私政策用于检测。基于100篇隐私政策统计发现,平均每篇隐私政策包含138句话。隐私协议中句子数量的分布如图2.3所示,其中5%的隐私政策长度小于50句话,9%的隐私政策长度大于200句话,隐私政策长度呈现一定的差异性。200Figure2.3:隐私政策长度分布2.2 数据标注为形成训练用数据集,使用逐步优化的方法确定了标注标准、采用众包任务的方式对数据进行了标注,最终建立了带标签的数据集。该数据集是迄今为止第一个中文隐私
10、条款训练数据集。标注标准确定:当前法规/规范/标准比较多,包括GDPR、自评估指南等。这些文件从不同的角度对隐私政策提出要求,如“自评估指南从宏观的角度要求APP运营者在隐私政策文本中清晰说明个人信息规则和用户权益保障,与此同时,又从微观上对细节提出了要求,如要求APP运营者提供基本信息、个人信息安全保护措施和能力等。为尽量覆盖这些文件的要求,需要建立一个可扩展的标注标准,我们借鉴Poli-Sis15,4的方法对隐私政策内容进行了划分,结合隐私政策进行标注过程的反馈反复进行修正,最终形成类别-属性-值层次结构的标注标准。该标注标准包含7个类别,50个属性,91个值1,部分分类标准如图2.4所示
11、。分类标准中的类别代表数据控制者的数据实践内容,如:第一方收集/使用、与第三方共享/转让/公开等,分别用First-Party-Collect-UseThird-Party-Share等标不力三方朗内,三方*m事件(events)和属性(attributes),其中的属性绑定了一组值(VahIeS)供标注任务选择。我们利用了BRaT工具中的实体、属性和值字段,分别对应标注标准中的类别、属性和值字段,在此基础上,形成了如图2.5所示的在线标注工具。Figure2.5:在线标注工具标注过程:标注过程以众包任务的方式进行,招募的10名学生全部来自于法律相关专业,在确保标注者充分理解分类标准的基础上,
12、对其开放在线标注工具入口以对隐私政策进行标注。对标注有疑问的内容都经过了充分的讨论,最终通过调整标注标准或者放弃标注等方式解决。对于每一个标签我们支付了0.4元的报酬,整个标注过程历时90天。我们通过检验数据标注的一致性,证明数据标注内容是可信的。该过程最终形成了包含100篇隐私政策的数据集2。参考了OPP-Il515】的命名方法,我们将该数据集命名为Chinese-OPP-100,该数据集中共包含11,440个类别和属性标签。数据处理:通过BRaT标注的结果以ann文件格式进行存储,如图2.6所示。ann文件中包括所标注文本内容在隐私政策文件中的范围,所标注的类别、属性和值,每一个标签的内部
13、编号等信息。在标注过程中,由于标签可能标注在关键词上,而分类器以句子为单位接收数据,因此将ann文件的内容以句子为单位进行标签合并,即如果标注内容在隐私政策中某一句话的范围内,则将其对应的类别、属性和值赋于这一句话。号类别范囹内容TlOFirst-Party-,COlIoctTJse15611579在您注易支付宝Q或使用支付宝务时编号属性编号值AlOFirst-Party-ColIect-Use-Collect-TiBingTlOMecificFigure2.6:ann格式文件内容标注数据集按类别统计结果如表2.1所示。表2.1为7个类别中每个类别的标签数量,以及它们在每篇隐私政策中的均值和中
14、位数,直观上的观察发现类别在每篇隐私政策中分布不均,FirSt-Party-ConeCt-USe在隐私政策中占比较高,说明第一方收集/使用个人信息是隐私政策中相对重要的内容。2.3 模型训练为能自动化表述隐私政策的类别,采用机器学习、深度学习技术对隐私政策进行分类,具体包括特征提取和模型构建工作。特征提取的目的是提取隐私政策内容的特征,将特征转化为模型可识别的格式。采用朴素贝叶斯、支持向量机、卷积神经网络三种技术构建多标签分类模型,并对分类模型进行评估。针对数据存在不均衡问题,使用惩罚学习算法。0httpstaticdataChina-OPP-lOO-Crowdsourcing-Project
15、-dataset.zipTable2.1:标注数据集类别统计类别(用标签表示)出现次数均值中位数Data-Security59867First-Party-Collect-Use20082024General-Information21242124Policy-Change21222Spedfic-Audience16622Third-Party-Share901910User-Access-Edit-Delete-Control86899训练数据预处理:对训练数据,首先使用川EBa13分词工具对中文文本进行分词,并删除数字、特殊符号和标点符号,同时删除诸如“我们,是等噪声词对数据进行清洗。在
16、此基础上,使用TF-IDF算法9对特征进行选择。分类模型构建:考虑到数据实践是由多个类别组成,因此构建多标签分类模型。先对数据集中的7个类别构建一个多标签分类模型,之后针对每一个属性继续构建多标签分类模型,将多标签分类问题转换成多个二分类问题。具体使用了基于SCIKIT-1.EaRN工具包8的朴素贝叶斯和支持向量机,以及基于KERas1的卷积神经网络。(i)朴素贝叶斯:朴素贝叶斯算法主要针对二元分类,因此采取问题转换的方法来解决隐私政策中的多标签分类问题。我们使用二元关联(BinaryRelevance,BR)分解策略,忽略标签之间的相关性,将多标签分类问题转换为多个一对多分类问题。同时构建多
17、项式朴素贝叶斯模型来实现隐私政策文本的多标签分类。(ii)支持向量机:在样本数量少且特征数量多的情况下,考虑线性支持向量机,使用核函数将有限维空间映射到高维空间,使其线性可分。具体采用SCIKIT-1.EaRN工具包中OneVSReStClaSSifier进行实现,并将kernel参数设置为linear”。(iv)卷积神经网络:在嵌入层使用腾讯Al1.ab的中文词向量数据11将输入内容转换为向量矩阵形式,卷积层中使用Re1.U激活函数提取特征,经过池化层进行降维,然后在展开层,丢弃层和全连接层中进行整合处理,并防止出现过拟合现象。考虑到多标签分类,在全连接层中采用SignWd作为激活函数。表2
18、.1展示了数据不均衡问题,即一些类别的样本数量远大于其他类别的样本数量。这些不平衡数据可能导致分类模型更倾向于将新样本预测为样本数量多的类别。为了缓解不平衡数据的影响,在支持向量机和卷积神经网络中采用惩罚学习算法来处理这个问题,使用ClaSS_weight参数,平衡类别之间的权重。Table2.2:分类裾对类别进行分类的评价指标(Precision/Reca11/F1)类别朴素贝叶斯支持向量机卷积神经网络精准率召回率Fl-score精准率召回率Fl-score精准率召回率F1-scoreData-Security0.930.620.740.850.760.800.850.650.73First
19、-Party-Collect-Use0.880.770.820.850.890.870.740.800.77General-Information0.910.610.730.870.850.860.890.800.77Policy-Change1.000.390.560.740.850.790.910.480.62Specific-Audience0.880.650.751.000.840.910.820.450.58Third-Party-Share0.910.620.740.710.810.760.780.780.781.jser-Access-Edit-Delete-Control0.9
20、10.560.690.860.830.840.830.700.76avg0.900.650.750.840.850.840.830.670.72评价指标:将数据集以8:2分成训练集和测试集,对于朴素贝叶斯、支持向量机和卷积神经网络,我们使用网格搜索自动调整参数。表2.2给出通过该方法在测试集上得出的类别分类器的评价指标,包括精确率、召回率和Fl值。比较发现,朴素贝叶斯和卷积神经网络在Fl-score指标方面没有达到与支持向量机相同的性能,支持向量机在自动化表述隐私政策的过程中表现良好。总体来讲,我们的分类器的评价指标与针对英文的自动化表述工作的PO1.ISIS(88.4%)基本一致。附录中表A
21、.1-A.14列出了分类器在分类每个属性时的评价指标。Chapter3在线检测工具3.1隐私政策自动表述工具我们对性能表现优异的支持向量机分类器进行了封装,形成了在线分析工具1,如图3.1所示。该在线分析工具通过隐私政策链接爬取网页内容,对隐私政策内容进行预处理和分类,对于隐私政策自动表述结果进行着色展示,不同颜色表示不同的数据实践。隐私政策UR1.:httpydocsalipay.co11VpoliciesprivacyalipayIWMHMKAAMWtMB4t.EtMMHleAt.Mt*4*fnXAPP*!t19mttMUIWOCMi.0o费忖SMttiMU9o.口五行Itn鬟忖。IbQ支
22、检.nm三tMMt三.IinaMttttiIMB.不堪侵IlMlitlKimt.仍可a他力真费内.11安全3为7MQ偎的勇种安金盒6.mMftQ三M.Hf!”记3M的殳何Itt1.KAF1.iflMtM*fl.0Mi.MM习Jl蛆U犬忖童黄力日g.皿不IURCeaeHmi.可无Ew2.吹BB)*a*R.SQrsu*jmNraeA9MM*rwaaum.不逐口.不仁*餐MM电3.io.18美建梅温Ju*.在下超申.fijMeMt*ffMwrrAmj)s.axMMfiamjm.o)慵.*RCManwato.U)fnCMM.N尸大含3G值及假,tUB本人的ISlAHMKAaI雷e依合公众公w(*)从台
23、温心内,.ftanM.wMajurrm*m三.14.Mm.MRZ0IrMl务量不夏MDRM.=遍HQIlTIR谖IMn中段夫的”,子Ol野就Q安0fl屏,.m*9iiHM9.&9M.Q覆%x*方式另“商惠MaIM2iM与a”,fwvm9.ct三uAmw尸0馍杓案网、春情、附外俏为UFXS且;n惠这样不8WMII.重可无雄侵网“9分务.但不窈,便用所及”XMft.M.三方主体司蔻gim费特工而第零I务.MH8入三方受。温务B9*XVft*A1*M仪.9ARBQt0ffM三方变D第段妁企.ntt11(MCoc.8mcon,2y2XflMMBew,选么可a入注Wfmttfe.斌ft女司Com.iCM
24、snxiBM1*M(UTICQw.iasm.三fiMBRiamcooiJjw!fit.sceMacflftaraAcn.土司*x句8mmhi值/第Figure3.1:在线分类工具113.2隐私政策图形化表示除了在线表述工具外,我们还使用色带对隐私政策的分类结果进行图形化展示。如图3.2的三张柱状图显示了三个隐私政策分类结果的图形化表示。其中横坐标代表了隐私政策总共有多少句话,柱状图的颜色表示不同的数据实践。实践中,我们观察到数据控制者会在隐私政策的同一句话中对多个数据实践进行描述。如在支付宝隐私政策提到:为了保障您的信息安全,我们在收集您的信息后,将采取各种合理必要的措施保护您的信息。例如,在
25、技术开发环境当中,我们仅使用经过去标识化处理的信息进行统计分析;对外提供研究报告时,我们将对报告中所包含的信息进行去标识化处理。我们会将去标识化后的信息与可用于恢复识别个人的信息分开存储,确保在针对去标识化信息的后续处理中不重新识别个人。这一数据实践同时提到了第一方收集/使用和数据安全。因此,如果某一句话同时描述了多个数据实践,则在图中表现为交叠的色块。(b)哗哩哗哩类别分布(八)支付宝类别分布Figure32应用类别分布(C)作业精灵类别分布Chapter4实验结果4.1 虚假隐私政策检测如图2.2所示,应用市场会为开发者提供填写隐私政策链接的接口,但部分开发者会在此接口处填写用户协议、官方
26、网站或用户协议和隐私政策的混合文本链接。据我们的爬虫显示,仅华为应用市场中就存在上万个隐私链接,因此人工审核这些虚假隐私政策是不现实的。为了能自动化检测出这些虚假隐私政策,基于隐私协议自动化表述开发了检测工具。虚假隐私政策检测是基于以下事实设计的,即隐私政策是用来描述数据实践的,即除“其他通用信息和无法分类的信息以外的信息,如果一篇隐私政策中的数据实践内容的百分比小于R,则认为该隐私政策为虚假隐私政策。经过在小型数据集上的简单实验,我们将R设置为0.55,并对华为市场中的1,500份隐私政策进行了虚假检测。在1,500篇被检测的文档中发现,578(38.5%)篇文档属于虚假隐私政策。随后对检测
27、结果进行的抽样确认显示,R的值设置是合理的,也从侧面证明数据实践内容应该占隐私政策文本的55%以上。4.2 隐私政策完整性检测如2.2节所述,目前法规/规范/标准对数据实践的完整性定义是不一致的,因此需要单独为某个法规/规范/标准来整理有针对性的检测项。本节利用数据集可扩展的优势,依据自评估指南的要求,来检测隐私政策的完整性。在自评估指南中,要求隐私政策清晰说明个人信息处理规则及用户权益保障,其要求隐私政策所描述的内容分别对应我们设定的分类标准中的某些类别和属性。其中和我们设定的分类标准中的类别相对应的要求包括:个人信息的使用规则、个人信息安全保护和措施能力、对外共享/转让/公开披露个人信息规
28、则和用户权利保障机制;与属性相对应的要求包括:APP运营者信息、个人信息存储和超期处理方式、个人信息出境情况、用户申诉渠道和反馈机制、隐私政策时效和隐私政策更新。例如,图3.2(C)所示的应用作业精灵在隐私政策中没有提到隐私政策更新、APP运营者信息、个人信息存储和超期处理方式、个人信息出境情况,在这些方面未能满足自评估指南的要求。基于隐私政策自动化表述结果,我们对经过过滤的922篇合法隐私政策进行统计,如图4.1所示,从统计结果发现,总共有853(92.5%)篇隐私政策没有完整说明自评估指南所要求的内容,其中有707篇隐私政策没有提到个人信息超期处理方式,分别有414篇和447篇没有提及个人
29、信息存储方式和个人信息出境情况。最终实验结果表明,目前大部分隐私政策内容在完整性方面不能满足”自评估指南的要求。800700缢4003002001000A.zno9slQ三l-O二Uoo-B。一Altpss8Q1.snMPJ)QFigure4.1:隐私政策内容完整性检测4.3隐私政策的内容分布和完整性评分观察发现,隐私政策内容分布中最常见的问题是:一个类别的内容在隐私政策中多处提及,而不同类别的描述又可能在隐私政策中某个位置交叉提及,在这种情况下,用户很难抓住数据控制者想要表达的具体实践。如很常见的第一方收集/使用信息和与第三方共享/转让/公开信息这两个类别的内容在隐私政策中交错提及,用户容易
30、将与第三方共享的信息误看作第一方收集使用的信息。因此我们认为隐私政策的内容分布越集中,则得到的评价应该越高。我们以类别为依据,对隐私政策分布情况进行评价,设计了如下评价方法:假设一篇隐私政策包含N句话和M个类别G,其中某个类别Ci包含m句表述。针对某个类别G,我们使用公式(4.1)的评价方法来表示其内容表述是否集中。N2-,ild2E(C)=肉(4.1)其中表示相同类别G表述内容之间的间隔,代表相同类别表述内容之间包含其他类别表述内容的数量。公式(4.1)的例外情况为:如果一份隐私政策中缺少与G对应的隐私政策描述,则E(C)=O;如果与。对应的隐私政策只有一句话,则E(G)=Io对于整篇隐私政
31、策,使用如公式(4.2)评分方法。公式(4.2)中的Q=138,为隐私协议中平均语句数量。之所以在类别平均评分结果上乘以系数,是为了避免如图2.3所示的只包含少量内容的隐私政策得到高的评分,最后使用arctan函数进行归一化处理。arctan(1及*9)X知*2(4.2)E=一在该评价方法下,图3.2(八)所代表的支付宝最终得分为0.37;图3.2(b)所代表啤哩啤哩的最终得分为0.44;作业精灵最终得分为0.12o基于以上算法,我们对隐私政策的内容分布作了评分,来观察隐私政策表述是否集中、内容是否完整。图4.2给出了922篇隐私政策的得分分布,图中横轴代表隐私政策的分数,纵轴代表评分区间内的
32、隐私政策的数量。从中可以看出,有32.6%(301篇)隐私政策在0-0.2区间内,6.3%(57篇)的隐私政策在0.543.7区间内。总体上说明集中程度较一般的隐私政策数量非常少,多数隐私政策是较好集中或是较差集中的。Figure4.2:隐私政策得分分布Chapter5总结本文设计了一种隐私政策自动化表述的方法,基于该方法,我们对隐私政策的虚假性、完整性进行了评价,并对隐私政策打分。分析结果表明,目前隐私政策的总体质量较低,无法真实体现数据实践。AppendixA附录TableA.l:SVMforFirst-Party-Collect-Uselabelprecisionrecallfl-sre
33、supportCollect-Channel0.930.970.95108Collect-Purposc0.810.930.87351Collect-User-Choice0.890.810.85173Coilect-User-Choice-Influence0.950.890.92201Technology-Used0.950.970.96168avg0.910.910.9111TableA.2:NBforFirst-Party-Collect-Uselabelprecisionrecallfl-scoresupportCollect-Oannel0.910.910.91108Collect
34、-Purose0.850.870.86351Collect-User-Choice0.800.790.79173Collect-User-Choice-InflUenCe0.840.890.86201Technology-Used0.920.960.94168avg0.860.880.8711TableA.3:NBforUser-Access-Edit-Delete-Controllabelprecisionrecallfl-scoresupportChannel0.800.890.84265Influence0.960.890.93237Provider-Action0.930.830.88
35、208User-Action0.790.800.80253avg0.870.860.86963TableA.4:SVMforUser-Access-Edit-Dclete-Controllabelprecisionrecallfl-scoresupportChannel0.800.870.84182Influence0.970.900.93168Provider-Action0.910.930.92175Uscr-Action0.790.890.84180avg0.870.900.88705TableA.5:SVMforThird-Party-Collect-1.Jselabelprecisi
36、onrecallfl-scoresupportCollect-Entity0.950.820.8873Collect-Interactive0.800.950.8743Collect-Purpose0.890.810.8531Collect-Timing0.890.930.9145Enforcement1.1.1.37Technology-Used1.0.900.9541avg0.92OAK)0.91270TableA.6:NBforThird-Party-Collect-Uselabelprecisionrecallfl-scoresupportCollect-Entity0.900.810
37、.8553Collect-Interactive0.830.830.8330Collect-Purpose0.880.880.8825Collect-Timing0.790.970.8731Collect-Enforcement1.000.960.9823Collect-Technologjr-Used1.000.970.9829avg0.900.900.90191TableA.7:NBforData-Securitylabelprecisiorecallfl-scoresupportData-Migration0.940.980.9665Data-Overdue0.850.920.8951E
38、vent1.000.920.9672Measure0.890.900.90105Storage-Duration0.920.800.8569avg0.920.900.91362TableA.8:SVMforData-Securitylabelprecisionrecallfl-scoresupportData-Migration0.980.910.9444Data-Overdue0.970.950.9640Event0.980.940.9649Measure0.850.970.9189Storage-Duration0.920.770.8447avg0.940.910.92269TableA.
39、9:SVMforPolicy-Changelabelprecisionrecallf1-scoresupportNotification0.840.940.8917Reason0.950.870.9123User-Choicv0.860.860.8614avg0.880.890.8954TableA.10:NBforPolicy-Changelabelprecisionrecallfl-scoresupportNotification0.851.000.9217Reason1.000.830.9023User-Choicc0.930.930.9314avg0.930.920.9254Table
40、A.ll:SVMforSpecific-Audiencelabelprecisionrecallfl-scoresupportResponse0.970.870.9238User-Choice0.940.980.9646vg0.960.930.9484TableA.12:NBForSpecific-Audiencelabelprecisionrecallfl-scoresupportResponse0.950.930.9442User-Choice0.880.970.93390.920.950.9481TableA.13:SVMForGeneral-Informationlabelprecis
41、ionrecallfl-scoreOperator-Information0.950.970.96Policy-Cover0.930.850.96PoHcjr-EFfcctivencss1.000.900.95Privacy-Contact0.920390.72Privacy-Response0.970.860.91avg0.950.850.90TableA.14:NBForGeneral-Informationlabelprecisionrecallfl-scoreOperator-Information0.940.950.94Policy-Cover0.900.750.82POlicy-Effectiveness1.oO0.750.82Privacy-Contact0.92