《网络空间加密公害视频流量识别技术要求.docx》由会员分享,可在线阅读,更多相关《网络空间加密公害视频流量识别技术要求.docx(13页珍藏版)》请在课桌文档上搜索。
1、ICS35.030CCSMlO团体标准T/JSCSAXXXXXXXX网络空间加密公害视频流量识别技术要求TechnicalRequirementsforEncryptedPublicHazardVideoTrafficIdentificationinCyberspace(征求意见稿)XXXX-XX-H发布XXXX-XX-XX实施江苏省网络空间安全学会发布目次前言IT1范围32规范性引用文件33术语和定义34缩略语35概述45.1 加密公害视频流量识别的应用场景45.2 加密公害视频流量识别的数据采集45.3 网络空间公害视频流量识别技术框架46公害视频库构建要求56. 1总体要求56.2公害视
2、频库内容和来源57公害视频指纹库构建要求67. 1概述67.2公害视频指纹库内容68加密视频传输数据分析78. 1概述78.2 加密视频流量过滤和平台识别78.3 为机器学习视频识别方法提取加密流量特征信息88. 4为指纹匹配视频识别方法提取加密视频应用层特征89公害视频流量识别98.1 概述99. 2视频分类识别算法910. 3视频匹配识别算法910加密公害视频流量识别结果的应用1010.1 可视化管理界面展示1010.2 网络空间安全管理模块数据源10本标准按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构利起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本标准的
3、发布机构不承担识别专利的责任。本标准由江苏省网络空间安全学会提出并归口。本标准起草单位:东南大学、南京烽火星空通信发展有限公司、中国信息通信研究院、江苏省未来网络创新研究院本标准主要起草人:吴桦、程光、胡晓艳、陶军、刘嵩涛、陈子涵、汪洋、辛鑫、张广兴、田利网络空间加密公害视频流量识别技术要求1范围本文件规定了网络空间加密公害视频流量识别技术要求,包括加密公害视频流量识别的应用场景、采集要求和识别要求。本标准适用于指导互联网服务接入提供商、网络安全厂商和网络安全空间治理单位等进行网络空间加密公害视频流量识别。该标准涵盖了规划设计、研发、运营管理和升级改造等各个阶段,并可供其他相关系统参考和应用。
4、2规范性引用文件本文件没有规范性引用文件。3术语和定义3. 1公害视频pubIichazardvideo具有有害性质或恶意意图的视频内容,可能包含赌博、诈骗、色情、盗版、黑产、谣言等,这些视频可以通过网络进行传输。3.2加密公害视频流量识别encryptedvideotrafficidentification使用流量分析技术对加密网络流量进行分析,识别出加密网络流量所传输的公害视频内容。4缩略语下列缩略语适用于本文件。UR1.:统一资源定位符(UnifonnResource1.ocator)IP:互联网协议(InternetProtocol)TCP:传输控制协议(TranSnIiSSiOnCo
5、ntrolProtocol)UDP:用户数据报协议(USCrDatagramProtocol)T1.S:传输层安全协议(Transport1.ayerSecurity)HTTP:超文本传输协议(HyPCrteXtTransferProtocol)GQUIC:谷歌快速UDP网络连接(GOOgleQuickUDPInternetConnections)DASH:基于HTTP的动态自适应流(DynamicAdaptiveStreamingoverHTTP)H1.S:HTTP实时流媒体(HTTP1.iveStreaming)SVM:支持向量机(SupportVectorMachines)KNN:K近邻
6、(KNearestNeighbors)CNN:卷积神经网络(ConvolutionalNeuralNetworks)5概述1.1 加密公害视频流量识别的应用场景通过互联网进行信息交互和资源共享已是现代社会生活的一部分,随着移动互联网的发展和网络带宽的增长,各类应用软件通过视频这一易于理解的方式传播信息。但是一些网络公害内容也通过各类应用在网络中传输,这些公害内容包括赌博、诈骗、色情、盗版、黑产、谣言等。由于网络信息传播速度非常快,需要尽可能快速地发现网络空间中的公害视频,以便及时阻断其传播。现有一些视频平台基于平台管理人员的审核识别公害视频,这无法保障识别速度;也有一些视频平台使用基于人工智能
7、技术的自动化审核方法,但是这类方法所需计算和存储资源成本较高,无法确保所有平台参与合作。从网络空间管理的角度看,在视频流量传输时及时识别出公害视频流量有利于快速进行处置。但是随着对数据安全的重视和密码技术的发展,使用端到端加密协议对应用数据进行加密的应用越来越多,大部分视频平台也都采用了加密技术进行数据传输,这导致互联网流量中公害视频流量与普通视频流量一样都是加密流量。因此,从流量中识别出公害加密视频流量需要使用加密流量分析技术。为了保障网络空间的清朗,互联网服务接入提供商、网络安全厂商和网络安全空间治理单位需要在网络接入点使用加密流量分析技术识别出加密公害视频流量并快速进行处置。1.2 加密
8、公害视频流量识别的数据采集由于互联网中可以共享视频的应用平台种类多,更新快,且相当多的平台不受监管,导致从平台侧对公害视频进行统一数据采集和管控相当困难。在网络接入点采集数据不需要视频服务器和用户的合作,具有较好的可行性。互联网服务接入提供商、网络安全厂商和网络安全空间治理单位可以在网络接入点通过流量镜像、链路分光等方式得到流量分组数据。流量分组数据可以直接送入在线分析程序进行实时分析,也可以将流量分组数据存为PCaP格式的文件供离线分析程序进行离线分析。流量采集应严格遵守相关法律法规,明确采集范围、权限和采集行为的管控措施,避免采集阶段数据泄露。同时需要确保采集数据的质量,给出明确的采集标准
9、和规范,根据网络带宽、吞吐量配置足够的存储和处理资源,支持数据的高速存储和处理。采集系统应能支持带宽升级扩展,持续稳定根据配置要求采集特定接入点的流量数据。5. 3网络空间公害视频流量识别技术框架网络空间公害视频流量识别指从加密传输的网络流量中识别出传输的公害视频流量及视频内容,技术主要包括:a)公害视频库构建:通过人工方法或者自动化技术构建公害视频库;b)公害视频指纹库构建:面向不同的视频分发技术构建公害视频指纹库;c)网络空间加密视频传输数据分析:对网络空间中传输的加密视频流量进行特征提取,获得视频传输时的特征;d)公害视频流量识别:基于公害视频指纹库识别网络空间中传输的公害视频流量及其内
10、容。6公害视频库构建要求6. 1总体要求公害视频库构建应该由网络空间管理权威单位或者部门主持开展,遵循合法必要的原则,明确视频库范围、构建者权限,确保公害视频的真实性和有效性。同时公害视频库的构建应满足:a)完整性:确保公害视频库中包含完整的视频内容标识,以便进行准确的识别和分类。b)多样性:公害视频库应包含不同来源渠道、不同形式和不同特征的视频,以覆盖更多的公害内容。c)标记和分类:对公害视频进行标记和分类,以便进行准确的识别和分析.d)实时更新:定期更新公害视频库,添加新的公害视频,并删除已失效的视频。e)隐私保护:在构建公害视频库时,应遵守相关隐私保护法律法规,确保不侵犯合法用户隐私权。
11、6.2公害视频库内容和来源构建公害视频库时,应广泛收集不同类型的公害视频,包括赌博、诈骗、色情、盗版、黑产、谣言等。视频来源可以包括以下几个方面:a)视频分享平台:视频分享平台包括视频点播、视频直播、短视频平台等,是公害视频的重要来源。这些平台上有大量用户上传和分享的视频,其中可能存在有害内容。b)社交媒体平台:社交媒体平台是公害视频的重要来源之一,这些平台上用户可以分享和发布各种类型的视频内容,其中可能包含有害或恶意的视频。c)恶意网站:恶意网站是指那些故意传播有害内容或进行恶意活动的网站。这些网站可能包含赌博、诈骗、色情、盗版、黑产、谣言等有害视频。d)举报渠道:网络用户可以通过举报渠道向
12、相关机构报告有害视频,这些用户举报可以提供有关有害视频的线索和证据,帮助完善公害视频库的内容。e)合作伙伴和第三方数据提供商:与合作伙伴和第三方数据提供商进行合作,获取他们收集和整理的有害视频数据,以扩充公害视频库的内容来源。通过从多个渠道收集公害视频,并进行有效的标记和分类,可以构建一个全面且多样化的公害视频库,为网络空间加密公害视频的识别打下基础。7公害视频指纹库构建要求7.1 概述公害视频指纹库存储公害视频在网络空间中传输时的流量特征,用于进行公害视频识别。公害视频在网络空间传输的流量特征与分发该视频的平台所使用的技术方案密切相关,因此需要基于公害视频库,结合各类公害视频所属平台的技术方
13、案,构建公害视频指纹库。公害视频指纹库包含了公害视频与平台相关的信息,也包含了视频在网络传输过程中的流量指纹信息。这些信息与视频的封装特性,如视频格式和分辨率等有关,也与视频分发平台所使用的流媒体分发标准、加密协议、传输协议相关。因此,对同一内容的视频,当其来自不同平台,或者来自同一平台不同的分辨率,在视频指纹库中都具有不同的指纹信息记录。在构建公害视频指纹库时,相同内容的视频可能因为上述因素的不同而具有不同的信息记录。在公害视频指纹库中,具有相同内容的视频,如果具有不同的视频信息记录,会被视为不同的视频,并使用有效标注进行区分。7.2 公害视频指纹库内容公害视频指纹库中的视频指纹信息记录包括
14、视频的描述信息和视频传输的流量特征,其中应当包括能唯一确定视频的视频指纹。公害视频指纹库的内容基于不同的视频识别方法可以包括不同的内容。目前的技术方法主要分为机器学习的分类方法和基于指纹匹配的方法。当使用机器学习的分类模型,基于视频传输历史记录进行公害视频流量识别时,对每个公害视频,视频指纹库中主要包括以下内容(标*号为必须,其余为可选,也可增加其他可选内容): 视频来源平台(*); 视频在平台中的唯一编号(*); 视频类型(*); 视频题目(*); 多次视频播放时采集的视频流量(*); 视频简介信息 视频上传者 视频播放时长 视频文件格式 视频文件地址 视频上传日期 视频帧数 音频编码器 视
15、频编码器当使用指纹匹配方法进行公害视频流量识别时,对每个公害视频,视频指纹库中对每个视频的描述信息主要包括以下内容(标*号为必须,其余为可选,也可增加其他可选内容): 视频来源平台(*); 视频在平台中的唯一编号(*); 视频类型(*); 视频题目(*); 视频分段数量(*); 视频分段长度(*);视频文件总长度视频分辨率;视频传输协议视频简介信息视频上传者视频播放时长视频文件格式 视频文件地址 视频上传日期 视频帧数 音频编码器 视频编码器 视频所在网页的UR1. 视频封面图片构建公害视频指纹库应至少支持以下要求:a)能够支持大规模的视频指纹数据存储和管理,能够包括不同平台的大量公害视频指纹
16、信息;b)视频指纹信息应具备高准确性,能够用于准确识别或者匹配视频指纹信息,降低误判率;c)视频指纹库应具备高效的数据存储和检索能力,能够支持在短时间内完成视频指纹的比对和匹配。d)视频指纹库应具备良好的可扩展性,能够方便地添加新的视频平台和视频指纹记录;e)视频指纹库应具备良好的兼容性,能适用于不同的视频指纹采集和识别技术;f)视频指纹库应具备高稳定性,能够长时间地运行和维护指纹数据的完整性,并对异常情况进行处理和恢复。8加密视频传输数据分析8.1 概述视频数据通过端到端加密传输,互联网服务接入提供商、网络安全厂商和网络安全空间治理单位从传输路径的接入点得到数据,根据管理需求,可以实时分析,
17、也可以将流量分组数据存为PCaP格式的文件离线分析。数据分析的目的是从加密传输的流量数据中提取出视频的流量特征,用于后续进行视频识另人使用的技术根据识别方法会有不同,主要包括视频流量过滤和平台识别、为机器学习视频识别方法提取加密流量特征信息、为指纹匹配视频识别方法提取加密视频应用层特征等。8.2 加密视频流量过滤和平台识别从流量分组数据中过滤出视频流量,并识别出视频分发平台,从而根据视频分发平台确定后续使用的技术模块。由于流量被加密后无法使用深度报文解析方法,只能通过伴随流量或者基于统计的方法进行视频流量过滤和平台识别,主要方法包括:a)基于域名伴随流量特征;b)基于T1.S协议证书交换信息;
18、c)基于不同平台视频流量通信行为训练的分类模型;d)多种策略结合的混合方法8.3 为机器学习视频识别方法提取加密流量特征信息对需要识别的视频数目比较少,且视频数据在网络中传输时的环境可以保持稳定的场景,可以使用机器学习方法进行视频识别。此类方法需要基于已有的视频传输流量特征训练分类器。在训练分类器时,可以提取不同的特征。提取出的特征与视频内容需要具有一定的相关性,主要是与时间相关的流量特性,常用的特征包括按照一定时间间隔统计的数据量,基于自适应流媒体传输技术统计的突发流量序列等,对于不使用多路复用技术传输的加密视频下行流量,还可以通过TCP头部信息得到应用层载荷长度特征。8.4为指纹匹配视频识
19、别方法提取加密视频应用层特征对需要识别海量视频,且视频数据在友杂多变网络环境中传输的应用场景,需要使用指纹匹配方法进行视频识别。为了能达到准确的指纹匹配,需要准确提取加密视频应用层特征。视频内容是网络流量的应用层信息,但是在加密流量中,应用层信息被加密以后无法解析出视频内容,为了能在网络空间公害视频指纹库中准确匹配,必须从加密视频流量中提取与内容相关的特征用于匹配。从加密视频流量中提取的用于进行匹配的特征需要与视频内容具有稳定的相关性,并且与视频的传输网络质量、服务器状态、播放器状态以及用户行为等可变因素无关,提取的特征需要能准确对应到公害视频内容。因此需要综合考虑视频内容、传输环境和用户行为
20、等因素,提取的特征能保留与视频内容的关系,并且排除传输时网络拥塞状态的变化、服务器与客户的设备状况、用户的行为等因素对特征提取施加的影响。视频文件在网络应用层传输时的数据资源长度特征符合上述要求。在流量被加密的情况下,长度特征是与视频内容最相关、最有效的特征。当视频在应用层被分段传输时,可使用视频在应用层按顺序传输的数据长度序列作为主要特征;当视频在应用层不分段传输时,可使用整个视频文件的长度作为主要特征。视频文件的长度与视频的内容、分辨率、帧率以及编码算法等因素有关。当视频文件通过加密流量在网络空间中传输时,加密协议、传输协议和流媒体通信协议都会增加相应的控制信息。应用层的数据单元会被网络应
21、用层协议、加密协议、运输层协议逐层封装、切分,再由网络层协议进行分组转发,因此应用层资源的长度特征无法直接获得,只能基于网络分组流量进行提取,提取过程应基于各协议以及网络的拥塞状态等因素施加的影响进行特征逆向还原操作。由于流量被加密,无法直接得到各因素的影响及其影响范围,需要通过人工智能方法基于已有的标签数据训练出经验模型进行逆向的特征还原。因此特征还原技术需要基于协议原理分析加密协议、传输8协议和流媒体通信协议增加的控制信息。这些协议及其主要版本包括:IPTCPUDP T1.Sl.2 T1.Sl.3 HTTP/1.1HTTP/2GQUICH11P3DASHH1.S各层协议在封装和传输视频时增
22、加的控制信息随着网络环境的变化而变化,需要考虑在多种网络服务质量下都能准确提取并还原得到视频的指纹特征。不同平台使用不同的协议组合,相应的特征提取技术需要针对特定平台所使用的协议组合进行设计。除了与应用层内容相关的信息长度特征,不同的视频应用平台对在实现时有可能加入特定的视频内容标识特征,此类特征也可以与长度特征共同组成组合特征。9公害视频流量识别9.1 概述根据公害视频流量识别的应用场景,有两类技术。对于需要识别的视频数目较少,且视频传输环境可以保持稳定的应用场景,使用机器学习分类识别算法;对于需要识别的视频数目较多,且传输环境复杂的应用场景,需要使用视频匹配识别算法。9.2 视频分类识别算
23、法使用机器学习算法,可以通过学习己有的公害视频传输流量特征构建分类器,当每一个类别是一个视频的流量时,就可以达到视频识别的目的。机器学习或者深度学习算法都可以用来训练分类器,例如随机森林、SVM、KNN、CNN等。由于通常的分类算法所能准确分类的类型有限,因此这类方法只适用在需要识别的视频数目较少的场景中。此外,这类方法对训练数据采集的数据量和稳定性要求较高。9.3 视频匹配识别算法视频匹配识别算法从加密视频传输数据中提取出视频传输特征,然后需要与公害视频指纹库中的指纹进行匹配,以判断传输的视频是否与公害视频指纹库中的视频相同。如果从加密视频传输数据中提取出的视频传输特征在一定误差范围内与公害
24、视频指纹库中的指纹匹配,即可认为识别出了对应的公害视频,公害视频指纹库中对应视频的信息记录即为识别出的视频描述。根据指纹库的规模和匹配准确性要求可以使用多种匹配算法,如连续指纹匹配,基于隐马尔科夫链模型匹配等。对视频匹配算法主要有以下要求:a)能针对不同平台的视频分发方案,将加密视频传输时提取出的特征与指纹库中的视频指纹进行准确匹配判断,误判率和漏判率在可控范围内;b)能够高效地查询视频指纹数据库,视频指纹库应该具备高效的存储和索引机制,能够快速地检索和比对指纹数据,可使用内存数据库,多线程检索等技术提高查询效率;c)具备一定的鲁棒性,能够应对加密视频流量特征提取中噪声等干扰因素,在复杂的环境
25、下仍能够准确地匹配视频,保证算法的可靠性。d)具备高效的计算能力,能够在短时间内完成指纹匹配操作,满足实时性识别要求。e)对视频匹配算法的评价结果需要在与应用场景需求数据量致的海量公害视频指纹库中验证所得,算法评价指标不仅要体现准确性,在海量指纹库中,更要明确误判率指标,以保障算法在真实场景中的可用性。10公害视频流量识别结果的应用10.1 可视化管理界面展示识别出的加密公害视频流量可以在可视化界面进行展示。根据其在网络空间公害视频指纹库中的记录中对应的视频记录信息,包括视频来源平台、视频类型、视频名称、视频UR1.等。根据用户的实际业务需求对数据进行统计分类,例如根据来源,类型,目的等信息项
26、分类统计,可视化界面展示要求包括:a)用户友好性:界面应具备良好的用户友好性,易于操作和理解,能够明确地展示识别结果;b)实时更新:界面应能够实时更新,展示公害加密视频流量的最新识别结果;c)可视化分析:界面可以提供一些可视化分析的功能,帮助用户进行更深入的分析和理解;d)报告导出:界面应支持将识别结果导出为报告或其他格式,方便用户进行保存、分享或后续分析;e)安全性:界面应具备身份验证的功能,保护数据安全。10.2 网络空间安全管理模块数据源互联网服务接入提供商、网络安全厂商和网络安全空间治理单位等根据业务管理需求和使用单位的权限,设计网络空间安全管理模块。识别出的公害视频流量可以在网络空间公害视频指纹库中找到对应记录信息,这些记录信息是网络管理模块的数据来源。可以实施的管理方式包括:a)及时通知公害视频来源平台删除服务器上的视频源,并监控上传者账号;b)记录公害视频下载者的信息,给出下载者画像;c)截断公害视频流量的传输;d)基于统计信息对视频平台进行管理。