当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向HTTP/2流量多路复用特征的加密视频识别方法技术

技术编号:38816079 阅读:11 留言:0更新日期:2023-09-15 19:55
本发明专利技术公开了一种面向HTTP/2流量多路复用特征的加密视频识别方法,针对使用多路复用HTTP/2协议的加密视频,该方法首先利用自动化数据采集模块,采集视频明文数据获取视频明文指纹,并在网络中间节点采集视频加密传输数据,从而构建大型视频明文指纹库和加密视频传输数据集,其次利用修正指纹构建模块,通过对加密视频传输数据进行精准还原,构建加密视频修正指纹,最后利用加密视频识别模块,以加密视频修正指纹和大型视频明文指纹库为基础,通过加密视频修正指纹滑动匹配方法,识别HTTP/2加密视频。本发明专利技术通过视频明文指纹识别由DASH技术分发的HTTP/2加密视频,具有通用性,此外,本发明专利技术可应用于不断变化的真实网络环境,具有较好的泛化性能。较好的泛化性能。较好的泛化性能。

【技术实现步骤摘要】
一种面向HTTP/2流量多路复用特征的加密视频识别方法


[0001]本专利技术涉及一种面向HTTP/2流量多路复用特征的加密视频识别方法,属于计算机网络安全


技术介绍

[0002]近年来,随着移动互联网的发展,视频应用已经成为互联网中的主流应用。YouTube、Facebook、Tik Tok、Instagram和抖音等国内外视频分享平台为用户提供了便捷的视频分享和转发功能,互联网中传播的视频已经深度渗透到网民的社会生活中。
[0003]由于视频平台和社交平台中的视频来源多样,如果平台审核不及时,各类平台提供的视频也会包含部分有害视频,我们称为公害视频,这些公害视频给网络空间和社会造成了严重的不良影响。然而,这些视频因其数量庞大、制作成本低、传播速度快、加密传输等特点,给监管造成了极大的困难。国家网络监管部门迫切需要准确地识别网络中加密传播的公害视频。
[0004]目前,全球主流视频平台均已采用加密技术来传输视频数据。根据W3Techs网站发布的报告,在全球网站中,默认使用HTTPS等加密协议的网站比例已从2022年1月份的77.4%上升至2023年1月份的81.5%。随着互联网中加密流量占比的提升,尤其是加密视频流量占比的迅速提升,加密传输技术给普通用户带来安全保护的同时,导致网络监管机构对网络环境的监管难度成倍提升。
[0005]根据数据来源的不同,现有对公害视频进行识别的方法主要有两类。一类方法是分析视频平台的视频文件,通过深度学习对视频中的图像进行学习,基于训练出的模型对未知视频抽取画面帧进行内容识别,然后对识别出的公害视频进行传播阻断。这类方法的数据源是视频分享平台的视频文件,适用于视频平台的管理者进行内容审查,但是这类方法需要的硬件资源价格昂贵,很多小的平台迫于成本和技术的限制无力实施,也有一些视频平台主观上不愿意进行内容审查,导致网络公害视频泛滥。第二类方法是分析在网络主要接入点采集的流量数据,提取加密视频流量的特征,基于已有的公害视频库,通过流量特征的匹配识别出被传输的公害视频。这类方法不需要寻求平台的合作,监管部门部署时具有很好的可控性。难点在于,由于网络加密传输协议的持续演进,已有的方法无法分析使用新协议传输的数据。使用多路复用技术传输的协议如HTTP/2已经被广泛部署并极大改变了加密流量的传输特点,因此第二类方法需要对多路复用技术产生的新的流量特征展开分析。
[0006]然而,已有的加密视频内容识别研究还存在一些普遍性的问题。第一,由于采集加密视频大型数据集工作量巨大,费时费力,所以当前研究多使用自建的小型微型数据集展开研究和验证,也有少数研究是面向大型数据集进行的,但使用的是模拟的大型指纹库,这导致现有研究缺少面向大型真实数据集的验证;第二,目前针对加密视频内容的识别主要基于HTTP/1.1协议,近几年来,随着HTTP/2、QUIC和HTTP/3等多路复用协议的快速普及,加密视频流量传输特征发生了巨大的变化,传统基于HTTP/1.1协议的识别方法无法适用于使
用新型多路复用协议的场景。
[0007]HTTP/2协议引入了首部压缩、服务器推送和多路复用等新功能提高传输效率,但是其中的首部压缩和多路复用功能使得之前针对HTTP/1.1的视频修正指纹构建方法无法用于HTTP/2视频流量。在HTTP/1.1中,首部数据的长度通常只分布在特定范围内,而在HTTP/2中由于采用了首部压缩技术,首部数据的长度分布出现了很大的变化,所以在流量分析方法中,过滤首部数据时所采取的方式也会有所变化;除了首部压缩之外,多路复用也是影响视频识别的主要因素,其直接导致了现有的针对HTTP/1.1的视频流分析方法无法适用于HTTP/2的视频流量。在HTTP/1.1中,音视频数据往往会通过两条TCP流分别进行不同类型的数据传输,以提高效率。而在HTTP/2中,由于多路复用功能的引入,往往只需要建立一条TCP流就能够承载多种数据的交互传输,由于音频数据和视频数据在同一条TCP流上交替传输,因而两次请求之间的响应数据往往是同时包含音频和视频的混合数据,且由于流量是加密的,这给数据长度的修正还原带来较大的困难。
[0008]在已有的专利技术专利“一种识别TLS协议加密传输YouTube DASH视频的方法”中,其主要针对的是使用HTTP/1.1协议的加密视频的识别,其中对加密视频数据的修正还原操作主要依据HTTP/1.1协议的传输特点,其难以适用于使用多路复用的HTTP/2协议传输的加密视频的识别。此外,与已有的专利技术专利“一种识别QUIC协议加密传输的YouTube DASH视频的方法”相较,虽然HTTP/2协议和QUIC协议都是多路复用协议,但其主要区别在于HTTP/2是基于TCP的传输协议,而QUIC是基于UDP的协议,两者在传输音视频数据的过程完全不同,导致视频在网络链路中的流量特征完全不同,针对QUIC协议加密传输的DASH视频识别方法中提出的对加密音视频数据单元的划分方法和修正还原方法,不适用于使用HTTP/2协议加密传输的DASH视频。综上所述,本专利技术提出的面向HTTP/2流量多路复用特征的加密视频识别方法具有一定的创新性,适用于使用HTTP/2协议加密传输的视频的识别。

技术实现思路

[0009]为解决上述问题,本专利技术公开了一种面向HTTP/2流量多路复用特征的加密视频识别方法,该方法首先针对视频平台,采用自动化程序采集视频明文指纹,构建大型视频明文指纹数据库,其次,在网络链路中间节点采集HTTP/2视频加密传输数据,并对视频加密传输数据依次进行TLS协议和HTTP/2协议干扰的修正还原,从而构建加密视频修正指纹,最后以加密视频修正指纹和视频明文指纹数据库为基础,利用指纹动态滑动窗口匹配方法进行加密视频修正指纹的匹配识别,并计算得分,最终将得分最高的视频明文指纹及其视频描述信息作为加密视频识别结果。本专利技术具有较好的通用性,可用于在网络中间节点,识别HTTP/2协议传输视频数据的DASH视频平台的加密视频内容。
[0010]为了实现本专利技术的目的,本方案具体技术步骤如下:一种面向HTTP/2流量多路复用特征的加密视频识别方法,所述方法包括以下步骤:
[0011]步骤(1)利用视频明文指纹自动化采集技术,自动化采集视频明文信息,获取视频明文指纹,构建大型视频明文指纹数据库;
[0012]步骤(2)利用加密视频传输数据自动化采集技术,自动化采集视频播放时的加密传输数据并保存;
[0013]步骤(3)对步骤(2)采集的视频加密传输数据进行预处理操作,从其数据流中提取
出音视频组合数据单元CDU;
[0014]步骤(4)针对步骤(3)提取出的音视频组合数据单元CDU进行针对TLS协议干扰的修正;
[0015]步骤(5)对步骤(4)的修正结果再进行针对HTTP/2协议干扰的修正,并构建加密视频修正指纹;
[0016]步骤(6)以加密视频修正指纹和大型视频明文指纹库为基础,进行加密视频修正指纹滑动匹配,并保存匹配结果;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向HTTP/2流量多路复用特征的加密视频识别方法,其特征在于,该方法包括以下步骤:步骤(1)利用视频明文指纹自动化采集技术,自动化采集视频明文信息,获取视频明文指纹,构建大型视频明文指纹数据库;步骤(2)利用加密视频传输数据自动化采集技术,自动化采集视频播放时的加密传输数据并保存;步骤(3)对步骤(2)采集的视频加密传输数据进行预处理操作,从其数据流中提取出音视频组合数据单元CDU(Chunk Data Unit);步骤(4)针对步骤(3)提取出的音视频组合数据单元CDU进行针对TLS协议干扰的修正;步骤(5)对步骤(4)的修正结果再进行针对HTTP/2协议干扰的修正,并构建加密视频修正指纹;步骤(6)以加密视频修正指纹和大型视频明文指纹库为基础,进行加密视频修正指纹滑动匹配,并保存匹配结果;步骤(7)统计步骤(6)的匹配结果,计算匹配到的各视频明文指纹得分,将得分最高的视频明文指纹及其视频描述信息作为加密视频识别的结果。2.根据权利要求1所述的一种面向HTTP/2流量多路复用特征的加密视频识别方法,其特征在于,所述步骤(1)包含以下子步骤:(1.1)编写自动采集程序,通过关键字搜索的方式,获取视频列表,采集视频URL;(1.2)根据视频URL,添加相应签名信息,构造视频描述文件的URL,通过该URL下载并解析视频描述文件;(1.3)根据从视频描述文件中解析出的视频索引分段的资源地址和字节范围(IndexRange),下载视频索引分段;(1.4)对视频索引分段进行解封装,提取视频分段大小信息,构造视频明文指纹,并将视频明文指纹和视频其他描述信息共同作为一条视频明文指纹实例存入视频明文指纹数据库中。3.根据权利要求1所述的一种面向HTTP/2流量多路复用特征的加密视频识别方法,其特征在于,所述步骤(2)包含以下子步骤:(2.1)以机器人流程自动化(RPA)技术平台UiBot作为自动采集系统的控制中枢,模拟人工操作,按照视频流量数据采集流程,编写相应定制化的流程自动化程序;(2.2)通过UiBot模拟人工操作,控制电脑自动打开流量数据采集工具,进行流量数据集采集;(2.3)通过UiBot模拟人工操作,以视频URL作为输入,控制电脑打开浏览器,进入视频页面,自动点击播放视频;(2.4)等待视频播放完毕,通过UiBot控制流量采集工具停止采集,格式化命名后存储所采集的数据;(2.5)判断视频URL列表是否为空,若为空,则停止采集,否则进入步骤(2.2)进行下一个视频的数据采集工作。4.根据权利要求1所述的一种面向HTTP/2流量多路复用特征的加密视频识别方法,其特征在于,所述步骤(3)包含以下子步骤:
(3.1)提取音视频数据流,首先通过TCP的443端口筛选出使用443端口的加密TCP数据流,其次,根据加密TCP数据流的数据量大小和TLS连接时握手信息“Client Hello”中包含的服务器SNI信息,提取音视频数据流;(3.2)从音视频数据流的TCP包序列中组合还原出数据流的TLS分片序列,由于TCP是非加密协议,通过TCP分片的首部信息和负载数据中的TLS分片的“PlainText Header”字段记录的加密数据块的长度信息,组合还原出音视频数据流的TLS分片序列;(3.3)精准划分加密音视频组合数据单元CDU,由于HTTP/2的多路复用特性,同一条TCP连接上会同时存在多条数据流的传输数据,视频服务器响应各组音视频CDU数据时,会先发送若干个WINDOW_UPDATE帧来更新每条HTPP/2流的数据窗口大小,且这些WINDOW_UPDATE帧被封装在同一个TLS块中传输,因此通过这些长度固定的包含WINDOW_UPDATE帧的特殊TLS块划分CDU。5.根据权利要求1所述的一种面向HTTP/2...

【专利技术属性】
技术研发人员:吴桦罗浩倪珊珊刘嵩涛程光
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1