当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于HTTP/3传输特性的加密视频识别方法技术

技术编号:38686402 阅读:18 留言:0更新日期:2023-09-02 22:59
本发明专利技术公开了一种基于HTTP/3传输特性的加密视频识别方法,该方法首先提取DASH视频的元信息构建视频明文指纹库,其次将HTTP/3视频流分为音视频块,并提取音视频块中的控制信息特征和数据传输特征,进而利用线性回归方法修正其密文长度,构建HTTP/3视频流的修正密文长度序列,最后将修正密文长度序列与视频明文指纹库进行匹配,给出识别出的视频内容标题。本发明专利技术使用视频明文数据的特征序列与复原出的应用层音视频片段组合的长度特征近似值进行匹配来实现DASH视频识别,具有通用性。具有通用性。具有通用性。

【技术实现步骤摘要】
一种基于HTTP/3传输特性的加密视频识别方法


[0001]本专利技术涉及一种基于HTTP/3传输特性的加密视频识别方法,属于计算机网络安全


技术介绍

[0002]随着通信技术的进步和移动互联网的发展,网络交互场景越来越丰富,视频网络流量在互联网中的比重不断增加。互联网流量检测机构Sandvine的2023年全球互联网现象报告显示,视频流量在2022年增长了24%,现已相当于所有互联网流量的65%。与此同时,为了保护用户安全和隐私,互联网各大视频平台对视频流量逐步进行了加密传输。基于此背景,一些含有不当内容的有害视频极易被快速传播并渗透社会生活各个方面,因此,对互联网上传输的有害视频进行快速识别是对网络安全空间有效管理的必要前提。
[0003]现有对视频内容进行识别的方法大多需要通过视频平台获取视频文件。视频平台在进行内容审核时,往往采用人工审核或人工智能(Artificial Intelligence,AI)识别两种方式。然而,人工审核工作量大、耗时长,AI识别受硬件和识别技术限制,成本高,这些原因导致小型视频平台无法负担视频审核的费用。此外,由于视频跨平台传播速度快,这类基于视频平台的管理方式需要多个平台高效协作,导致难以部署,实用性差。
[0004]近年也有根据视频传输的网络流量识别出有害视频的方法,这类方法不需要多方协作,只要在主干接入点部署流量采集点就可以应用,具有很强的实用性。这类方法需要事先建立公害视频特征库,对网络进行监测时,通过对流量的分析提取被传输的视频特征,与公害视频特征库中的视频特征进行匹配识别。当视频特征库被准确构建后,这类方法的核心技术是如何从传输流量中准确提取出与视频内容相关的特征用以匹配。
[0005]视频内容的特征最直接地由应用层数据的特征表达。目前从加密流量中识别视频的方法都利用了流媒体的HTTP自适应流(HTTP Adaptive Streaming,HAS)技术提取视频特征。HAS技术将视频内容切分成多个片段后使用可变比特率(Variable Bit Rate,VBR)技术编码,并根据流媒体播放器的实际网络带宽传输不同比特率的视频内容片段,有效提高了用户的体验质量。YouTube、Facebook等主流互联网视频平台都采用了HAS中使用最广泛的基于HTTP的动态自适应流媒体技术(Dynamic Adaptive Streaming over HTTP,DASH)提供视频服务。DASH技术将视频按照播放时间顺序切分成多个片段流式传输,每个视频片段的长度序列与视频内容有关,视频片段的长度序列构成了视频的特征,可以据此实现对特定视频的内容识别。基于DASH技术的特点,已有一些通过流量分析对视频进行识别的方法。
[0006]随着视频平台普遍使用端到端加密传输视频,并且加密和传输技术不断演进更新,基于流量分析的视频识别方法的关键技术难点是视频的应用层内容被加密并分为很多IP报文传输,导致难以直接从密文数据中还原视频片段长度特征。
[0007]为了从加密流量中得到视频片段的长度特征,现有方法利用了HTTP/1.1传输视频时的侧信道协议信息估计视频片段长度特征。HTTP/1.1基于TCP传输,利用TCP头部的响应序列号可将属于同一个视频片段的加密报文的载荷长度相加,以此作为应用层音视频片段
的长度特征,但是这些方法没有考虑到视频传输过程中加密协议和传输协议增加的信息对长度造成的干扰。近年一些方法提出基于数据加密传输的原理,将从加密流量中提取的视频片段载荷长度更加精准地还原为视频片段本来的长度,可以全面提高视频识别的准确性,减少误判率。
[0008]现有方法都利用了TCP报文头部的响应标志位,但是,最新的HTTP/3协议不再基于TCP,而是基于UDP传输。为了提高数据的传输效率,谷歌公司提出了基于UDP的传输层协议QUIC,2022年IETF基于QUIC发布了运行在QUIC之上的HTTP/3协议。根据W3Techs的统计显示,全球前1000万个网站中,已有25.2%的网站采用HTTP/3,可以预见HTTP/3将在未来占有更大的网络流量比例。HTTP/3基于UDP协议重新定义了连接,在QUIC层实现了无序、并发字节流的传输,解决了队头阻塞问题。UDP是无连接的传输协议,头部没有标志位,无法识别属于同一个音视频片段的报文。此外,QUIC协议加密了数据包头和载荷中的传输层元数据,使得传输过程几乎没有可用的明文信息,这导致现有依赖TCP头部信息的加密视频识别方法都无法应用于HTTP/3协议。
[0009]目前,已有对经过TLS或QUIC加密传输的YouTube DASH视频进行识别的专利技术专利。已有的专利技术专利“一种识别TLS协议加密传输YouTube DASH视频的方法”主要针对使用基于TCP传输的HTTP/1.1协议传输的方法,其利用了TCP头部信息和TLS协议头部信息,将属于同一个视频片段的报文组合进行后续分析。但是这类方法在面对基于UDP传输的HTTP/3协议时将不再适用,因为UDP头部没有类似TCP报文的头部信息帮助提取属于同一个视频片段的报文,且HTTP/3协议基于的QUIC协议将TLS1.3进行了封装,也无法提取TLS头部信息。此外,HTTP/3使用的多路复用技术导致多个视频片段混合传输,提取单个视频片段更加困难。除此之外,即使“一种识别QUIC协议加密传输的YouTube DASH视频的方法”可以解决类似问题,但是该专利技术专利于2019年申请,方法所针对的QUIC版本为gQUIC,该方法所依赖的视频传输方式及QUIC封装结构已经改变,因此使用该方法已经无法从现有的HTTP/3视频流中还原出应用层特征,而本专利技术针对2021年被标准化的QUIC协议,提出了新的应用层长度特征还原方法。综上所述,本专利技术通过分析QUIC及HTTP/3协议的特点,结合DASH视频传输机制,提取使用HTTP/3传输的加密视频的数据传输和控制信息特征,考虑各层传输协议对应用层长度的干扰,对从网络层和传输层信息中提取出的音视频长度进行修正,最终通过特征在视频库中的匹配来实现视频内容识别。

技术实现思路

[0010]随着使用HTTP/3传输视频的平台增多,如何从网络流量中识别使用HTTP/3传输的加密视频成为网络空间安全管理中亟需解决的问题。为解决上述问题,本专利技术公开了一种基于HTTP/3传输特性的加密视频识别方法。首先,该方法通过提取HTTP/3协议中的控制信息特征和数据传输特征,提出了从加密HTTP/3视频流中提取音视频块并对密文长度进行修正的方法,其次,将修正后的密文长度与视频指纹库中的视频指纹进行匹配产生备选视频集并计算概率,选取可能性最大的视频标题作为识别结果。本方法具有通用性,可用于识别使用DASH分发机制、HTTP/3协议传输的加密视频内容。
[0011]为了实现本专利技术的目的,本方案具体技术步骤如下:一种基于HTTP/3传输特性的加密视频识别方法,所述方法包括以下步骤:
[0012]步骤(1)下载所需识别的视频的元信息并提取其中的音视频明文分段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于HTTP/3传输特性的加密视频识别方法,其特征在于,该方法包括以下步骤:步骤(1)下载所需识别的视频的元信息并提取其中的音视频明文分段信息,打上内容标签,从而获取视频明文指纹,构建视频明文指纹库,步骤(2)在采集设备上,抓取视频播放时的加密传输数据,步骤(3)对步骤(2)采集的流量数据,根据五元组(源IP地址、目的IP地址、源端口,目的端口,传输层协议)筛选流量数据大于64KB的HTTP/3加密视频数据流并进行分块处理,提取出音视频块及其长度特征,步骤(4)对步骤(3)提取出的音视频块进行特征提取并记录特征数据,包括控制信息特征STREAM_ID
flag
、MINUS
flag
和数据传输特征PACKET
count
、STREAM
len
,步骤(5)根据步骤(4)提取出的特征,将音视频块传输前对应的音视频片段组合长度L
fit
作为音视频块密文长度的标签,使用回归模型对步骤(3)中提取的音视频块的长度进行修正得到修正密文长度CAVCL(Corrected Audio/Video Combination Length),对HTTP/3加密数据流中的所有音视频块进行修正处理,得到的CAVCL序列称为CAVCLS(Corrected Audio/Video Combination Length Serials),步骤(6)对(5)中得到的CAVCLS,将其与(1)中构建的明文指纹库进行匹配,得到视频内容标题。2.根据权利要求1所述的一种基于HTTP/3传输特性的加密视频识别方法,其特征在于,在步骤(1)中,下载所需识别的视频的元信息并提取其中的音视频明文分段信息,打上内容标签,从而获取视频明文指纹,构建视频明文指纹库方法如下:(1.1)给定需要识别的视频标题和URL列表,(1.2)下载给定视频的响应JSON文件,提取索引片段在整个音视频中的所在范围,并根据该范围下载音视频索引片段,(1.3)从音视频索引片段中提取索引信息,获取给定视频的音视频明文指纹信息并标记内容标签,如视频标题、分辨率信息以及明文标号,(1.4)对于步骤(1.1)中给定的视频,使用(1.2)和(1.3)相同的方法进行明文指纹提取,建立视频明文指纹数据库。3.根据权利要求1所述的一种基于HTTP/3传输特性的加密视频识别方法,其特征在于,在步骤(2)中,在采集设备上,抓取视频播放时的加密传输数据方法如下:采集设备特定接口的加密传输数据,存为报文数据文件。4.根据权利要求1所述的一种基于HTTP/3传输特性的加密视频识别方法,其特征在于,在步骤(3)中,对步骤(2)采集的流量数据,根据五元组即源IP地址、目的IP地址、源端口,目的端口,传输层协议筛选流量数据大于64KB的HTTP/3加密视频数据流并进行分块处理,提取出音视频块及其长度特征方法如下:(3.1)根据五元组即源IP地址,源端口,目的IP地址,目的端口,传输层协议,提取HTTP/3双向流,并设置阈值64KB筛选出HTTP/3加密视频流量,(3.2)对于(3.1)提取出的HTTP/3加密视频流,提取出客户端向服务器发送的长度为1000字节左右的数据包作为请求报文,将请求报文作为分割点,两次请求报文之间的一条Stream的流量数据被认定为一个音视频块,(3.3)对于步骤(3.1)中提取出的HTTP/3加密视频流量,使用(3.2)相同的方法分割出
多个音视频块,(3.4)对于步骤(3.2)分割出的音视频块,将其中包含的所有响应数据包的UDP载荷长度相加得到这个音视频块的密文长度,(3.5)对于步骤(3.3)分割出的每个音视频块,使用(3.4)相同的方法得到(3.1)中HTTP/3加密视频流的音视频块密文长度特征序列。5.根据权利要求1所述的一种基于HTTP/3传输特性的加密视频识别方法,其特征在于,在步骤(4)中,对步骤(3)提取出的音视频块进行特征提取并记录特征数据,包括控制信息特征STREAM_ID
flag
、MINUS
flag
和数据传输特征PACKET
count

【专利技术属性】
技术研发人员:吴桦倪珊珊罗浩程光
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1