本发明专利技术公开了一种针对加密隧道中实时互动音频应用流量的识别方法,该方法包括:针对典型的实时互动音频应用,分析反编译代码、动态调试应用、构建应用行为与流量特性的关联图谱;基于协议层次规则对加密隧道流量进行包级层次化时空表征,利用Transformer分类器识别归属应用;最后,基于应用行为
【技术实现步骤摘要】
针对加密隧道中移动平台实时互动音频应用流量的识别方法
[0001]本专利技术属于网络安全
,特别是一种针对加密隧道中移动平台实时互动音频应用流量的识别方法。
技术介绍
[0002]移动智能设备的普及带动了音视频流媒体的飞速发展,伴随着网络社交属性的日益凸显,基于Webrtc等技术框架实现的实时互动音视频应用日益流行。实时互动音频是实时互动音视频的专一化场景,其达成即时社交讨论目的的同时降低了网络带宽等硬件需求。近年来国内外均出现了众多互动音频直播应用并广泛流行,其中包括Clubhouse、Spotify Live、Spoon等,此类应用主要采用单发起者
‑
多讨论者
‑
多听众的群组讨论模式,应用界面包含大量分门别类的讨论组,用户进入讨论组后可以旁听组内讨论并可以申请加入讨论,同时用户也可以创建自己的讨论组来邀请其他用户进行讨论。
[0003]为逃避境内网络监管对讨论话题的限制,部分境内用户利用代理工具绕过网络边境检查加入到境外的实时互动音频平台的讨论中,这些用户使用基于变形Socks5协议、OpenVPN等的加密代理工具,在移动设备上搭建加密隧道来使用海外的实时互动音频应用,加密隧道的使用让这类海外实时互动音频应用在流量形态上能够有效抵御现有网络监管手段的审查。由于监管缺失,海外实时互动音频平台有害信息泛滥并逐步向境内互联网环境渗透,为此对加密代理下的实时互动音频应用流量进行识别具有重大意义。
[0004]目前,对加密代理场景下互动音频直播的识别研究近乎空白,因此有必要针对加密隧道中移动平台实时互动音频应用流量进行识别。
技术实现思路
[0005]本专利技术的目的在于针对现有技术存在的问题,提供一种针对加密隧道中移动平台实时互动音频应用流量的识别方法,通过融合应用通信机理逆向分析与应用行为流量特性分析并结合集成学习、Transformer等机器学习模型进行识别。
[0006]实现本专利技术目的的技术解决方案为:一种针对加密隧道中移动平台实时互动音频应用流量的识别方法,包括以下步骤:
[0007]步骤1,对于实时互动音频应用利用Jadx工具进行反编译获取中间代码并静态分析程序运行逻辑,基于IDA Pro工具对应用进行动态调试分析,逐步关联应用行为、应用程序API、应用网络流量,获得应用行为对应的流量特性,包括流级特性和数据包级特性;
[0008]步骤2,对于捕获的加密隧道下实时互动音频流量,截取0至N序号的数据包,提取各个数据包的IP协议报头字段、TCP协议报头字段、负载信息;
[0009]步骤3,根据数据包序号按照协议层次,逐行以二进制的形式生成IP、TCP、负载的层次化表征向量,所有数据包形成流量样本的表征矩阵;
[0010]步骤4,利用步骤3所生成的样本流量表征矩阵,基于Transformer分类器识别样本流量所归属的具体实时互动音频应用;
[0011]步骤5,利用步骤4所识别的流量归属应用,进一步识别特定应用加密代理流量所对应的具体应用行为;
[0012]步骤6,按时间窗口将样本流量划分为M个区间,利用步骤1所获得的应用行为与流量特性的对应关系提取每一个区间流量的特征形成特征矩阵;
[0013]步骤7,利用步骤6所生成的特征矩阵,基于集成学习模型逐时间窗口对样本流量对应的应用行为进行判决;
[0014]步骤8,利用步骤7对样本流量逐时间窗口的行为识别结果,组合形成样本流量的完整应用行为描述。
[0015]本专利技术与现有技术相比,其显著优点为:
[0016]1)通过对典型的实时互动音频应用进行中间代码静态分析、应用程序动态调试分析,较为全面的获得了目标应用的通信机理逆向知识,明晰了应用流量产生的具体机制。
[0017]2)对于流量归属应用识别问题,采用了基于数据包协议层次规则的二进制表征形式,既完整保留了流量数据包的时间、空间特征,又科学解决了流量数据表征矩阵的统一化、离差标准化问题。
[0018]3)针对加密隧道下实时互动音频应用流量的行为判决问题,基于应用逆向知识与应用流量特性的融合分析,科学准确地提取样本流量的关键特征并形成统一化的特征表征矩阵,结合集成学习模型高效实现了样本流量对应行为的判决。
[0019]总体来说,本专利技术通过融合应用通信机理逆向分析与应用行为流量特性分析、并结合现阶段主流的机器学习分类器,可以很好的对加密隧道中实时互动音频应用流量的归属应用及应用行为进行识别,对于加强网络服务监管、维护社会舆情稳定具有重要意义。
[0020]下面结合附图对本专利技术作进一步描述。
附图说明
[0021]图1为本专利技术针对加密隧道中移动平台实时互动音频应用流量识别方法的流程示意图。
具体实施方式
[0022]为了使本申请的目的、技术方案及优点更加清晰,以下结合附图及实施例,对本申请作进一步说明。应当理解,此处描述的具体实施例仅用于解释本申请,并不用于限定本申请。
[0023]图1为本专利技术针对加密隧道中移动平台实时互动音频应用流量的识别方法的流程示意图,所述方法包括以下步骤:
[0024]步骤1,对于典型的实时互动音频应用利用Jadx工具进行反编译获取中间代码并静态分析程序运行逻辑,基于IDA Pro工具对应用进行动态调试分析,逐步关联应用行为、应用程序API、应用网络流量,获得应用行为对应的流量特性,包括流级特性和数据包级特性;
[0025]其中,典型的实时互动音频应用是指基于WebRTC_SDK与Agora_SDK两类实时音视频框架开发的实时互动音频应用。
[0026]此处,分析的是原始实时互动音频流量与应用行为的对应关系,获取的流量特性
为非加密代理场景下的原始流量特性。
[0027]此处,应用行为对应的流量特性为流级特性与数据包级特性,流级特性包括流数量、流持续时间、流产生间隔、流产生顺序、流传输资源、流速率,数据包级特性包速率、上行数据包数量、下行数据包数量、上下行包数量比值、包间时延均值、包间时延标准差、MSS包数量占比。
[0028]步骤2,对于捕获的加密隧道下实时互动音频流量,截取0至N序号的数据包,提取各个数据包的IP协议报头字段、TCP协议报头字段、负载信息;
[0029]此处,提取的负载信息为TCP负载信息,即包含应用层协议字段和应用层负载的所有信息。
[0030]此处,表征流量数据包时并不使用完整负载信息,而是截取TCP负载数据的前100个字节进行表征,不足的补0。
[0031]此处,截取0至N序号的数据包具体为:对于每一组流量样本,截取按时序排列的0至500序号的数据包。
[0032]步骤3,根据数据包序号按照协议层次,逐行以二进制的形式生成IP、TCP、负载的层次化表征向量,所有数据包形成流量样本的表征矩阵;
[0033]此处,在进行二进制层次化表征时,若数据包不存在对应IP或TCP报头字段,则相应的二进制位均表示为<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种针对加密隧道中移动平台实时互动音频应用流量的识别方法,其特征在于,包括以下步骤:步骤1,对于实时互动音频应用利用Jadx工具进行反编译获取中间代码并静态分析程序运行逻辑,基于IDA Pro工具对应用进行动态调试分析,逐步关联应用行为、应用程序API、应用网络流量,获得应用行为对应的流量特性,包括流级特性和数据包级特性;步骤2,对于捕获的加密隧道下实时互动音频流量,截取0至N序号的数据包,提取各个数据包的IP协议报头字段、TCP协议报头字段、负载信息;步骤3,根据数据包序号按照协议层次,逐行以二进制的形式生成IP、TCP、负载的层次化表征向量,所有数据包形成流量样本的表征矩阵;步骤4,利用步骤3所生成的样本流量表征矩阵,基于Transformer分类器识别样本流量所归属的具体实时互动音频应用;步骤5,利用步骤4所识别的流量归属应用,进一步识别特定应用加密代理流量所对应的具体应用行为;步骤6,按时间窗口将样本流量划分为M个区间,利用步骤1所获得的应用行为与流量特性的对应关系提取每一个区间流量的特征形成特征矩阵;步骤7,利用步骤6所生成的特征矩阵,基于集成学习模型逐时间窗口对样本流量对应的应用行为进行判决;步骤8,利用步骤7对样本流量逐时间窗口的行为识别结果,组合形成样本流量的完整应用行为描述。2.根据权利要求1所述的针对加密隧道中移动平台实时互动音频应用流量的识别方法,其特征在于,步骤1中的实时互动音频应用是指基于WebRTC_SDK与Agora_SDK两类实时音视频框架开发的实时互动音频应用。3.根据权利要求1所述的针对加密隧道中移动平台实时互动音频应用流量的识别方法,其特征在于,步骤1中应用行为对应的流量特性为流级特性与数据包级特性,流级特性包括流数量、流持续时间、流产生间隔、流产生顺序、流传输资源、流速...
【专利技术属性】
技术研发人员:蒋伟,詹家林,聂丰原,刘伟伟,刘光杰,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。