一种加密VoIP网络流量所使用语言的识别方法技术

技术编号:21835854 阅读:39 留言:0更新日期:2019-08-10 19:13
本发明专利技术公开了一种加密VoIP网络流量所使用语言的识别方法,本发明专利技术属于网络安全技术领域,包括建模步骤、采集处理步骤和比对识别步骤,建模步骤通过使用不同语言形成的VoIP包长序列特征建立参考语言包长概率分布模型;采集处理步骤采集待识别的VoIP网络流量所使用的语言数据并进行预处理,所述预处理是将语言数据按照语言类型分类形成目标语言包长概率分布模型;比对识别步骤将采集处理步骤中形成的目标语言包长概率分布模型与建模步骤中建立的参考语言包长概率分布模型逐一进行比对,选取与目标语言包长概率分布模型相似度最高的参考语言包长概率分布模型对应的语言作为结构进行输出。

A Language Recognition Method for Encrypting VoIP Network Traffic

【技术实现步骤摘要】
一种加密VoIP网络流量所使用语言的识别方法
本专利技术属于计算机网络安全
,具体涉及基于网络加密VoIP数据流量中所使用的语言分析判别方法。
技术介绍
网络流量分析识别可检测非法行为、实施访问控制、资源分配及提供服务质量QoS保障等,是网络运行管理和安全的重要支撑技术。传统流量分析通过IP地址和主机名、通信端口或整个数据包等特征对流量进行刻画、监管及预测趋势。流量数据加密后,对数据包内容检测的DPI(DeepPacketInspection)技术受到挑战。目前的互联网使用报告显示超半数Internet流量已加密,加密流量的分析识别受到网络安全研究领域广泛关注。网络巨头思科公司2017年发布的加密流量分析器(ETA:EncryptedTrafficAnalytics),可在不解密流量前提下检测网络传输层中存在的恶意软件。其检测方法主要是对未加密的连接建立的初始阶段进行分析,同时使用加密后数据包特征(包大小、包到达间隔时间等)进行检测识别,准确率很高且能在线检测。常用的加密协议如开放的标准框架IPsec:用于在网络层提供认证、加密和数据完整性服务;传输层加密TLS:基于SSLv3在TCP层提供传输层安全,通过数字证书提供机密性、数据完整性、不可抵赖及重放保护等安全服务,广泛用于HTTP,FTP,SMTP及VoIP中。现有技术对VoIP传输提出的几种加密方案,如基于IPSec的VoIP,该方案加密开销大引入较大延迟,不被接受;美国国家标准技术局(NIST)支持的安全RTP(SRTP)协议,该协议对RTP进行扩展,为应用提供了机密性、身份认证和完整性服务,目前已成为IETF标准(RFC3711:TheSecureReal-timeTransportProtocol)。协议提供三种加密模式:AES计数器模式、AES的F8模式和不加密模式,SRTP数据包包头、负载结构参见RFC3711。缺省使用长度保持加密机制,加密数据包的载荷长度与编解码器的编解码率相关,为通过分析加密数据包长度从而推断加密包信息提供了可能。VoIP(VoiceOverIP)在互联网上提供语音通信服务,其安全隐私方面存在的问题受到产学研界的广泛重视。语音通信使用的频率范围、音频数等方面区别于一般的音频信号。频率范围在8kHz至32kHz之间,每秒采集8000-32,000和数据样本,它们组装成帧,这些数据帧随后由编解码器压缩后进行传输。传输持续时间在10-100毫秒之间,一般采用固定的20毫秒,即采样频率16kHz,每帧320个数据样本。目前VoIP协议安全集中于加密,保障语音通信传输过程的机密性。VoIP协议传输和控制信息通过不同的信道传输。至少使用两种协议:1信令协议如SIP,用于定位被呼叫方callee及建立呼叫,2实时传输协议RTP,通过UDP,传输经语音编解码器编码后的语音数据。因此,对于VoIP数据流量的识别需要一种新的技术以实现检测非法行为、实施访问控制、资源分配及提供服务质量QoS保障的目的。
技术实现思路
本专利技术提供了一种针对加密VoIP网络流量所使用语言的判别方法,可识别VoIP语音通信中双方使用的语言,对加密网络流量分析、识别和审计有重要的作用。本专利技术的目的是通过以下技术方案实现的:一种加密VoIP网络流量所使用语言的识别方法,其特征在于,包括以下步骤:建模步骤,通过使用不同语言形成的VoIP包长序列特征建立参考语言包长概率分布模型;采集处理步骤,采集待识别的VoIP网络流量所使用的语言数据并进行预处理,所述预处理是将语言数据按照语言类型分类形成目标语言包长概率分布模型;比对识别步骤,将采集处理步骤中形成的目标语言包长概率分布模型与建模步骤中建立的参考语言包长概率分布模型逐一进行比对,选取与目标语言包长概率分布模型相似度最高的参考语言包长概率分布模型对应的语言作为结构进行输出。所述参考建模步骤,是将已知的参考通话语言VoIP网络流量数据用Speex编解码器窄带模式,按照采集处理步骤中预处理的方法,将数据包预处理后形成包长的三维时间序列(Si,Sj,Sk),作为参考语言包长概率模型的一个样本点,VoIP协议运行在TCP/UDP协议之上,且大多使用UDP协议,此处的包长是指UDP层数据包长度字节数减去固定的UDP包头长度字节数,UDP层数据包长度可直接读取UDP包头中的长度字段得到;统计三维时间序列(Si,Sj,Sk)中所有样本点在整个序列中发生的频率作为概率的估计值,形成参考样本点的概率分布模型,即基于包长的参考语言的概率分布模型。所有样本点在整个序列中的频率计算方式,原理是使用Speex窄带编码形成的VoIP数据包长度共9种编码速率,对应9种数据包长度;比如41字节、46字节、50字节等。选取3分钟已知参考语言经编码后形成的包长序列,假设长为10000,使用N-gram模型取经验值N=3,则|L|=10000-2=9998;包长序列假设为:S1,S3,S8,S2,S6,S8,S2,S6,则3-gram样本点(S1,S3,S8),(S3,S8,S2),(S8,S2,S6),(S2,S6,S8),(S6,S8,S2),(S8,S2,S6),计算每个样本点的发生的频率:(S1,S3,S8)、(S3,S8,S2)、(S2,S6,S8)和(S6,S8,S2)均只出现1次,(S8,S2,S6)出现2次,用该频率值作为概率估计值,即P(S1,S3,S8)=1/6,P(S8,S2,S6)=2/6。这就是基于包长的语言概率分布模型,用于后续目标与参考语言相似度比较。采集处理步骤中,采集待识别的VoIP网络流量所使用的语言数据后,先对语言数据除杂,去除无关流量数据,仅保留其中的VoIP加密网络流量数据用于数据包长特征提取。所述预处理,先确认所述VoIP加密网络流量数据在UDP层上是否使用SRTP协议加密,并确认所使用的SRTP协议是否使用padding填充(并不是所有的SRTP协议都使用padding填充),对SRTP协议中使用了padding填充的VoIP加密网络流量数据扣除其填充字节长度(如paddingcount字段);然后使用抓包软件读取UDP层数据包长度,扣除固定的UDP包头长度后,得到VoIP加密网络流量数据长度将该长度导出保存为csv格式的文件,用于后续N-gram语言概率模型的计算。所述比对识别步骤:首先,将从抓包软件导出保存为csv格式的文件用Speex编解码器窄带模式处理后形成包长的三维时间序列(Si,Sj,Sk),作为目标语言包长概率模型的一个样本点,计算各样本点发生的频率作为概率的估计值,形成目标样本点的概率分布模型,即基于包长的目标语言的概率分布模型;然后,将目标样本点的概率分布模型与参考语言的概率分布模型进行相似度比较,选择最接近的参考语言模型作为识别结果。所述相似度比较,是采用公式,逐一计算目标样本点的概率分布模型与已建立的参考语言的概率分布模型之间的ML相似度,选择最小值;其中PS(Xi)为目标样本点的概率分布模型,PL(Xi)为参考语言的概率分布模型,|L|为参考语言包的包长的三维时间序列数量。所述三维时间序列数量为选取一定时间内已知语言的加密VoIP数据包长度序列,该序列的长度值作为计算基础,本文档来自技高网
...

【技术保护点】
1.一种加密VoIP网络流量所使用语言的识别方法,其特征在于,包括以下步骤:建模步骤,通过使用不同语言形成的VoIP包长序列特征建立参考语言包长概率分布模型;采集处理步骤,采集待识别的VoIP网络流量所使用的语言数据并进行预处理,所述预处理是将语言数据按照语言类型分类形成目标语言包长概率分布模型;比对识别步骤,将采集处理步骤中形成的目标语言包长概率分布模型与建模步骤中建立的参考语言包长概率分布模型逐一进行比对,选取与目标语言包长概率分布模型相似度最高的参考语言包长概率分布模型对应的语言作为结构进行输出。

【技术特征摘要】
1.一种加密VoIP网络流量所使用语言的识别方法,其特征在于,包括以下步骤:建模步骤,通过使用不同语言形成的VoIP包长序列特征建立参考语言包长概率分布模型;采集处理步骤,采集待识别的VoIP网络流量所使用的语言数据并进行预处理,所述预处理是将语言数据按照语言类型分类形成目标语言包长概率分布模型;比对识别步骤,将采集处理步骤中形成的目标语言包长概率分布模型与建模步骤中建立的参考语言包长概率分布模型逐一进行比对,选取与目标语言包长概率分布模型相似度最高的参考语言包长概率分布模型对应的语言作为结构进行输出。2.如权利要求1所述的一种加密VoIP网络流量所使用语言的识别方法,其特征在于:所述参考建模步骤,是将已知的参考通话语言VoIP网络流量数据用Speex编解码器窄带模式,按照采集处理步骤中预处理的方法,将数据包预处理后形成包长的三维时间序列(Si,Sj,Sk),作为参考语言包长概率模型的一个样本点;统计三维时间序列(Si,Sj,Sk)中所有样本点在整个序列中发生的频率作为概率的估计值,形成参考样本点的概率分布模型,即基于包长的参考语言的概率分布模型。3.如权利要求1所述的一种加密VoIP网络流量所使用语言的识别方法,其特征在于:采集处理步骤中,采集待识别的VoIP网络流量所使用的语言数据后,先对语言数据除杂,去除无关流量数据,仅保留其中的VoIP加密网络流量数据用于数据包长特征提取。4.如权利要求1或3所述的一种加密VoIP网络流量所使用语言的识别方法,其特征在于:所述预处理,先确认所述VoIP加密网络流量数据在UDP层上是否使用SRTP协议加密,并确认所使用的SRTP协议是否使用padding填充,对SRTP协议中使用了padding填充的VoIP加密网络流量数据扣除其填充字节长度;然后使用抓包软件读取UDP层数据包长度,扣除固定的UDP包头...

【专利技术属性】
技术研发人员:周琨汪文勇唐勇黄鹂声张骏
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1