一种协议伪装方法、系统、计算机设备及存储介质技术方案

技术编号:26072484 阅读:50 留言:0更新日期:2020-10-28 16:46
本发明专利技术涉及网络安全技术领域,本发明专利技术公开了一种协议伪装方法、系统、计算机设备及存储介质,本发明专利技术根据网络流量属性特征分析,选取指定协议网络流量的长度特征;使用变分自编码器进行机器学习,变分自编码器包括编码器和解码器,编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,再通过解码器生成伪装流量特征;计算生成样本与原始输入样本之间的差异,并反馈到解码器与噪声强度上,调整解码器与噪声的参数,优化解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。本发明专利技术在提高准确度的同时,引入标准高斯分布的约束,使编码器更具有鲁棒性,能够自动生成与正常网络流量不可区分的伪装流量。

【技术实现步骤摘要】
一种协议伪装方法、系统、计算机设备及存储介质
本专利技术涉及网络安全
,尤其涉及一种协议伪装方法、系统、计算机设备及存储介质。
技术介绍
随着互联网用户隐私保护意识的增强,对于网络安全的需求越来越强烈,匿名通信技术开始发展起来。但是在通信过程中,匿名通信流量会暴露出一些比较明显的特征,攻击者会使用流量分析等手段对加密通信流量进行分类识别提取,进而对这一类特殊流量进行网络攻击。为了提高匿名通信的隐匿性和可靠性,用于抵抗流量分析检测的协议伪装技术应运而生。协议伪装技术能够通过协议混淆和协议变种,将加密网络流量变形为正常网络流量,从而抵御流量分析攻击。然而,现有的协议伪装技术依赖于固定的协议流量特征,只能针对某一特征属性进行静态伪装,无法灵活应对复杂多变的网络环境,一旦被流量分析检测技术发现,就会完全丧失伪装的能力。网络安全领域中,利用生成模型抵抗恶意流量分析,动态地进行协议伪装的技术,目前在学术界和工业界的研究处于起步阶段。生成模型与传统的机器学习模型不同之处在于不再是学习样本的个体,而是学习样本某种特征的分布规律。变分自编码器(variationalauto-encoder,VAE)作为深度生成模型中的一种代表,所训练出来的自编码器不仅具有重构样本的能力,而且由于在训练的过程中引入噪声的影响,并加入了一定的约束条件,使其能够具有仿照样本的能力,应用到匿名通信流量伪装技术中,可以动态地生成与正常网络流量不可区分的伪装流量。
技术实现思路
针对匿名通信系统所面对的流量分析攻击技术,本专利技术提出一种协议伪装方法、系统、计算机设备及存储介质,通过变分自编码器这一生成模型对指定协议网络流量样本进行分析,学习该指定协议的传输特征,得到目标网络流量特征的分布规律,根据这一规律将传输内容变形,最终用于网络隐匿通信中。本专利技术的一种协议伪装方法,包括以下步骤:S1.根据网络流量属性特征分析,选取指定协议网络流量的长度特征;S2.使用变分自编码器进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,再通过所述解码器生成伪装流量特征;S3.计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。进一步的,步骤S1中,先对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。进一步的,步骤S2包括以下子步骤:S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ1,μ2,…,μn)和方差D=(σ1,σ2,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);S23.将采样变量Z输入所述解码器,生成样本进一步的,步骤S3包括以下子步骤:S31.计算生成样本与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;S32.通过随机梯度下降法来实现所述编码器参数的优化,如果所述解码器生成的样本与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ1,σ2,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练所述解码器;S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。本专利技术的一种协议伪装系统,包括:预处理模块:根据网络流量属性特征分析,选取指定协议网络流量的长度特征;变分自编码器:进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器用于计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,所述解码器用于生成伪装流量特征;控制处理模块:计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。进一步的,所述预处理模块能够对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。进一步的,所述变分自编码器能够实现以下步骤:S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ1,μ2,…,μn)和方差D=(σ1,σ2,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);S23.将采样变量Z输入所述解码器,生成样本进一步的,所述控制处理模本文档来自技高网...

【技术保护点】
1.一种协议伪装方法,其特征在于,包括以下步骤:/nS1.根据网络流量属性特征分析,选取指定协议网络流量的长度特征;/nS2.使用变分自编码器进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,再通过所述解码器生成伪装流量特征;/nS3.计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。/n

【技术特征摘要】
1.一种协议伪装方法,其特征在于,包括以下步骤:
S1.根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
S2.使用变分自编码器进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,再通过所述解码器生成伪装流量特征;
S3.计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。


2.根据权利要求1所述的一种协议伪装方法,其特征在于,步骤S1中,先对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。


3.根据权利要求2所述的一种协议伪装方法,其特征在于,步骤S2包括以下子步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ1,μ2,…,μn)和方差D=(σ1,σ2,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入所述解码器,生成样本


4.根据权利要求3所述的一种协议伪装方法,其特征在于,步骤S3包括以下子步骤:
S31.计算生成样本与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现所述编码器参数的优化,如果所述解码器生成的样本与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ1,σ2,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练所述解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。


5.一种协议伪装系统,其特征在于,包括:
预处理模块:根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
变分自编码器:进行机器学习,所述变分...

【专利技术属性】
技术研发人员:黎艺泉孙恩博丁建伟陈周国郭宇斌
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1