【技术实现步骤摘要】
一种基于强化学习的未知协议文本聚类方法
[0001]本专利技术涉及针对使用未知协议的网络流量文本的聚类方法,具体是一种基于强化学习的未知协议文本聚类方法。
技术介绍
[0002]网络协议定义了互联网中主机之间通信的规则。作为网络中必不可少的信息传递手段,协议的结构和定义与通信安全直接相关,大量的网络安全问题和隐私安全问题都由协议的广泛使用引起。然而随着通信技术的发展,目前绝大多数的通信都是用了私密的未知协议,没有公开的协议规范,大多数网络安全策略和方法面对未知协议都束手无策;同时,对未知协议进行解析得到的结果应用领域非常广泛,包括恶意代码分析、入侵检测、网络安全策略制定、软件安全性分析、应用程序会话重放等。因此,对使用未知协议的网络流量进行解析对网络安全领域的研究发展具有重大意义。
[0003]未知协议逆向解析是在缺少正式规范的情况下推理协议结构的过程,目前的主流方法分为了基于网络跟踪的静态分析法和基于执行跟踪的动态分析法。执行跟踪是在两台或多台通信主机之间应用程序的单次运行过程中执行的一段代码或工具,通过捕获二进制 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的未知协议文本聚类方法,其特征在于,包括以下步骤:步骤1:在主机上启动需要捕获流量的应用程序,启动抓包工具或代码进行流量抓取,对得到的流量文本进行预处理;步骤2:设定动作编码为类别对应的数字0
‑
4,将每一条流量文本视作一个环境状态,将输入的流量文本先通过CNN处理成特征向量,然后输入到全连接层,输出为5个Q值;对于每个环境状态s下采用的动作A,使动作A的编号对应的位置为1,其他4位置为0,构成一维动作向量,将一维动作向量与5个Q值做点乘并计算出和,得到每个环境状态s下采用动作A的Q(s,A),Q(s,A)为某状态s中遵循某策略采取动作A的累计回报;以流量文本和一维动作向量为输入,所有Q(s,A)为输出建立两个完全相同的模型,分别用于决策的model1和用于训练的model2;步骤3:决策过程使用ε
‑
greedy策略,ε的概率选择未知的动作,1
‑
ε的概率选择经验中回报最大的动作,保证每个状态
‑
动作对都有概率被访问到;步骤4:设置一个函数作为系统环境,在每一轮循环中从输入的待分类样本中随机选择一个文本并抛给负责做决策的model1,该文本即为当前状态;结合步骤3所述的ε
‑
greedy策略,ε的概率随机选择动作,返回Q值为0;1
‑
ε的概率使model1对该文本类别进行预测并计算Q值,将其预测结果与真实结果进行对比并给出奖惩反馈,正确则加分,错误则减分;系统环境随机抛出下一条文本作为下一个状态;将返回的Q值和对应的状态s、动作A、得到的分数、下一个状态记录到经验记忆中;步骤5:从经验记忆中随机采样一批数据,输入到贝尔曼方程计算新的Q值,将新的Q值更新给model2;每隔一定的轮次,将model1的参数复制给model2;步骤6:重复上述的训练步骤直到完成指定的训练次数,或者总分数达到了指定的阈值,则训练完成;所训练出的模型需能够对新输入的流量文本进行准确的来源或种类区分。2.根据权利要求1所述的基于强化学习的未知协议文本聚类方法,其特征在于,所述步骤1中对流量文本进行预处理具体为:步骤1.1:将抓取到的源数据解码成十六进制字符串,再将十六进制字符转换为对应的十进制数字,为null的地方进行填充,每一位十六进制字符为一个处理单位;步骤1.2:对不同数据源取得的长度不一数据,进行长度统一通过使用fit_transform对部分数据进行拟合,找出均值、方差指标;对数据进行转换,包括标准化、归一化,以及分别进行PCA降维保留有效信息,获取降维后不同数据源的数据长度取平均值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。