当前位置: 首页 > 专利查询>中山大学专利>正文

一种嵌套的应用层协议的状态机提取系统及其提取方法技术方案

技术编号:17998730 阅读:66 留言:0更新日期:2018-05-19 15:56
本发明专利技术涉及一种嵌套的应用层协议的状态机提取系统,包括数据采集和输入模块、数据预处理模块、关键词提取模块、消息聚类模块、模型训练模块、状态译码模块。

【技术实现步骤摘要】
一种嵌套的应用层协议的状态机提取系统及其提取方法
本专利技术涉及网络安全
,更具体地,涉及一种嵌套的应用层协议的状态机提取系统及其提取方法。
技术介绍
移动互联网在最近十年中飞速发展,智能手机已经成为人们访问互联网的主要工具。与此同时,对智能手机应用程序的流量进行深入的分析也日趋重要。智能手机众多APP访问网络的方式与个人电脑上的应用程序有显著差别。它们将自身的业务逻辑或其私有的应用层协议嵌套在HTTP之上,且大部分使用JSON、HTML、XML数据格式。这样做的原因主要有以下几点:1)HTTP简单易扩展;2)IOS和Android两大手机操作系统都提供了HTTP进行网络通信的库函数,且网络上有众多协助HTTP开发的开源项目;3)相比于直接在TCP/UDP上进行网络开发,在HTTP上进行网络开发可以免去许多对底层网络细节的管理;4)出于网络安全的考虑,大多数防火墙会关闭不常用的传输层端口,保留HTTP所使用的TCP80端口,使用HTTP进行网络开发可以保证APP在不同的网络环境中都可以顺利连接互联网。这些嵌套在HTTP之上的APP应用层协议(下文简称APP协议)给流量分析及安全本文档来自技高网...
一种嵌套的应用层协议的状态机提取系统及其提取方法

【技术保护点】
一种嵌套的应用层协议的状态机提取系统,其特征在于:包括数据采集和输入模块、数据预处理模块、关键词提取模块、消息聚类模块、模型训练模块、状态译码模块;其中数据采集和输入模块用于采集训练集的嵌套的应用层协议的数据流,得到具体的数据文件并将得到的数据文件传输至数据预处理模块;数据预处理模块用于接收数据文件并对数据文件进行HTTP数据包的提取处理,然后将提取的HTTP数据包按照四元组(源IP地址、源端口、目的IP地址、目的端口)的形式组合成会话;数据预处理模块将形成的会话列表传输至关键词提取模块;关键词提取模块用于接收数据预处理模块传输的会话列表,然后从会话列表中提取HTTP数据包的关键词;提取得到关...

【技术特征摘要】
1.一种嵌套的应用层协议的状态机提取系统,其特征在于:包括数据采集和输入模块、数据预处理模块、关键词提取模块、消息聚类模块、模型训练模块、状态译码模块;其中数据采集和输入模块用于采集训练集的嵌套的应用层协议的数据流,得到具体的数据文件并将得到的数据文件传输至数据预处理模块;数据预处理模块用于接收数据文件并对数据文件进行HTTP数据包的提取处理,然后将提取的HTTP数据包按照四元组(源IP地址、源端口、目的IP地址、目的端口)的形式组合成会话;数据预处理模块将形成的会话列表传输至关键词提取模块;关键词提取模块用于接收数据预处理模块传输的会话列表,然后从会话列表中提取HTTP数据包的关键词;提取得到关键词后,保留会话列表中HTTP数据包的关键词,删除HTTP数据包中的非关键词字节;消息聚类模块用于采用X-Means算法对关键词提取模块处理后的会话列表进行聚类,得到具体的参数传输至模型训练模块;模型训练模块用于接收聚类模块传输的参数对模型进行初始化及训练;测试集中嵌套应用层协议的数据流依次经过数据采集和输入模块、数据预处理模块、关键词提取模块、消息聚类模块的处理后得到具体的参数传输至训练好的模型,模型输出的观测值序列传输至状态译码模块,状态译码模块进行译码得到其对应的状态序列。2.根据权利要求1所述的嵌套的应用层协议的状态机提取系统,其特征在于:数据采集和输入模块采用wireshark软件进行嵌套的应用层协议的数据流的采集,得到pcap文件。3.根据权利要求1所述的嵌套的应用层协议的状态机提取系统,其特征在于:所述关键词提取模块从HTTP请求方法、URL中的各层目录、JSON格式数据中的key值、响应码所处位置提取关键词。4.根据权利要求1所述的嵌套的应用层协议的状态机提取系统,其特征在于:所述消息聚类模块在聚类时按照关键词的URL层级或JSON层级的不同赋予相应的权重。5.根据权利要求1所述的嵌套的应用层协议的状态机提取系统,...

【专利技术属性】
技术研发人员:余顺争吴广锐
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1