一种基于TCP/IP协议栈指纹的操作系统被动识别方法及系统技术方案

技术编号：23472974 阅读：38 留言：0更新日期：2020-03-06 14:12

本发明专利技术提供了一种基于TCP/IP协议栈指纹的操作系统被动识别方法及系统，在不需要对网络加密流量解密的前提下，利用IP协议、TCP协议以及TLS协议的头部字段信息和网络流包长和包传输时间序列的统计信息，识别客户端的操作系统类型以及主要版本信息，进而评估目标网络中各主机的网络安全漏洞风险，推断互联网中NAT设备的存在数量。本发明专利技术借鉴流量分类领域中的已有成果，在特征集中引入网络流的统计信息特征，增强不同操作系统流量之间的区分性；并首次将LightGBM模型作为完成识别任务的机器学习模型，利用该模型支持类别特征输入的特性，解决了多维度类别特征one‑hot编码后导致的特征维度爆炸问题。

A passive identification method and system of operating system based on fingerprint of TCP / IP protocol stack

全部详细技术资料下载

【技术实现步骤摘要】
一种基于TCP/IP协议栈指纹的操作系统被动识别方法及系统
本专利技术涉及一种基于TCP/IP协议栈指纹的操作系统被动识别方法及系统，属于计算机软件

技术介绍
近些年来，由于各种智能设备使用量的增长和网络加密技术的发展，网络监控和管理技术面临越来越多的问题和挑战。众所周知，了解本地网络中所有主机的操作系统信息，是完成保障网络安全，优化网络管理等任务必不可少的一环。一方面，大部分网络漏洞与特定的操作系统种类和版本有关，因此掌握本地网络中各主机的操作系统信息有助于及时修补潜在漏洞，免受恶意攻击；另一方面，网络地址转换(NAT)设备在互联网中的部署规模日益增大，严重破坏了IP协议的端到端特性，增加了网络拓扑的复杂性，而对于操作系统识别方法的研究可用于测量网络中的NAT规模。识别网络中客户端操作系统信息的方法主要分为两种：主动和被动。主动识别方法指构造特定的网络报文发往待测主机，根据待测主机的响应推断其操作系统相关信息，具有针对性强和准确性高等特点。然而，主动识别行为很容易被入侵检测系统或网络防火墙等安全设备检测并拦截，无法将探测数据包发送到目标主机，导致其仅适用于少量场景。与主动识别方法相比，被动识别方法不需要和目标主机进行交互，仅需监听网络中的数据包，通过提取并利用网络数据包中的协议头部信息，载荷信息和其他信息来识别目标主机的操作系统。由于被动识别方法不受防火墙等安全设备的影响，其适用范围更广，但其局限性是识别准确性相对较差。根据是否加密，操作系统被动识别方法的研究对象可分为明文流量和加密流量。...

【技术保护点】
1.一种基于TCP/IP协议栈指纹的操作系统被动识别方法，包括以下步骤：/n(1)采集待测加密流量数据，通过主被动的方法对数据集中的全部样本完成属性标注；/n(2)将元组<IP source,IP destination,Port source,Port destination>作为一次网络会话的唯一标识，并提取每次会话中TCP SYN报文的IP层，TCP层头部参数，TLS ClientHello报文的TLS层头部参数，以及整个会话关于包长和包到达时间相邻差的统计信息，得到特征集；/n(3)将上述特征集中的特征数据输入训练完成的操作系统被动识别模型中，得到待测流量客户端的操作系统信息；/n其中，/n所述操作系统被动识别模型通过下述训练方法得到：/n(a)采集不同操作系统类型和版本的加密流量数据作为样本数据集，通过主被动的方法对样本数据集中的全部样本完成属性标注；/n(b)对完成标注的流量数据提取流量特征：将元组<IP source,IP destination,Portsource,Port destination>作为一次网络会话的唯一标识，提取每次会话中TC...

【技术特征摘要】
1.一种基于TCP/IP协议栈指纹的操作系统被动识别方法，包括以下步骤：
(1)采集待测加密流量数据，通过主被动的方法对数据集中的全部样本完成属性标注；
(2)将元组<IPsource,IPdestination,Portsource,Portdestination>作为一次网络会话的唯一标识，并提取每次会话中TCPSYN报文的IP层，TCP层头部参数，TLSClientHello报文的TLS层头部参数，以及整个会话关于包长和包到达时间相邻差的统计信息，得到特征集；
(3)将上述特征集中的特征数据输入训练完成的操作系统被动识别模型中，得到待测流量客户端的操作系统信息；
其中，
所述操作系统被动识别模型通过下述训练方法得到：
(a)采集不同操作系统类型和版本的加密流量数据作为样本数据集，通过主被动的方法对样本数据集中的全部样本完成属性标注；
(b)对完成标注的流量数据提取流量特征：将元组<IPsource,IPdestination,Portsource,Portdestination>作为一次网络会话的唯一标识，提取每次会话中TCPSYN报文的IP层，TCP层头部参数以及TLSClientHello报文的TLS层头部参数，得到一次会话的头部字段特征集，并基于整个会话中的包长和包到达时间序列，构建马尔可夫状态转移概率矩阵，得到一次会话的统计类特征集；
(c)将特征集数据作为输入训练LightGBM模型。

2.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法，其特征在于，采集加密流量数据的操作系统类型包括Windows，MacOS，Linux，Android和iOS。

3.如权利要求2所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法，其特征在于，采集21种操作系统版本类型。

4.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法，其特征在于，步骤(3)中特征集数据在输入识别模型前还包括预处理：完成缺失数据的填充、数据归一化以及文本特征转化为离散数值特征。

5.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动...

【专利技术属性】
技术研发人员：石俊峥，熊刚，范鑫磊，苟高鹏，李镇，宋嘉莹，刘梦严，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人