一种基于聚类分析的自动化指纹特征提取方法技术

技术编号:19122003 阅读:17 留言:0更新日期:2018-10-10 05:10
本发明专利技术公开了一种基于聚类分析的自动化指纹特征提取方法。本方法为:1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;2)将收到的所述响应包按照包头的域进行分簇;3)对步骤2)所得每一簇的响应包的内容进行聚类;4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。本发明专利技术提出了基于带阈值的层次聚类的设备指纹自动提取技术,解决了设备更新速度快,手动生收集更新过慢的问题。

【技术实现步骤摘要】
一种基于聚类分析的自动化指纹特征提取方法
本专利技术涉及一种基于聚类的设备指纹自动化指纹提取方法,属于计算机网络和物联网领域。
技术介绍
物联网是我国战略性新兴产业的重要组成部分,引领了继计算机、互联网和移动通信之后的新一轮信息技术革命,是未来科技竞争的制高点和产业升级的重要驱动力,是加速推进工业化、信息化融合的催化剂。物联网不仅和国民经济建设、社会发展息息相关,对提高人民生活质量和水平也密不可分,是我国创新驱动发展战略的重要体现。保证物联网安全,也就是保障国家基础设施的安全建设。物理实体设备出现在网络空间,包括网络摄像头,工业控制设备,智能家电,智能手机,路由器,打印机等等设备。网络空间的物理设备将自身暴露在公共区域,既推动了社会的发展,工业4.0,智能楼宇,普适计算,办公自动化等等,也带来了安全与隐私问题。物理实体设备,自身存在的漏洞,易被黑客攻击,那么依赖于这些物理设备的控制结果将会出现灾难性的问题,如工厂停产或出现错误的操控结果,从而造成实体设施的毁坏,引起社会危机和经济损失。物理实体设备获取、处理、传输的隐私数据,如果没有防范措施则会导致隐私的泄露,也会引起社会危机和经济损失。网络空间上的物联网设备的搜索,可以帮助相关业务企业系统提高安全审计的效率,物联网系统安全防御的科研工作提供技术支持,为国家安全部门提供安全态势分析。现有的网络空间工业控制设备搜索主要存在以下几个缺陷。首先,整个IPv4的网络空间包括40亿的地址空间,在如此巨大的空间内搜索工业控制设备,会消耗数年的时间,这对于国家基础设施的安全保障来说是不现实的。其次,工业控制设备种类繁多,现有的方法无法知道当前的设备具体是哪一种工业控制设备。
技术实现思路
针对已有工作的不足,本专利技术的目的在于提供一种基于聚类分析算法的自动化指纹特征提取方法。本方法分为三个阶段,在第一阶段,将HTTP的响应包按照头部信息的域进行分簇,生成一个小的集合;第二阶段,利用设定阈值的层次聚类算法对HTTP响应包的内容进行聚类,特征相似或者相同的不同类别;第三阶段对不同的类别进行标记,生成不同设备的指纹。本专利技术的技术方案为:一种基于聚类分析的自动化指纹特征提取方法,其步骤为:1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;2)将收到的所述响应包按照包头的域进行分簇;3)对步骤2)所得每一簇的响应包的内容进行聚类;4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。进一步的,利用带参数的层次聚类算法对每一簇的响应包的内容进行聚类。进一步的,所述参数可调。进一步的,步骤3)中,首先初始化一参数a对步骤2)所得每一簇的响应包的内容进行聚类,得到聚类结果;然后根据聚类结果的类别数目,调节参数a改变聚类结果的数目,最终达到收敛。进一步的,判断收敛的条件为:如果当前得到的聚类结果的类别数目与上一次聚类得到的类别数目相比,变化小于设定阈值,则判断为收敛。进一步的,根据响应包的内容的结构和文本特征,对响应包进行聚类。如图1所示,简单描述了该设备指纹提取算法的流程。利用构造HTTP请求探测包(“GET/”)在整个网络空间探测,记录网络空间设备的响应信息。本专利技术提出的算法是在这个基础上开始的,在第一阶段,利用对本专利技术之前得到的设备的响应信息按照头部信息进行分层(每层对应一个类别),生成一个个独立的类别,对设备信息进行简单筛选,简化聚类的内存开销和时间消耗,在一定程度上有利于提高聚类的精准度。在第二个阶段,对第一阶段得到的不同类别进行带参数a的层次聚类,生成具有相似特征的一个个小簇。这里的参数a是可调的,根据聚类结果中类别的数目增大或者减小。基于此单参数的具有反馈特性的方法,达到很好的聚类结果。第三阶段中,对得到的不同类别进行标识,生成设备指纹。本方法的基于聚类的自动化指纹特征提取技术,其主要步骤(图1所示)包括:1.第一阶段,基于响应头的分层,提取响应信息头部,根据文本特征分层。2.第二阶段,带参数的层次聚类算法,包括参数a的自动调节,收敛准则。1.第一阶段,基于响应头的分层,提取响应信息头部,根据文本特征分层这里以HTTP响应信息的头部举例说明,本专利技术得到的设备响应信息类似于如图2的结构,包括头部和内容。而头部中包含着很多字段(fields),根据不同字段的语义信息进行分层(如serveruser-agent值相同的页面会分到一组里面,如值都为apache的会分到一组),得到头部信息相似的不同的类别,如图3所示。2.第二阶段,带参数的层次聚类算法,包括参数a的自动调节,收敛准则。在第一阶段对响应信息的头部信息进行分类,得到若干不同的类别。而响应信息的内容Body部分,根据设备类别型号的不同一般具有不同的结构和文本特征,如图4所示。本专利技术利用这里的结构和文本特征,对响应包进行聚类。采用带参数a的层次聚类算法对设备的响应包进行聚类,利用聚类结果的种类数目来实现反馈,从而调节a改变聚类结果的数目,最终达到收敛。收敛的具体标准为聚类结果的数目,相对于上次聚类结果没有很大的变化,即当前得到的聚类结果的类别数目与上一次聚类得到的类别数目相比,变化小于设定阈值,则判断为收敛。与现有技术相比,本专利技术的积极效果为:本专利技术提出了基于带阈值的层次聚类的设备指纹自动提取技术。在第一阶段,利用HTTP头的不同Field对设备进行分簇为后面的聚类做相应的预处理,并且减少聚类的内存开销,加快聚类算法的训练时间。在第二阶段,提出带阈值的层次聚类算法来对HTTP的内容进行聚类,并且结合第三阶段的对不同类别设备的标记,最终形成设备指纹。本专利技术的优势之处在于:(1)可以解决当前手动的设备指纹收集过程,自动的生成设备指纹;(2)解决设备更新速度快,手动生收集更新过慢的问题。附图说明图1为基于聚类的设备指纹自动提取技术示意图;图2为设备的响应信息结构;图3为分层后的结构层次;图4为不同设备响应信息内容结构。具体实施方式基于聚类分析算法的自动化指纹特征提取技术的系统设计,下面本专利技术描述具体的实现细节。a)对响应信息进行处理,得到头部和内容部分。b)在(a)后,根据(a)得到的头部信息的内容语义特征进行分层。c)在(b)后,利用初始的参数a对(b)所得到的不同层的内容部分进行聚类,得到聚类结果。d)在(c)后,根据聚类结果类别的数目,调节参数a。e)在(d)后,判断聚类的结果类别的数目是否有很大的变化,如果变化大于设定阈值,则重复(d);如果否,继续下一步。f)在(e)后,对聚类结果中,不同的类别进行标识,得到不同设备的指纹。以上实施例仅用以说明本专利技术的技术方案而非对其进行限制,本领域的普通技术人员可以对本专利技术的技术方案进行修改或者同等替换,而不脱离本专利技术的精神和范围,本专利技术的保护范围应以权利要求所述为准。本文档来自技高网
...
一种基于聚类分析的自动化指纹特征提取方法

【技术保护点】
1.一种基于聚类分析的自动化指纹特征提取方法,其步骤为:1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;2)将收到的所述响应包按照包头的域进行分簇;3)对步骤2)所得每一簇的响应包的内容进行聚类;4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。

【技术特征摘要】
1.一种基于聚类分析的自动化指纹特征提取方法,其步骤为:1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;2)将收到的所述响应包按照包头的域进行分簇;3)对步骤2)所得每一簇的响应包的内容进行聚类;4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。2.如权利要求1所述的方法,其特征在于,利用带参数的层次聚类算法对每一簇的响应包的内容进行聚类。3.如权利要求2所述的方法,其特征在...

【专利技术属性】
技术研发人员:闫兆腾丰轩白稳平朱红松孙利民
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1