一种联网智能设备识别信息提取方法及系统技术方案

技术编号:25809167 阅读:37 留言:0更新日期:2020-09-29 18:44
本发明专利技术提供一种联网智能设备识别信息提取方法及系统,涉及物联网设备安全技术领域,该方法包括从应用层响应数据中过滤得到联网智能设备的应用层响应数据并从中提取标识联网智能设备特性的特征关键词序列;再搜索特征关键词序列并爬取前n条网页;从网页中过滤得到第一文本信息并基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取初步设备描述识别信息;在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为该类别的最终设备描述识别信息;该提取方法能够提取未见过的设备描述识别信息;而且最终设备描述识别信息的确定方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。

【技术实现步骤摘要】
一种联网智能设备识别信息提取方法及系统
本专利技术涉及物联网设备安全
,尤其涉及一种联网智能设备识别信息提取方法及系统。
技术介绍
中国内外在联网智能设备识别信息提取领域做了一定数量的研究,提出了一些可行的联网智能设备识别信息提取方法;目前联网智能设备识别信息提取方法可分为两类:一类是基于有监督机器学习技术的,另一类是基于自然语言处理和数据挖掘的。基于有监督机器学习技术的联网智能设备识别信息提取方法目前联网智能设备识别信息提取方法中大多数利用的是机器学习中的有监督学习;预先收集若干类型物联网设备的网络流量,利用网络流量包中链路层、网络层、传输层、应用层等各层提取的特征来训练机器学习模型,对物联网设备的类型进行预测;然而,这些方法只能预测到设备的类型级别,不能预测到更细粒度的设备信息,并且能够预测的设备类型集合取决于预先收集的设备类型,而且数据集的收集和标注需要大量的人工参与。基于自然语言处理和数据挖掘的联网智能设备识别信息提取方法XuanFeng等人首次提出了一个自动化的联网智能设备标注框架ARE;该框架能够自动化地提取联网智能设备的(类型,厂商,型号)信息;他们从Censys上收集了HTTP、FTP、RTSP、TELNET等4种协议的应用层响应数据,利用自然语言处理和数据挖掘等技术提取联网智能设备的识别信息;该方法对设备描述网页中设备类型、设备厂商、设备型号等信息的提取完全依赖于规则匹配和规则库,这使得提取性能很大程度上依赖于规则的好坏以及规则库的完善与否。专利
技术实现思路
有鉴于此,本专利技术的目的在于提出一种联网智能设备识别信息提取方法及系统,以解决现有联网智能设备的识别信息提取方法中现有规则与设备类型、厂商、型号不匹配时,无法提取设备识别信息的问题,以及基于关联规则挖掘算法在搜索结果中提取设备识别信息耗费时间长和计算资源较高的问题。基于上述目的,本专利技术第一方面提供了一种联网智能设备识别信息提取方法,包括如下步骤:从应用层响应数据中过滤得到联网智能设备的应用层响应数据;从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。可选地,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。可选地,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列;所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。可选地,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。优选地,所述从所述网页中过滤得到第一文本信息包括:采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。可选地,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。本专利技术第二方面提供了一种联网智能设备识别信息提取框架系统,所述提取框架系统包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;所述数据处理模块包括过滤模块和预处理模块;所述过滤模块用于从应用层响应数据中过滤得到联网智能设备的应用层响应数据;所述预处理模块用于从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;所述搜索/处理模块包括搜索模块和处理模块,所述搜索模块用于在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;所述处理模块用于从所述网页中过滤得到第一文本信息;所述管理模块包括提取模块、存储模块和查询模块;所述提取模块用于采用基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息,并在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息,再根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息;所述存储模块用于确定是否储存有所述最终设备描述识别信息和所述漏洞识别信息,若未存储,则存储所述最终设备描述识别信息和所述漏洞识别信息;所述查询模块用于在所述存储模块中查询联网智能设备的识别信息;所述前端展示模块用于与所述处理模块、搜索/处理模块和管理模块进行交互。可选地,所述在所述存储模块中查询联网智能设备的识别信息包括:根据设备类型、设备厂商、设备型号或设备漏洞编号在所述存储模块中查询联网智能设备的识别信息。可选地,所述前端展示模块包括关键词输入模块、应用层响应信息输入模块和应用层响应信息获取模块;所述关键词输入模块与所述查询模块进行交互,用于通过输入关键词在所述存储模块中查询联网智能设备的识别信息;所述应用层响应信息输入模块用于输入应用层的响应数据,并通过所述数据处理模块、搜索/处理模块和管理模块对输入的应用层响应数据进行处理;所述应用层响应信息获取模块用于根据输入的IP、端口号或协议获取应用层响应信息,并通过所述数据处理模块、搜索/处理模块和管理模块对获取的应用层响应数据进行处理。可选地,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;所述非物联网设备的应用层响应数据包括重量级的Web服务器本文档来自技高网
...

【技术保护点】
1.一种联网智能设备识别信息提取方法,其特征在于,包括如下步骤:/n从应用层响应数据中过滤得到联网智能设备的应用层响应数据;/n从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;/n在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;/n从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;/n在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;/n根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。/n

【技术特征摘要】
1.一种联网智能设备识别信息提取方法,其特征在于,包括如下步骤:
从应用层响应数据中过滤得到联网智能设备的应用层响应数据;
从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;
从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;
在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;
根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。


2.根据权利要求1所述的提取方法,其特征在于,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。


3.根据权利要求1所述的提取方法,其特征在于,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列;
所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。


4.根据权利要求3所述的提取方法,其特征在于,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。


5.根据权利要求1所述的提取方法,其特征在于,所述从所述网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。


6.根据权利要求1所述的提取方法,其特征在于,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。


7.一种联网智能设备识别信息提取框架系统,其特征在于,包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;
所述数据处理模块包括过滤模块和预处理模块;所述过滤模块用于从应用层响应数据中过滤得到联网智能设备的应用层响应数据;所述预处理模块用于从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
所述搜索/处理模块包括搜索模块和处理模块,所述搜索模块用于在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;所述处理模块用于从所述网页中过滤得到第一文本信息;
所述管理模块包括...

【专利技术属性】
技术研发人员:张淼徐国爱吕浩徐国胜郭燕慧王浩宇
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1