【技术实现步骤摘要】
一种联网智能设备识别信息提取方法及系统
本专利技术涉及物联网设备安全
,尤其涉及一种联网智能设备识别信息提取方法及系统。
技术介绍
中国内外在联网智能设备识别信息提取领域做了一定数量的研究,提出了一些可行的联网智能设备识别信息提取方法;目前联网智能设备识别信息提取方法可分为两类:一类是基于有监督机器学习技术的,另一类是基于自然语言处理和数据挖掘的。基于有监督机器学习技术的联网智能设备识别信息提取方法目前联网智能设备识别信息提取方法中大多数利用的是机器学习中的有监督学习;预先收集若干类型物联网设备的网络流量,利用网络流量包中链路层、网络层、传输层、应用层等各层提取的特征来训练机器学习模型,对物联网设备的类型进行预测;然而,这些方法只能预测到设备的类型级别,不能预测到更细粒度的设备信息,并且能够预测的设备类型集合取决于预先收集的设备类型,而且数据集的收集和标注需要大量的人工参与。基于自然语言处理和数据挖掘的联网智能设备识别信息提取方法XuanFeng等人首次提出了一个自动化的联网智能设备标注框架ARE;该框架能够自动化地提取联网智能设备的(类型,厂商,型号)信息;他们从Censys上收集了HTTP、FTP、RTSP、TELNET等4种协议的应用层响应数据,利用自然语言处理和数据挖掘等技术提取联网智能设备的识别信息;该方法对设备描述网页中设备类型、设备厂商、设备型号等信息的提取完全依赖于规则匹配和规则库,这使得提取性能很大程度上依赖于规则的好坏以及规则库的完善与否。专利 ...
【技术保护点】
1.一种联网智能设备识别信息提取方法,其特征在于,包括如下步骤:/n从应用层响应数据中过滤得到联网智能设备的应用层响应数据;/n从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;/n在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;/n从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;/n在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;/n根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。/n
【技术特征摘要】
1.一种联网智能设备识别信息提取方法,其特征在于,包括如下步骤:
从应用层响应数据中过滤得到联网智能设备的应用层响应数据;
从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;
从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;
在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;
根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。
2.根据权利要求1所述的提取方法,其特征在于,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。
3.根据权利要求1所述的提取方法,其特征在于,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列;
所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。
4.根据权利要求3所述的提取方法,其特征在于,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。
5.根据权利要求1所述的提取方法,其特征在于,所述从所述网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。
6.根据权利要求1所述的提取方法,其特征在于,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。
7.一种联网智能设备识别信息提取框架系统,其特征在于,包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;
所述数据处理模块包括过滤模块和预处理模块;所述过滤模块用于从应用层响应数据中过滤得到联网智能设备的应用层响应数据;所述预处理模块用于从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
所述搜索/处理模块包括搜索模块和处理模块,所述搜索模块用于在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;所述处理模块用于从所述网页中过滤得到第一文本信息;
所述管理模块包括...
【专利技术属性】
技术研发人员:张淼,徐国爱,吕浩,徐国胜,郭燕慧,王浩宇,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。