一种基于半监督聚类算法的设备类型识别方法和装置制造方法及图纸

技术编号:22330811 阅读:32 留言:0更新日期:2019-10-19 12:24
本发明专利技术涉及物联网设备企业识别技术领域,具体涉及一种基于半监督聚类算法的设备类型识别方法和装置,方法包括:收集多条物联网数据,形成物联网数据集;在物联网数据集内对产生的业务数据进行行为统计,生成针对各设备的行为统计特征;在物联网数据集内进行数据包级的半监督聚类学习后,对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征;针对设备合并行为统计特征和包类型统计特征,并基于合并后的数据进行设备级的半监督聚类学习,生成设备企业聚类结果。通过解析IOT设备产生的协议流特征与数据包内特征,基于半监督聚类算法对设备进行分类,节省人力物力,可多、快、准的发现物联网企业,完成物联网企业的识别。

【技术实现步骤摘要】
一种基于半监督聚类算法的设备类型识别方法和装置
本专利技术涉及物联网设备企业识别
,具体涉及一种基于半监督聚类算法的设备类型识别方法和装置。
技术介绍
物联网(Internetofthings,简写为IoT)即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,是将各种信息传感设备与互联网结合起来而形成的一个巨大网络,可实现在任何时间、任何地点,人、机、物的互联互通。目前,物联网已经是新一代信息技术发展的重大方向,中国通信公司自2017年起就相继开始打造智慧城市;其中,作为物联网的一个重要分支,窄带物联网(NarrowBandInternetofThings,简写为NB-IoT)的覆盖省域也逐步增多。NB-IoT是IoT领域一个新兴的技术,支持低功耗设备在广域网的蜂窝数据连接,,只消耗大约180KHz的带宽,可直接部署于GSM网络、UMTS网络或LTE网络,以降低部署成本、实现平滑升级。随着物联网产业的兴起,对物联网企业业务的跟踪与识别需求也接踵而至。传统的物联网企业识别过程通常为:首先针对某已知企业抓取批量设备样包;然后分析样包内容,提取设备特征;最后将提取的特征加入DPI产品识别特征库,进行企业识别。但是,由于现网存在大量未知企业数据,已知企业量级较少,因此人工提取到的已知企业特征存在非唯一企业特征,是多企业共有特征,而大量未知企业的业务数据难以探索识别。而且,物联网业务并非普通的4G移动互联网业务,难以实现本地准备设备做复现业务抓包工作,并且业务基本不具备自然语言可读性,因此现有的4G业务识别技术难以移植到物联网企业识别上来。综上可知,鉴于物联网企业业务与常规互联网业务的业务平台差异性,本地抓包和复现业务请求极其困难,因此使用常规协议识别流程(即现有人工摸索物联网企业识别模式)很难开展物联网企业的识别工作,更难满足识别企业种类多、覆盖广、更新快的需求,因此目前仍缺少一种有效的机器学习方法对企业数据进行分类或聚类。鉴于此,克服上述现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
本专利技术需要解决的技术问题是:鉴于物联网企业业务与常规互联网业务的业务平台差异性,本地抓包和复现业务请求极其困难,使用常规协议识别流程很难开展物联网企业的识别工作,更难满足识别企业种类多、覆盖广、更新快的需求。本专利技术通过如下技术方案达到上述目的:第一方面,本专利技术提供了一种基于半监督聚类算法的设备类型识别方法,包括:收集多条物联网数据,形成物联网数据集;在物联网数据集内对产生的业务数据进行行为统计,生成针对各设备的行为统计特征;在物联网数据集内进行数据包级的半监督聚类学习后,对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征;针对设备合并行为统计特征和包类型统计特征,并基于合并后的数据进行设备级的半监督聚类学习,生成设备企业聚类结果。优选的,所述在物联网数据集内进行数据包级的半监督聚类学习后,对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征,具体包括:在物联网数据集内,随机抽取业务数据进行数据包相关信息的提取,形成包特征聚类模型训练集;针对所述包特征聚类模型训练集设计包特征相似度计算算法,继而进行数据包级的半监督聚类学习,生成包特征聚类模型;在物联网数据集内,以设备为单位利用所述包特征聚类模型对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征。优选的,在所述随机抽取业务数据进行数据包相关信息的提取中,所述数据包相关信息包括请求时段、请求类型、返回状态码、数据大小、COAP各Option字段以及负载原始数据中的一项或者多项。优选的,所述半监督聚类具体为Chamelon聚类,则所述针对所述包特征聚类模型训练集设计包特征相似度计算算法,继而进行数据包级的半监督聚类学习,具体为:针对所述包特征聚类模型训练集中的不同字段类型,分别采取不同的相似度计算方法进行数据包间的相似度计算,并基于相似度结果构造数据包之间的第一相似度矩阵;根据所述第一相似度矩阵的数据值,采用K-最邻近法将数据包以相似度最大的k个为单位聚集成簇;计算任意两个簇的互连性RI和紧密性RC,当两个指标均符合包特征聚类指标时合并两个簇,迭代合并至无簇后结束动态聚类。优选的,所述针对设备合并行为统计特征和包类型统计特征,并基于合并后的数据进行设备级的半监督聚类学习,生成设备企业聚类结果,具体包括:以设备为键值合并相应的行为统计特征和包类型统计特征,形成设备半监督聚类训练集;提取有企业标签的设备半监督聚类训练集,建立分类模型并进行有监督的训练,生成设备相似度计算模型;利用所述设备相似度计算模型进行设备级的半监督聚类学习,生成设备企业聚类结果。优选的,所述提取有企业标签的设备半监督聚类训练集,建立分类模型并进行有监督的训练,生成设备相似度计算模型,具体为:提取适当数量的有企业标签的设备半监督聚类训练集,并针对设备半监督聚类训练集计算两两设备之间的第一特征差值向量;根据所述两两设备之间的第一特征差值向量与Label值,构成设备相似度计算模型训练集;其中,对于所述两两设备,若两两企业相同则Label为1,不同则Label为0;建立分类模型,并利用所述设备相似度计算模型训练集进行分类模型的训练,将训练好的模型作为设备相似度计算模型。优选的,所述半监督聚类具体为Chamelon聚类,则所述利用所述设备相似度计算模型进行设备级的半监督聚类学习,具体为:针对所述设备相似度计算模型训练集,计算两两设备之间的第二特征差值向量;将所述第二特征差值向量输入所述设备相似度计算模型,并基于输出的相似度结果构造设备之间的第二相似度矩阵;根据所述第二相似度矩阵的数据值,采用K-最邻近法将设备以相似度最大的k个为单位聚集成簇;计算任意两个簇的互连性RI和紧密性RC,当两个指标均符合设备聚类指标时合并两个簇,迭代合并至无簇后结束动态聚类。优选的,在所述物联网数据集中,每条数据包含上下行请求包数、上下行请求字节数、请求类型、请求负载以及返回状态码中的一项或多项信息。优选的,在所述在物联网数据集内对产生的业务数据进行行为统计时,具体统计相应设备在一天中不同时段内,产生的请求类型分布、请求成功率分布、失败类型分布以及出现地点数分布中的一项或多项信息。第二方面,本专利技术还提供了一种基于半监督聚类算法的设备类型识别装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成第一方面所述的基于半监督聚类算法的设备类型识别方法。本专利技术的有益效果是:本专利技术提供的设备类型识别方法中,通过解析IOT设备产生的协议流特征与数据包内特征,基于半监督聚类算法对设备类型进行分类,在设备聚类之前先进行包类型聚类,既摆脱了数据包混淆的困扰,又利用了设备产生不同类型数据包的分布状态协助了设备聚类,节省了人力物力,可以多、快、准的发现物联网企业,帮助完成物联网企业的识别工作。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付本文档来自技高网
...

【技术保护点】
1.一种基于半监督聚类算法的设备类型识别方法,其特征在于,包括:收集多条物联网数据,形成物联网数据集;在物联网数据集内对产生的业务数据进行行为统计,生成针对各设备的行为统计特征;在物联网数据集内进行数据包级的半监督聚类学习后,对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征;针对设备合并行为统计特征和包类型统计特征,并基于合并后的数据进行设备级的半监督聚类学习,生成设备企业聚类结果。

【技术特征摘要】
1.一种基于半监督聚类算法的设备类型识别方法,其特征在于,包括:收集多条物联网数据,形成物联网数据集;在物联网数据集内对产生的业务数据进行行为统计,生成针对各设备的行为统计特征;在物联网数据集内进行数据包级的半监督聚类学习后,对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征;针对设备合并行为统计特征和包类型统计特征,并基于合并后的数据进行设备级的半监督聚类学习,生成设备企业聚类结果。2.根据权利要求1所述的基于半监督聚类算法的设备类型识别方法,其特征在于,所述在物联网数据集内进行数据包级的半监督聚类学习后,对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征,具体包括:在物联网数据集内,随机抽取业务数据进行数据包相关信息的提取,形成包特征聚类模型训练集;针对所述包特征聚类模型训练集设计包特征相似度计算算法,继而进行数据包级的半监督聚类学习,生成包特征聚类模型;在物联网数据集内,以设备为单位利用所述包特征聚类模型对产生的业务数据进行包类型识别,生成针对各设备的包类型统计特征。3.根据权利要求2所述的基于半监督聚类算法的设备类型识别方法,其特征在于,在所述随机抽取业务数据进行数据包相关信息的提取中,所述数据包相关信息包括请求时段、请求类型、返回状态码、数据大小、COAP各Option字段以及负载原始数据中的一项或者多项。4.根据权利要求2所述的基于半监督聚类算法的设备类型识别方法,其特征在于,所述半监督聚类具体为Chamelon聚类,则所述针对所述包特征聚类模型训练集设计包特征相似度计算算法,继而进行数据包级的半监督聚类学习,具体为:针对所述包特征聚类模型训练集中的不同字段类型,分别采取不同的相似度计算方法进行数据包间的相似度计算,并基于相似度结果构造数据包之间的第一相似度矩阵;根据所述第一相似度矩阵的数据值,采用K-最邻近法将数据包以相似度最大的k个为单位聚集成簇;计算任意两个簇的互连性RI和紧密性RC,当两个指标均符合包特征聚类指标时合并两个簇,迭代合并至无簇后结束动态聚类。5.根据权利要求1所述的基于半监督聚类算法的设备类型识别方法,其特征在于,所述针对设备合并行为统计特征和包类型统计特征,并基于合并后的数据进行设备级的半监督聚类学习,生成设备企业聚类结果,具体包括:以设备为键值合并相应的行为统计特征和包类型统计特征,形成设备半监督聚类训练集;提取有企业标...

【专利技术属性】
技术研发人员:杨琨叶志钢张本军
申请(专利权)人:武汉绿色网络信息服务有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1