一种高效的物联网标识编码划分方法技术

技术编号:15036395 阅读:54 留言:0更新日期:2017-04-05 11:47
本发明专利技术公开了一种高效的物联网标识编码划分方法。本方法为:1)选取用于互联网标识编码划分的若干特征,并为每一特征设定一权值;2)对所选特征进行归一化处理;3)对选取的编码标识样本进行聚类,其中将上述权值作为所选聚类算法的度量函数中度量分量的系数;4)对每个聚类中心的特征进行加权计算得到对应聚类的得分;5)对于一待划分的编码标识,从该编码标识中提取与步骤1)相同的若干特征,然后计算与步骤4)每一聚类中心的相似性,将该待划分编码标识分配到最相似的类别中。本发明专利技术在保证一定准确度的条件下,对编码的划分速度得到了显著提高。

【技术实现步骤摘要】

本专利技术涉及一种高效的物联网标识编码划分方法,属于计算机网络

技术介绍
近年来物联网相关技术成为世界经济和科技发展的战略制高点。各个标准机构和组织发布了各种物联网标识的标准,造成了物联网标识体系混乱、标识质量参次不齐的现状。目前识别各类物联网标识的算法有较高的识别速度。经过研究发现,标识识别过程中经常出现标准冲突无法避免的情况;对于拥有标准的组织,高质量的标识的产生,对此类标准的推广至关重要。同时,对于管理众多标准的国家来说,需要一个评价体系来甄别一个标准中的优秀标识,如果一个标准中低质量的标识占的比例太大,可以考虑淘汰部分设计不合理的标准。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种高效的物联网标识编码划分方法。对于某个特定的编码标准,根据标准产生的标识中,部分是冲突较小、查询速度快的高质量标识,部分是冲突较大、查询速度慢的低质量标识,如何划分这些标识对于标准推广组织有重要意义。本专利技术基于标识识别系统(参考申请号:201410186428.X,名称“一种物联网异构标识识别方法和系统”的专利申请),提取了标识解析过程中的多维特征,将原来不可划分的标识通过特征区分开来,在这些特征的基础上提出一种支持特征权值配置的标识快速划分方法。通过历史模型的离线计算,和新输入标识的在线计算,在保证一定准确度的条件下,划分速度得到了显著提高。本专利技术的技术方案为:一种高效的物联网标识编码划分方法,其步骤为:1)选取用于互联网标识编码划分的若干特征,并为每一特征设定一权值;2)对所选特征进行归一化处理;3)对选取的编码标识样本进行聚类,其中将上述权值作为所选聚类算法的度量函数中度量分量的系数;4)对每个聚类中心的特征进行加权计算得到对应聚类的得分;5)对于一待划分的编码标识,从该编码标识中提取与步骤1)相同的若干特征,然后计算与步骤4)每一聚类中心的相似性,将该待划分编码标识分配到最相似的类别中。进一步的,所述用于互联网标识编码划分的特征包括:标识在标识识别系统中运行时的匹配次数,标识的长度,通过长度筛选后的标准集合大小,函数规则的字节长度,最终的标准集合大小。进一步的,选取出所述用于互联网标识编码划分的特征的方法为:首先在标识识别系统中提取编码标识特征:是否包含字母,函数规则的个数,是否包含校验算法,标识在标识识别系统中运行时的匹配次数,标识的长度,通过长度筛选后的标准集合大小,函数规则的字节长度,最终的标准集合大小;然后对初步提取的编码标识特征进行聚类,确定出所述用于互联网标识编码划分的特征。进一步的,对初步提取的编码标识特征进行聚类,确定出所述用于互联网标识编码划分的特征的方法为:对于每一初步提取的编码标识特征进行聚类时,计算不同聚类之间的平方和SSj,Between=ΣkK|Ck|(μj-μjk)2]]>以及聚类簇内的样本平方和SSj,Within=Σin(xji(i∈Ck)-μjk)2;]]>其中SSj,Between表示对于第j个编码标识特征,不同聚类之间的平方和,K是设定的聚类总数,|Ck|表示第k个聚类的样本数,μj是对于第j个编码标识特征,所有样本的均值,是对于第j个编码标识特征,第k个聚类的均值;SSj,Within是对于第j个编码标识特征,聚簇内样本的平方和,n表示编码标识的总数,是第i个编码标识对应于第j个编码标识特征聚类时的取值;然后计算该编码标识特征对应的平方和比例最后根据平方和比例值选取出所述用于互联网标识编码划分的特征。进一步的,确定每一特征的权值的方法为:1)建立一决策矩阵A=Rn*d;其中,d为特征总数,n为编码标识样本个数;2)对矩阵A进行规范化得到一矩阵R;3)对于矩阵R的每一行,建立一单目标决策模型;解此单目标决策模型得到对应行的最优目标权重向量;4)将各行对应的最优目标权重向量组成一矩阵W,计算(RTW)T(RTW)的最大特征值λmax及特征向量w;5)对特征向量w进行归一化处理得到各个特征的权值。进一步的,所述单目标决策模型为其中,0.05≤ki<1,i=1,2,...,d,进一步的,所述度量函数为欧几里得距离函数,计算两编码标识的距离d(i,j)=k1*(xi1-xj1)2+k2*(xi2-xj2)2+...+kd*(xid-xjd)2,]]>d为特征总数。本专利技术物联网标识编码划分方法流程如图1所示。物联网异构标识识别方法专利技术中使用三种规则来描述标识特征,这三种规则包括:长度规则、字节规则以及函数规则。长度规则是这类标识的规定长度,字节规则表示每一位的取值范围,函数规则是一些特殊的拓展规则,比如需要某个加密算法或者校验算法,通常这类规则在识别的过程中,是比较耗费时间的。当一个标识满足多个标准的规则要求时,这个标识就存在识别冲突。标识可能同时属于多个标准的情况是广泛存在的。系统收录的是国内国外公开发布的标准800余项。标识本身特征数目有限,但是通过标识在标识识别系统(申请号:201410186428.X,“一种物联网异构标识识别方法和系统”)中的运行过程中提取出尽可能多的特征。标识在标识识别系统中的初步提取的特征包括:是否包含字母,函数规则的个数,是否包含校验算法,标识在标识识别系统中运行时的匹配次数,标识的长度,通过长度筛选后的标准集合大小,函数规则的字节长度,最终的标准集合大小这8个特征。将这8维向量作为一个编码标识的特征,运行聚类算法,迭代200次后停止。本专利技术使用了RSS(平方和比例)进行特征选择。通过选择最具代表性的特征子集合,不仅能够减少聚类算法的处理时间,还能让模型对训练集之外的数据更有鲁棒性,因为选择了一个更简单的模型。其中SSj,Between表示的是对于第j个特征,不同聚类之间的平方和,k表示的是第几个聚类,K表示的是聚类总数,事先给定为5,|Ck|表示第k个聚类有多少个样本,μj表示的是对于第j个特征,所有样本的均值,表示的是对于第j个特征,第k个聚类的均值。对于第j个特征,所有5个簇内的样本平方和其中SSj,Within表示的是对于第j个特征,聚簇内样本的平方和,i表示第几个编码标识,n表示编码标识的总数,表示的是第i个编码标识属于聚类时,在特征j上的取值。平方和比例:RSSj=1K-1SSj,Between1n-KSSj,Within.]]>将每个特征的RSS从高到低排列,保留前5得到新的特征集合。经过特征本文档来自技高网...

【技术保护点】
一种高效的物联网标识编码划分方法,其步骤为:1)选取用于互联网标识编码划分的若干特征,并为每一特征设定一权值;2)对所选特征进行归一化处理;3)对选取的编码标识样本进行聚类,其中将上述权值作为所选聚类算法的度量函数中度量分量的系数;4)对每个聚类中心的特征进行加权计算得到对应聚类的得分;5)对于一待划分的编码标识,从该编码标识中提取与步骤1)相同的若干特征,然后计算与步骤4)每一聚类中心的相似性,将该待划分编码标识分配到最相似的类别中。

【技术特征摘要】
1.一种高效的物联网标识编码划分方法,其步骤为:
1)选取用于互联网标识编码划分的若干特征,并为每一特征设定一权值;
2)对所选特征进行归一化处理;
3)对选取的编码标识样本进行聚类,其中将上述权值作为所选聚类算法的度量函数中
度量分量的系数;
4)对每个聚类中心的特征进行加权计算得到对应聚类的得分;
5)对于一待划分的编码标识,从该编码标识中提取与步骤1)相同的若干特征,然后计
算与步骤4)每一聚类中心的相似性,将该待划分编码标识分配到最相似的类别中。
2.如权利要求1所述的方法,其特征在于,所述用于互联网标识编码划分的特征包括:
标识在标识识别系统中运行时的匹配次数,标识的长度,通过长度筛选后的标准集合大小,
函数规则的字节长度,最终的标准集合大小。
3.如权利要求1或2所述的方法,其特征在于,选取出所述用于互联网标识编码划分的
特征的方法为:首先在标识识别系统中提取编码标识特征:是否包含字母,函数规则的个
数,是否包含校验算法,标识在标识识别系统中运行时的匹配次数,标识的长度,通过长度
筛选后的标准集合大小,函数规则的字节长度,最终的标准集合大小;然后对初步提取的编
码标识特征进行聚类,确定出所述用于互联网标识编码划分的特征。
4.如权利要求3所述的方法,其特征在于,对初步提取的编码标识特征进行聚类,确定
出所述用于互联网标识编码划分的特征的方法为:对于每一初步提取的编码标识特征进行
聚类时,计算不同聚类之间的平方和以及聚类簇内的样本平...

【专利技术属性】
技术研发人员:李晓东吴腾周琳琳孔宁
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1