【技术实现步骤摘要】
一种装备名称实体分辨方法
[0001]本专利技术涉及数据清洗领域,尤其是涉及一种装备名称实体分辨方法。
技术介绍
[0002]由于不同数据采集人员的知识和习惯的不同,导致人工采集的数据中存在大量重复或者相似的情况,例如,同一种物品具有不同的名称,进而对数据统计分析造成不良影响。因此,在对采集数据进行汇总,或者对不同来源的数据进行整合时,需要对数据中的等价实体进行识别和合并。装备名称实体识别一般采用人工判别或者采用基于字符串相似度的方法,但人工判别仅适用于数据量较少的情况,而基于字符串相似度的方法因装备命名的复杂性而效果不佳。
技术实现思路
[0003]本专利技术的目的是提供了一种装备名称实体分辨方法,用以解决装备名称实体分辨效果不佳的问题。为实现上述目的,本专利技术提供了如下技术方案:
[0004]一种装备名称实体分辨方法,包括装备名称规范化、关系矩阵构造和等价实体集合计算三部分;其中,装备名称规范化,对装备名称进行预处理,实现装备名称的规范化;关系矩阵构造,计算装备名称之间的归一化莱文斯坦相似度,并 ...
【技术保护点】
【技术特征摘要】
1.一种装备名称实体分辨方法,其特征在于,包括:S1、装备名称规范化,对装备名称进行预处理,实现装备名称的规范化;S2、关系矩阵构造,计算装备名称之间的归一化莱文斯坦相似度,并根据相似度阈值构造关系矩阵;S3、等价实体集合计算,根据关系矩阵计算传递闭包,并据此计算等价实体集合。2.如权利要求1所述的装备名称实体分辨方法,其特征在于,S1具体包括:S11、去除操作;类别名称去除,根据装备类别名称字典,删除装备名称字符串中的类别名称字符串;特殊字符去除,删除装备名称字符串中的特殊字符;S12、转换操作;数字转换,将中文数字转换为阿拉伯数字;序号转换,将字符串序号转换为英文字母序号;中文转换,将汉字转换为对应汉语拼音首字母;大小写转换,将装备名称字符串中的小写字母全部转换为大写字母。3.如权利要求2所述的装备名称实体分辨方法,其特征在于,S12中的数字转换具体包括:数字字符串提取,遍历装备名称字符串中的每个字符,根据包含连续数字字符或进位字符的子字符串的起始位置,提取装备名称字符串中的数字部分;数字结构化表示,如果数字字符串包含进位字符,则构造数字的二叉树表示;其中,二叉树中包含两类节点,即数字节点和数位节点,每个节点具有标称值和解析值;数字节点的标称值和解析值都等于不同数位上的数字;数位节点的标称值为不同数位对应的以十为底的指数,解析值等于以十为底、标称值为指数的指数值,乘以其左子节点的解析值,再加上其右子节点的解析值;数字格式化输出,如果数字字符串中不包含进位字符,则直接输出每个字符对应的阿拉伯数字;否则,从根节点开始,递归地求解根节点的解析值,并将数值转换为格式化字符串,并替换装备名称字符串中的数字部分。4.如权利要求3所述的数字转换步骤,其特征在于,数字结构化表示中的数...
【专利技术属性】
技术研发人员:翁年凤,曹建军,严浩,袁震,蒋国权,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。