The invention discloses a fuzzy matching method of the name of the equipment model. This method, aiming at the particularity of the equipment name, calculates the similarity distance of two equipment name strings by improving the Jaro Winkler algorithm, and determines the threshold of the two equipment name strings, and the same equipment model is not shown. The invention not only shields the difference between Chinese characters and the first letter of Pinyin, but also improves the influence of the digital label on the match of the model name, and can accurately determine whether the equipment name string is matched.
【技术实现步骤摘要】
一种装备型号名称的模糊匹配方法
本专利技术属于计算机数据仓库
,尤其涉及一种装备型号名称的模糊匹配方法。
技术介绍
在数据仓库中,为了保证数据质量,数据仓库工程通常开始于历史数据的读取,并要进行数据清洗和质量控制。然而大多数情况下,数据源来自企业中各个系统,并不是所有的数据都有统一的标准、这样在做ETL过程的时候就需要将需要的数据清洗出来,而清洗的过程中主要是对数据进行操作,因此采用一个高效的合理的算法必不可少。Jaro-Winkler距离(Winkler,1990)是计算2个字符串之间相似度的一种算法。它是Jaro距离算法的变种。主要用于数据连接重复记录处理,Jaro-Winkler距离最后得分越高说明相似度越大。Jaro-Winkler距离适合于比如名称这样较短的字符之间计算相似度。0分表示没有任何相似度,1分则代表完全匹配。Jaro-Winkler距离算法适合于英文字符名称的模糊匹配,对于中文装备名称来说存在如下问题:(1)中文汉字不是单字节表示的,根据编码不同至少为双字节表示一个汉字;(2)中文装备名称表示形式多样,比如对数字可表示为汉字,汉字可能由 ...
【技术保护点】
一种装备型号名称的模糊匹配方法,其特征在于,包括以下步骤:步骤1,根据装备型号名称特点,将标准装备型号名称进行扩充;步骤2,将待匹配装备型号名称与所有扩充的装备型号名称进行匹配,依次计算改进Jaro‑Winkler距离;步骤3,从所有改进Jaro‑Winkler距离中选取最大值,与阈值进行比较,大于阈值则表示与扩充装备型号名称的原始型号名称匹配,否则为不匹配。
【技术特征摘要】
1.一种装备型号名称的模糊匹配方法,其特征在于,包括以下步骤:步骤1,根据装备型号名称特点,将标准装备型号名称进行扩充;步骤2,将待匹配装备型号名称与所有扩充的装备型号名称进行匹配,依次计算改进Jaro-Winkler距离;步骤3,从所有改进Jaro-Winkler距离中选取最大值,与阈值进行比较,大于阈值则表示与扩充装备型号名称的原始型号名称匹配,否则为不匹配。2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:步骤1-1,读取数据库中的装备型号名称字典表,将每一原始装备型号名称扩充为常见的表现形式,即利用汉字、汉字的拼音首字母和阿拉伯数字和数字的汉字表现形式进行交叉组合;步骤1-2,将原始装备型号名称与扩充后的装备型号名称进行对应存储,并建立对照关系。3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:步骤2-1,将待匹配装备型号名称字符串与一个扩充的装备型号名称字符串进行匹配计算,计算出改进Jaro距离dj,dj表示最后得分;步骤2-2,强化dj中装备型号名称中数字编号的比重,得到新的得分dg;步骤2-3,计算得到改进Jaro-Winkler距离,判断是否还有未参与比对的扩充的装备型号名称,如果有,转步骤2-1继续计算,否则转步骤3。4.根据权利要求3所述的方法,其特征在于,步骤2-1中,通过如下公式计算两个给定装备名称字符串S1和S2的J...
【专利技术属性】
技术研发人员:田振兴,黄桂兰,史慕志,杨宇静,张晓敏,钱金星,代杰,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。