【技术实现步骤摘要】
基于相似性度量的字符串匹配方法、设备及存储介质
[0001]本申请涉及字符匹配
,更具体地,涉及一种基于相似性度量的字符匹配方法、设备及存储介质。
技术介绍
[0002]随着信息技术的发展,大量的数据正在以极快的速度产生,人类已进入大数据时代。大数据时代,数据结构复杂、数据类型多样、价值密度低,如何发掘数据中有价值的信息供管理、决策使用是人们关注的重点。数据拉通是挖掘数据价值、形成数据资产的重要途径,通过将分散的数据进行有序的串联和拼接,消除数据孤岛和壁垒,减少信息不对称,有利于企业数据资产沉淀,形成更完整的用户画像,提高数据的服务质量和效率。基于名称进行强关联是实现数据拉通的重要方法,在现有系统中对象的命名方式没有标准的形式,有的使用全称,有的使用约定俗成的简称,命名方式的多样化严重影响了数据拉通的质量和效率。机构全称是对机构名称规范、正式、完整的表述,而机构简称则是人们约定俗称的简短表述。简称没有标准的形式,可以取全称的某一部分作为简称,简称形式的多样导致字符串匹配时很难正确识别,最简单的办法是维护一个全称与简称的映射关系表,但是由于机构数量众多且随时间而变化,维护和更新映射表会成为一个很大的问题。
[0003]字符串相似性度量是简称与全称匹配的核心技术,现有的字符串相似性度量方法主要分为3类:基于字面相似的方法、基于统计关联的方法与基于语义相似的方法。
[0004]其中,基于字面相似的方法应用广泛,已取得了较多研究成果,最常用的是经典编辑距离方法以及在编辑距离方法基础上改进的方法。自适应的 ...
【技术保护点】
【技术特征摘要】
1.一种基于相似性度量的字符串匹配方法,其特征在于,包括:基于机构的全称生成多个简化后的字符串;在多个简化后的字符串中任意选择一个字符串,生成该字符串与机构全称的最长公共子序列,计算所述字符串相对于机构全称的编辑距离,以及所述最长公共子序列的长度;基于所述最长公共子序列在该字符串中的分布特征、所述最长公共子序列在机构全称中的分布特征,以及最长公共子序列的长度计算最长公共子序列的稀疏度;根据所述字符串相对于机构全称的编辑距离、所述最长公共子序列的稀疏度与所述最长公共子序列的长度对该字符串与机构全称进行相似性度量,并重复上述步骤,对所有字符串与机构全称之间进行相似性度量,将相似性度量结果最大的字符串作为机构全称的简称。2.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述生成该字符串与机构全称的最长公共子序列的方法为:不改变该字符串与机构全称的字符顺序,分别删除零个或多个字符得到相同的最长字符串。3.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述基于机构的全称生成多个简化后的字符串的生成方法包括:删除操作、替换操作和插入操作,其中,插入操作的代价与删除操作的代价不同或者插入操作的代价与替换操作的代价不同。4.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述最长公共子序列在该字符串中的分布特征为:所述最长公共子序列中的字符在所述字符串中相同字符的位置分布特征;所述最长公共子序列在机构全称中的分布特征为:所述最长公共子序列中的字符在所述机构全称中相同字符的位置分布特征。5.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述计算所述字符串相对于所述机构全称的编辑距离,具体包括:对于所述字符串S、机构的全称T、最长公共子序列LCS,将最长公共子序列长度为定义为l、S
i
的长度为m,T
j
的长度为n,构造矩阵D
n+1,m+1
,通过下式获取该矩阵的矩阵元素D(i,j):其中,0≤i≤m,0≤j≤n,S
i
和T
j
为S与T中的字符,del_cost为删除操作的代价,ins_cost为插入操作的代价,sub_cost为替换操作的代价;矩阵元素D(n,m)即为字符串S的编辑距离l
d
。6.如权利要求5所述的基于相似性度量的字符串匹配方法,其中,所述计算该字符串与机构全称的最长公共子序列的长度包括:构造矩阵C
n+1,m+1
,通过下式获取该矩阵的矩阵元素C(i,j):
计算字符串S与机构全称T的最长公共子序列LCS的长度l,即为矩阵元素C(n,m)。7.如权利要求4所述的基于相似性度量的字符串...
【专利技术属性】
技术研发人员:汤奋,李坤伟,曾广军,赵彦庆,蒋序平,程芳,陈克斌,谢文佳,许子熙,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。