基于相似性度量的字符串匹配方法、设备及存储介质组成比例

技术编号:39138979 阅读:7 留言:0更新日期:2023-10-23 14:54
本申请公开了一种基于相似性度量的字符串匹配方法,该方法包括:基于机构的全称生成多个简化后的字符串;在字符串中选择一个字符串,生成其与机构全称的最长公共子序列,计算字符串的编辑距离与最长公共子序列的长度;基于最长公共子序列在字符串中的分布特征、最长公共子序列在机构全称中的分布特征,以及最长公共子序列的长度计算最长公共子序列的稀疏度;根据字符串的编辑距离、最长公共子序列的稀疏度与最长公共子序列的长度对字符串与机构全称进行相似性度量,重复上述步骤,将相似性度量结果最大的字符串作为机构全称的简称。本申请公开的方法基于最终相似性度量的结果能够找到匹配度更高的机构简称,更符合实际情况,且适应性更强。且适应性更强。且适应性更强。

【技术实现步骤摘要】
基于相似性度量的字符串匹配方法、设备及存储介质


[0001]本申请涉及字符匹配
,更具体地,涉及一种基于相似性度量的字符匹配方法、设备及存储介质。

技术介绍

[0002]随着信息技术的发展,大量的数据正在以极快的速度产生,人类已进入大数据时代。大数据时代,数据结构复杂、数据类型多样、价值密度低,如何发掘数据中有价值的信息供管理、决策使用是人们关注的重点。数据拉通是挖掘数据价值、形成数据资产的重要途径,通过将分散的数据进行有序的串联和拼接,消除数据孤岛和壁垒,减少信息不对称,有利于企业数据资产沉淀,形成更完整的用户画像,提高数据的服务质量和效率。基于名称进行强关联是实现数据拉通的重要方法,在现有系统中对象的命名方式没有标准的形式,有的使用全称,有的使用约定俗成的简称,命名方式的多样化严重影响了数据拉通的质量和效率。机构全称是对机构名称规范、正式、完整的表述,而机构简称则是人们约定俗称的简短表述。简称没有标准的形式,可以取全称的某一部分作为简称,简称形式的多样导致字符串匹配时很难正确识别,最简单的办法是维护一个全称与简称的映射关系表,但是由于机构数量众多且随时间而变化,维护和更新映射表会成为一个很大的问题。
[0003]字符串相似性度量是简称与全称匹配的核心技术,现有的字符串相似性度量方法主要分为3类:基于字面相似的方法、基于统计关联的方法与基于语义相似的方法。
[0004]其中,基于字面相似的方法应用广泛,已取得了较多研究成果,最常用的是经典编辑距离方法以及在编辑距离方法基础上改进的方法。自适应的编辑距离算法通过创建索引和交换字符换的顺序,较好地解决了倒转和缩写时字符串的匹配问题。
[0005]目前针对基于字面相似的方法已有诸多改进,改进1,编辑距离方法:提出了一种中文组织机构名简称

全称匹配算法,首先用中文词库对字符串进行分词,以词为基本单元进行相似度计算,定义了编辑距离中删除、插入和替换的权重,通过样本集对权重进行学习和修正,对编辑距离算法进行了改进。改进2,联合编辑距离方法:针对传统编辑距离只考虑了编辑次数的问题,引入最长公共子序列,重新定义了字符串的相似性,提高了字符串的匹配精度。改进3,最长公共子序列方法:提出了基于字符位置、编辑距离和最长公共子串的相似性匹配方法。改进4,联合最长公共子序列方法:针对改进2的不足,考虑公共子序列和公共子串对匹配结果的影响,重新定义字符串的相似度公式,对编辑距离算法进行了改进。
[0006]上述算法中的亮点在于重新定义了删除、插入和替换操作的权重,但是没有考虑公共子序列对匹配结果的影响,虽然引入了公共子序列和公共子串,但是没有考虑公共子序列的稀疏程度,存在缺陷,匹配结果的正确率不高。

技术实现思路

[0007]针对现有技术的至少一个缺陷或改进需求,本专利技术提供了一种基于相似性度量的字符串匹配方法、设备及存储介质,引入稀疏度来衡量公共子序列的分布特点,使得最终相
似性度量的结果匹配度更高,更符合实际情况,且适应性更强。
[0008]为实现上述目的,按照本专利技术的第一个方面,提供了一种基于相似性度量的字符串匹配方法,该方法包括:
[0009]基于机构的全称生成多个简化后的字符串;
[0010]在多个简化后的字符串中任意选择一个字符串,生成该字符串与机构全称的最长公共子序列,计算所述字符串相对于机构全称的编辑距离,以及所述最长公共子序列的长度;
[0011]基于所述最长公共子序列在该字符串中的分布特征、所述最长公共子序列在机构全称中的分布特征,以及最长公共子序列的长度计算最长公共子序列的稀疏度;
[0012]根据所述字符串相对于机构全称的编辑距离、所述最长公共子序列的稀疏度与所述最长公共子序列的长度对该字符串与机构全称进行相似性度量,并重复上述步骤,对所有字符串与机构全称之间进行相似性度量,将相似性度量结果最大的字符串作为机构全称的简称。
[0013]进一步地,上述基于相似性度量的字符串匹配方法,其中,所述生成该字符串与机构全称的最长公共子序列的方法为:不改变该字符串与机构全称的字符顺序,分别删除零个或多个字符得到相同的最长字符串。
[0014]进一步地,上述基于相似性度量的字符串匹配方法,其中,所述基于机构的全称生成多个简化后的字符串的生成方法包括:删除操作、替换操作和插入操作,其中,插入操作的代价与删除操作的代价、替换操作的代价不同。
[0015]进一步地,上述基于相似性度量的字符串匹配方法,其中,所述最长公共子序列在该字符串中的分布特征为:所述最长公共子序列中的字符在所述字符串中相同字符的位置分布特征;
[0016]所述最长公共子序列在机构全称中的分布特征为:所述最长公共子序列中的字符在所述机构全称中相同字符的位置分布特征。
[0017]进一步地,上述基于相似性度量的字符串匹配方法,其中,还包括计算所述字符串相对于所述机构全称的编辑距离,具体包括:
[0018]对于所述字符串S、机构的全称T、最长公共子序列LCS,将最长公共子序列长度为定义为l、S
i
的长度为m,T
j
的长度为n,构造矩阵D
n+1,m+1
,通过下式获取该矩阵的矩阵元素D(i,j):
[0019][0020]其中,0≤i≤m,0≤j≤n,S
i
和T
j
为S与T中的字符,del_cost为删除操作的代价,ins_cost为插入操作的代价,sub_cost为替换操作的代价;
[0021]矩阵元素D(n,m)即为字符串S的编辑距离l
d

[0022]进一步地,上述基于相似性度量的字符串匹配方法,其中,所述计算该字符串与机
构全称的最长公共子序列的长度包括:
[0023]构造矩阵C
n+1,m+1
,通过下式获取该矩阵的矩阵元素C(i,j):
[0024][0025]计算字符串S与机构全称T的最长公共子序列LCS的长度l,即为矩阵元素C(n,m)。
[0026]进一步地,上述基于相似性度量的字符串匹配方法,其中,所述最长公共子序列中的字符在所述字符串中相同字符的位置分布特征,以及所述最长公共子序列中的字符在所述机构全称中相同字符的位置分布特征具体包括:
[0027]分别获取所述最长公共子序列LCS在字符串S与机构的全称T的位置,具体包括:
[0028]S1构建二维数组B,在构建所述矩阵C
n+1,m+1
时,如果C(i,j)=C(i

1,j

1)+1,则B(i,j)=a;如果C(i,j)=C(i

1,j),则B(i,j)=b;如果C(i,j)=C(i,j

1),则B(i,j)=c;
[0029]S2当B(i,j)=a时,则S
i
与T
j
是最长公共子序列LC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相似性度量的字符串匹配方法,其特征在于,包括:基于机构的全称生成多个简化后的字符串;在多个简化后的字符串中任意选择一个字符串,生成该字符串与机构全称的最长公共子序列,计算所述字符串相对于机构全称的编辑距离,以及所述最长公共子序列的长度;基于所述最长公共子序列在该字符串中的分布特征、所述最长公共子序列在机构全称中的分布特征,以及最长公共子序列的长度计算最长公共子序列的稀疏度;根据所述字符串相对于机构全称的编辑距离、所述最长公共子序列的稀疏度与所述最长公共子序列的长度对该字符串与机构全称进行相似性度量,并重复上述步骤,对所有字符串与机构全称之间进行相似性度量,将相似性度量结果最大的字符串作为机构全称的简称。2.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述生成该字符串与机构全称的最长公共子序列的方法为:不改变该字符串与机构全称的字符顺序,分别删除零个或多个字符得到相同的最长字符串。3.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述基于机构的全称生成多个简化后的字符串的生成方法包括:删除操作、替换操作和插入操作,其中,插入操作的代价与删除操作的代价不同或者插入操作的代价与替换操作的代价不同。4.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述最长公共子序列在该字符串中的分布特征为:所述最长公共子序列中的字符在所述字符串中相同字符的位置分布特征;所述最长公共子序列在机构全称中的分布特征为:所述最长公共子序列中的字符在所述机构全称中相同字符的位置分布特征。5.如权利要求1所述的基于相似性度量的字符串匹配方法,其中,所述计算所述字符串相对于所述机构全称的编辑距离,具体包括:对于所述字符串S、机构的全称T、最长公共子序列LCS,将最长公共子序列长度为定义为l、S
i
的长度为m,T
j
的长度为n,构造矩阵D
n+1,m+1
,通过下式获取该矩阵的矩阵元素D(i,j):其中,0≤i≤m,0≤j≤n,S
i
和T
j
为S与T中的字符,del_cost为删除操作的代价,ins_cost为插入操作的代价,sub_cost为替换操作的代价;矩阵元素D(n,m)即为字符串S的编辑距离l
d
。6.如权利要求5所述的基于相似性度量的字符串匹配方法,其中,所述计算该字符串与机构全称的最长公共子序列的长度包括:构造矩阵C
n+1,m+1
,通过下式获取该矩阵的矩阵元素C(i,j):
计算字符串S与机构全称T的最长公共子序列LCS的长度l,即为矩阵元素C(n,m)。7.如权利要求4所述的基于相似性度量的字符串...

【专利技术属性】
技术研发人员:汤奋李坤伟曾广军赵彦庆蒋序平程芳陈克斌谢文佳许子熙
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1