基于相似性度量的字符串匹配方法、设备及存储介质组成比例

技术编号：39138979 阅读：32 留言：0更新日期：2023-10-23 14:54

本申请公开了一种基于相似性度量的字符串匹配方法，该方法包括：基于机构的全称生成多个简化后的字符串；在字符串中选择一个字符串，生成其与机构全称的最长公共子序列，计算字符串的编辑距离与最长公共子序列的长度；基于最长公共子序列在字符串中的分布特征、最长公共子序列在机构全称中的分布特征，以及最长公共子序列的长度计算最长公共子序列的稀疏度；根据字符串的编辑距离、最长公共子序列的稀疏度与最长公共子序列的长度对字符串与机构全称进行相似性度量，重复上述步骤，将相似性度量结果最大的字符串作为机构全称的简称。本申请公开的方法基于最终相似性度量的结果能够找到匹配度更高的机构简称，更符合实际情况，且适应性更强。且适应性更强。且适应性更强。

全部详细技术资料下载

【技术实现步骤摘要】
基于相似性度量的字符串匹配方法、设备及存储介质

[0001]本申请涉及字符匹配
，更具体地，涉及一种基于相似性度量的字符匹配方法、设备及存储介质。

技术介绍

[0002]随着信息技术的发展，大量的数据正在以极快的速度产生，人类已进入大数据时代。大数据时代，数据结构复杂、数据类型多样、价值密度低，如何发掘数据中有价值的信息供管理、决策使用是人们关注的重点。数据拉通是挖掘数据价值、形成数据资产的重要途径，通过将分散的数据进行有序的串联和拼接，消除数据孤岛和壁垒，减少信息不对称，有利于企业数据资产沉淀，形成更完整的用户画像，提高数据的服务质量和效率。基于名称进行强关联是实现数据拉通的重要方法，在现有系统中对象的命名方式没有标准的形式，有的使用全称，有的使用约定俗成的简称，命名方式的多样化严重影响了数据拉通的质量和效率。机构全称是对机构名称规范、正式、完整的表述，而机构简称则是人们约定俗称的简短表述。简称没有标准的形式，可以取全称的某一部分作为简称，简称形式的多样导致字符串匹配时很难正确识别，最简单的办法是维护一个全称与简称的...

【技术保护点】

【技术特征摘要】
1.一种基于相似性度量的字符串匹配方法，其特征在于，包括：基于机构的全称生成多个简化后的字符串；在多个简化后的字符串中任意选择一个字符串，生成该字符串与机构全称的最长公共子序列，计算所述字符串相对于机构全称的编辑距离，以及所述最长公共子序列的长度；基于所述最长公共子序列在该字符串中的分布特征、所述最长公共子序列在机构全称中的分布特征，以及最长公共子序列的长度计算最长公共子序列的稀疏度；根据所述字符串相对于机构全称的编辑距离、所述最长公共子序列的稀疏度与所述最长公共子序列的长度对该字符串与机构全称进行相似性度量，并重复上述步骤，对所有字符串与机构全称之间进行相似性度量，将相似性度量结果最大的字符串作为机构全称的简称。2.如权利要求1所述的基于相似性度量的字符串匹配方法，其中，所述生成该字符串与机构全称的最长公共子序列的方法为：不改变该字符串与机构全称的字符顺序，分别删除零个或多个字符得到相同的最长字符串。3.如权利要求1所述的基于相似性度量的字符串匹配方法，其中，所述基于机构的全称生成多个简化后的字符串的生成方法包括：删除操作、替换操作和插入操作，其中，插入操作的代价与删除操作的代价不同或者插入操作的代价与替换操作的代价不同。4.如权利要求1所述的基于相似性度量的字符串匹配方法，其中，所述最长公共子序列在该字符串中的分布特征为：所述最长公共子序列中的字符在所述字符串中相同字符的位置分布特征；所述最长公共子序列在机构全称中的分布特征为：所述最长公共子序列中的字符在所述机构全称中相同字符的位置分布特征。5.如权利要求1所述的基于相似性度量的字符串匹配方法，其中，所述计算所述字符串相对于所述机构全称的编辑距离，具体包括：对于所述字符串S、机构的全称T、最长公共子序列LCS，将最长公共子序列长度为定义为l、S
i
的长度为m，T
j
的长度为n，构造矩阵D
n+1,m+1
，通过下式获取该矩阵的矩阵元素D(i,j)：其中，0≤i≤m，0≤j≤n，S
i
和T
j
为S与T中的字符，del_cost为删除操作的代价，ins_cost为插入操作的代价，sub_cost为替换操作的代价；矩阵元素D(n,m)即为字符串S的编辑距离l
d
。6.如权利要求5所述的基于相似性度量的字符串匹配方法，其中，所述计算该字符串与机构全称的最长公共子序列的长度包括：构造矩阵C
n+1,m+1
，通过下式获取该矩阵的矩阵元素C(i,j)：
计算字符串S与机构全称T的最长公共子序列LCS的长度l，即为矩阵元素C(n,m)。7.如权利要求4所述的基于相似性度量的字符串...

【专利技术属性】
技术研发人员：汤奋，李坤伟，曾广军，赵彦庆，蒋序平，程芳，陈克斌，谢文佳，许子熙，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人