System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机软件,特别是涉及一种中文人名模糊匹配方法、装置及介质。
技术介绍
1、在实际应用中,人名数据往往存在错误、缺失和不一致等问题。例如,可能存在拼写错误、简写、繁写等情况,或者由于数据录入、数据转换等过程中的问题导致了信息的不准确。而进行模糊匹配可以在一定程度上弥补数据质量问题。基于字符串模糊匹配是一种常用的方法,模糊匹配指的是在两个字符串中找到相似或相同的部分,而不要求完全匹配。
2、基于字符串模糊匹配(如编辑距离、模式匹配算法等)的计算量通常较大。这是因为字符串的比较需要逐个字符进行对比,而且在模糊匹配的情况下,还需要考虑多种匹配方式和变体。因此匹配数据量大的情况下,基于字符串模糊匹配速度慢,匹配效率低,规则繁多难以维护。
3、由此可见,如何解决中文人名模糊匹配速度慢,是本领域人员亟待解决的技术问题。
技术实现思路
1、本申请的目的是提供一种中文人名模糊匹配方法、装置及介质,解决中文人名模糊匹配速度慢的问题。
2、为解决上述技术问题,本申请提供一种中文人名模糊匹配方法,包括:
3、获取待匹配中文人名;
4、根据预设汉字向量映射表,将待匹配中文人名中各中文汉字转换为对应的低维向量;
5、根据待匹配中文人名中各中文汉字对应的低维向量以及对应的位置向量得到待匹配中文人名对应的待匹配向量;
6、将待匹配向量输入预设向量搜索引擎进行搜索,得到目标向量;
7、根据目标向量从原始信息表
8、优选地,上述中文人名模糊匹配方法中,预设汉字向量映射表的设置步骤如下:
9、获取汉字数据库中的所有中文汉字、所有中文汉字拼音、所有中文汉字郑码;
10、分别对所有中文汉字、所有中文汉字拼音、所有中文汉字郑码进行汉语语言模型建模,得到每个中文汉字对应的三种高纬稀疏向量;
11、对每个中文汉字对应的三种高纬稀疏向量进行降维处理,基于降维处理的结果得到对每个中文汉字对应的低维向量;
12、将每个中文汉字及对应的低维向量写入预设汉字向量映射表。
13、优选地,上述中文人名模糊匹配方法中,获取待匹配中文人名,之前还包括:
14、获取原始信息表;
15、将原始信息表中包含的中文人名根据预设汉字向量映射表查找到各中文汉字对应的低维向量,并结合各中文汉字对应的位置向量,得到所有中文人名对应的原始信息向量;
16、将原始信息向量及对应的中文人名在原始信息表中的索引信息存储至预设向量搜索引擎。
17、优选地,上述中文人名模糊匹配方法中,获取原始信息表之后,将原始信息表中包含的中文人名根据预设汉字向量映射表查找到各中文汉字对应的低维向量,并结合各中文汉字对应的位置向量,得到所有中文人名对应的原始信息向量之前还包括:
18、将所述原始信息表中的各所述中文人名进行特殊符号剔除处理、简称归一化处理、别称归一化处理;
19、对应的,所述获取待匹配中文人名之后,所述根据预设汉字向量映射表,将所述待匹配中文人名中各中文汉字转换为对应的低维向量之前还包括:
20、将所述待匹配中文人名进行特殊符号剔除处理、简称归一化处理、别称归一化处理;
21、其中,所述特殊符号剔除处理为删除所述中文人名或所述待匹配中文人名中存在于预设特殊符号集合中的符号,所述简称归一化处理为通过预设中文人名简全称映射表将所述中文人名或所述待匹配中文人名中的简称替换为对应的第一全称,所述别称归一化处理为通过预设中文人名别称映射表将所述中文人名或所述待匹配中文人名中的别称替换为对应的第二全称。
22、优选地,上述中文人名模糊匹配方法中,分别对所有中文汉字、所有中文汉字拼音、所有中文汉字郑码进行汉语语言模型建模,得到每个中文汉字对应的三种高纬稀疏向量,包括:
23、对所有中文汉字进行一元分词建模,得到第一高纬稀疏向量;
24、对所有中文汉字拼音进行二元分词建模与三元分词建模,得到第二高纬稀疏向量;
25、对所有中文汉字郑码进行二元分词建模与三元分词建模,得到第三高纬稀疏向量;
26、对应的,对每个中文汉字对应的三种高纬稀疏向量进行降维处理,基于降维处理的结果得到对每个中文汉字对应的低维向量,包括:
27、将第一高纬稀疏向量、第二高纬稀疏向量、第三高纬稀疏向量进行降维处理,统一至同一维度,得到第一降维向量、第二降维向量、第三降维向量;
28、根据预设权重分布,对第一降维向量、第二降维向量、第三降维向量进行加权求和,得到每个中文汉字对应的低维向量。
29、优选地,上述中文人名模糊匹配方法中,根据待匹配中文人名中各中文汉字对应的低维向量以及对应的位置向量得到待匹配中文人名对应的待匹配向量,包括:
30、获取待匹配中文人名中各中文汉字对应的低维向量与对应的位置向量的乘积;
31、将各中文汉字对应的乘积结果进行加和处理得到待匹配中文人名对应的待匹配向量。
32、优选地,上述中文人名模糊匹配方法中,将待匹配向量输入预设向量搜索引擎进行搜索,得到目标向量,包括:
33、将待匹配向量输入预设向量搜索引擎进行匹配搜索,获取全部匹配到的结果向量以及每个结果向量对应的相似度;
34、将相似度大于预设相似度阈值的结果向量确定为目标向量。
35、为解决上述技术问题,本申请还提供一种中文人名模糊匹配装置,包括:
36、获取模块,用于获取待匹配中文人名;
37、映射模块,用于根据预设汉字向量映射表,将待匹配中文人名中各中文汉字转换为对应的低维向量;
38、转换模块,用于根据待匹配中文人名中各中文汉字对应的低维向量以及对应的位置向量得到待匹配中文人名对应的待匹配向量;
39、搜索模块,用于将待匹配向量输入预设向量搜索引擎进行搜索,得到目标向量;
40、查询目标结果模块,用于根据目标向量从原始信息表中获取对应的目标字符串。
41、为解决上述技术问题,本申请还提供一种中文人名模糊匹配装置,包括:
42、存储器,用于存储计算机程序;
43、处理器,用于执行计算机程序时实现上述的中文人名模糊匹配方法的步骤。
44、为解决上述技术问题,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的中文人名模糊匹配方法的步骤。
45、本申请所提供的中文人名模糊匹配方法,包括:获取待匹配中文人名;根据预设汉字向量映射表,将待匹配中文人名中各中文汉字转换为对应的低维向量;根据待匹配中文人名中各中文汉字对应的低维向量以及对应的位置向量得到待匹配中文人名对应的待匹配向量;将待匹配向量输入预设向量搜索引擎进行搜索,得到目标向量;根据目标本文档来自技高网...
【技术保护点】
1.一种中文人名模糊匹配方法,其特征在于,包括:
2.根据权利要求1所述的中文人名模糊匹配方法,其特征在于,所述预设汉字向量映射表的设置步骤如下:
3.根据权利要求1所述的中文人名模糊匹配方法,其特征在于,所述获取待匹配中文人名,之前还包括:
4.根据权利要求3所述的中文人名模糊匹配方法,其特征在于,所述获取所述原始信息表之后,所述将所述原始信息表中包含的所述中文人名根据所述预设汉字向量映射表查找到各所述中文汉字对应的低维向量,并结合各所述中文汉字对应的位置向量,得到所有所述中文人名对应的原始信息向量之前还包括:
5.根据权利要求2所述的中文人名模糊匹配方法,其特征在于,所述分别对所述所有中文汉字、所述所有中文汉字拼音、所述所有中文汉字郑码进行汉语语言模型建模,得到对应的三种高纬稀疏向量,包括:
6.根据权利要求3所述的中文人名模糊匹配方法,其特征在于,所述根据所述待匹配中文人名中各所述中文汉字对应的所述低维向量以及对应的位置向量得到所述待匹配中文人名对应的待匹配向量,包括:
7.根据权利要求1所述的中文人名
8.一种中文人名模糊匹配装置,其特征在于,包括:
9.一种中文人名模糊匹配装置,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的中文人名模糊匹配方法的步骤。
...【技术特征摘要】
1.一种中文人名模糊匹配方法,其特征在于,包括:
2.根据权利要求1所述的中文人名模糊匹配方法,其特征在于,所述预设汉字向量映射表的设置步骤如下:
3.根据权利要求1所述的中文人名模糊匹配方法,其特征在于,所述获取待匹配中文人名,之前还包括:
4.根据权利要求3所述的中文人名模糊匹配方法,其特征在于,所述获取所述原始信息表之后,所述将所述原始信息表中包含的所述中文人名根据所述预设汉字向量映射表查找到各所述中文汉字对应的低维向量,并结合各所述中文汉字对应的位置向量,得到所有所述中文人名对应的原始信息向量之前还包括:
5.根据权利要求2所述的中文人名模糊匹配方法,其特征在于,所述分别对所述所有中文汉字、所述所有中文汉字拼音、所述所有中文汉字郑码进行...
【专利技术属性】
技术研发人员:樊坤,高杨,陈伟,王新根,马顺华,
申请(专利权)人:浙江邦盛科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。