代码匹配方法、装置及存储介质制造方法及图纸

技术编号:20329221 阅读:16 留言:0更新日期:2019-02-13 05:48
本发明专利技术提供一种代码匹配方法、装置及存储介质,该方法包括:获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系,接着,根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果,进一步,根据分词结果,获取第一文本与每个第二文本的匹配度,再根据匹配度以及预设完全采信阈值,生成代码对照表。本发明专利技术通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度,之后根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。

【技术实现步骤摘要】
代码匹配方法、装置及存储介质
本专利技术涉及领域计算机
,尤其涉及一种代码匹配方法、装置及存储介质。
技术介绍
针对姓名、国家、城市、疾病、地址等通用信息,在不同的应用系统中常常采用不同的编码规则体系,在不同的多个应用系统对接的开发中,由于所使用的编码规则体系不同,常常需要将不同系统的代码表进行相互匹配。现有技术中通常采用人工匹配的方式进行转换,但是,由于数据量庞大,人工匹配的方式效率极低。
技术实现思路
本专利技术提供一种代码匹配方法、装置及存储介质,以实现不同应用系统之间代码表的自动匹配,提高匹配效率。第一方面,本专利技术提供一种代码匹配方法,包括:获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;根据所述匹配度以及预设完全采信阈值,生成代码对照表。可选地,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果,包括:按照预设取词长度,对每个所述第一文本中的字符串逐位进行取词,获取所述第一文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇;按照所述预设取词长度,对每个所述第二文本中的字符串逐位进行取词,获取所述第二文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇;可选地,所述预设取词长度为2。可选地,所述根据所述匹配度以及预设完全采信阈值,生成代码对照表,包括:若所述匹配度大于所述预设完全采信阈值的第二文本为一个,确定所述第一文本与所述第二文本匹配;若所述匹配度大于所述预设完全采信阈值的第二文本为多个,确定所述第一文本与最大所述匹配度对应的第二文本匹配。可选地,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:根据所述第一文本对应的分词序列以及每个所述第二文本对应的分词序列,获取所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量;根据所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量以及所述第一文本对应的分词序列的词汇总数,获取所述第一文本与每个所述第二文本的匹配度。可选地,所述匹配度为所述第一文本对应的分词序列中的词汇包含于所述第二文本对应的分词序列的词汇数量与所述第一文本对应的分词序列的词汇总数的比值。可选地,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果之后,所述方法还包括:根据预设忽略词汇表对所述分词结果进行处理,获取处理后的分词结果;相应地,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:根据所述处理后的分词结果,获取所述第一文本与每个所述第二文本的匹配度。可选地,所述方法还包括:根据所述匹配度、所述预设完全采信阈值以及预设采集阈值,生成待确认的关联文本,所述关联文本包括第一文本以及与所述第一文本的匹配度小于所述预设完全采信阈值,且大于所述预设采集阈值的所有所述第二文本;所述关联文本中所述第二文本按照所述匹配度降序排序其中,所述预设完全采信阈值大于所述预设采集阈值。第二方面,本专利技术提供一种代码匹配装置,该装置包括:获取模块,用于获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;分词模块,用于根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;匹配度获取模块,用于根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;生成模块,用于根据所述匹配度以及预设完全采信阈值,生成代码对照表。第三方面,本专利技术提供一种代码匹配装置,该装置包括:存储器和处理器;所述存储器存储程序指令;所述程序指令在被所述处理器执行时,以执行第一方面所述的方法。第四方面,本专利技术提供一种存储介质,包括:程序;所述程序在被处理器执行时,以执行第一方面所述的方法。本专利技术提供一种代码匹配方法、装置及存储介质,该方法包括:获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系,接着,根据逐个载取词法对每个第一文本以及每个第二文本进行分词处理,获取分词结果,进一步,根据分词结果,获取第一文本与每个第二文本的匹配度,再根据匹配度以及预设完全采信阈值,生成代码对照表。本实施例提供的代码匹配方法,通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度,之后根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的代码匹配方法实施例一的流程示意图;图2为本专利技术提供的代码匹配方法实施例二的流程示意图;图3为本专利技术提供的代码匹配方法实施例三的流程示意图;图4为本专利技术提供的代码匹配方法实施例四的流程示意图;图5为本专利技术提供的代码匹配装置实施例一的结构示意图;图6为本专利技术提供的代码匹配装置实施例二的结构示意图;图7为本专利技术提供的代码匹配装置实施例三的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术提供的代码匹配方法实施例一的流程示意图。其中,本实施例的代码匹配方法的执行主体可以为本专利技术中的代码匹配装置,该装置可以通过任意的软件和/或硬件的方式实现,例如,该代码匹配装置可以为计算机、笔记本电脑等等。如图1所示,本实施例所示的方法包括:S101、获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系。在一个实施例中,源代码表如表1所示,包括至少一组第一代码与第一文本的对应关系,例如,代码1100012与文本“北京昌平卫生学校附属医院”的对应关系,代码1100014与文本“北京长青肛肠医院”的对应关系,代码1100015与文本“北京朝阳光华医院”的对应关系等等。目标代码表如表2所示,包括至少一组第二代码与第二文本的对应关系,例如,代码3003与文本“北京世纪康乐医院”的对应关系,代码3004与文本“北京众安康中医骨科医院”的对应关系,代码3005与文本“北京同安骨科医院”的对应关系,等等。表1源代码表第一代码第一文本1100012北京昌平卫生学校附属医院1100014北京长青肛本文档来自技高网...

【技术保护点】
1.一种代码匹配方法,其特征在于,包括:获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;根据所述匹配度以及预设完全采信阈值,生成代码对照表。

【技术特征摘要】
1.一种代码匹配方法,其特征在于,包括:获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;根据所述匹配度以及预设完全采信阈值,生成代码对照表。2.根据权利要求1所述的方法,其特征在于,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果,包括:按照预设取词长度,对每个所述第一文本中的字符串逐位进行取词,获取所述第一文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇;按照所述预设取词长度,对每个所述第二文本中的字符串逐位进行取词,获取所述第二文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇。3.根据权利要求2所述的方法,其特征在于,所述根据所述匹配度以及预设完全采信阈值,生成代码对照表,包括:若所述匹配度大于所述预设完全采信阈值的第二文本为一个,确定所述第一文本与所述第二文本匹配;若所述匹配度大于所述预设完全采信阈值的第二文本为多个,确定所述第一文本与最大所述匹配度对应的第二文本匹配。4.根据权利要求2所述的方法,其特征在于,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:根据所述第一文本对应的分词序列以及每个所述第二文本对应的分词序列,获取所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量;根据所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量以及所述第一文本对应的分词序列的词汇总数,获取所述第一文本与每个所述第二文本的匹配度。5.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:郝晓波
申请(专利权)人:泰康保险集团股份有限公司泰康养老保险股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1