代码集映射方法及装置制造方法及图纸

技术编号:32435468 阅读:56 留言:0更新日期:2022-02-24 19:08
本发明专利技术公开一种代码集映射方法及装置,涉及大数据技术领域,该方法包括:获取第一代码集和第二代码集;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句的多个分词和每一第二代码的代码解析语句的多个分词;分别将每一第一代码的代码解析语句的多个分词和每一第二代码的代码解析语句的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;将代码向量之间相似度最大的第一代码与第二代码进行映射。本发明专利技术可以快速映射代码集,减少数据迁移及接口映射过程中的人力物力。程中的人力物力。程中的人力物力。

【技术实现步骤摘要】
代码集映射方法及装置


[0001]本专利技术涉及大数据
,尤其涉及一种代码集映射方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在银行企业级架构建设过程中,随着客户管理组件的分析与开发,发现在新标准的客户信息中,不少客户信息属性的代码集发生了变化,目前在数据迁移和接口映射的过程中,是采用人工的方式一一比对新旧代码集中的每一个代码,进而形成新旧代码的映射关系。此种方式耗费了大量的人力物力,且代码集映射效率也较低。

技术实现思路

[0004]本专利技术实施例提供一种代码集映射方法,用以快速映射代码集,减少数据迁移及接口映射过程中的人力物力,该方法包括:
[0005]获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
[0006]分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
[0007]分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;
[0008]根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;
[0009]将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。
[0010]本专利技术实施例还提供一种代码集映射装置,用以快速映射代码集,减少数据迁移及接口映射过程中的人力物力,该装置包括:
[0011]代码集获取模块,用于获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
[0012]分词模块,用于分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
[0013]代码向量确定模块,用于分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一
代码的代码向量和每一第二代码的代码向量;
[0014]相似度计算模块,用于计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;
[0015]代码映射模块,用于将代码向量之间相似度最大的第一代码与第二代码进行映射。
[0016]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述代码集映射方法。
[0017]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
[0018]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
[0019]本专利技术实施例中,获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。与现有技术中通过人工方式比对代码集的技术方案相比,本专利技术通过词向量模型,将代码解析语句转换为向量,计算新旧代码的向量相似度,可以实现将意思相近或一样的代码进行自动映射,从而可以快速映射代码集,减少数据迁移及接口映射过程中的人力物力。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0021]图1为本专利技术实施例中提供的一种代码集映射方法的流程图;
[0022]图2为本专利技术实施例中提供的又一种代码集映射方法的流程图;
[0023]图3为本专利技术实施例中提供的又一种代码集映射方法的流程图;
[0024]图4为本专利技术实施例中提供的又一种代码集映射方法的流程图;
[0025]图5为本专利技术实施例中提供的一种代码集映射装置的示意图;
[0026]图6为本专利技术实施例中提供的一种计算机设备的示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发
明实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0028]在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
[0029]为了解决在数据迁移和接口映射的过程中,采用人工的方式比对新旧代码集中的每一个代码,而导致的耗费大量人力物力,代码集映射效率较低的问题,本专利技术实施例提供了一种代码集映射方法,如图1所示,该方法包括以下步骤:
[0030]步骤101,获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
[0031]步骤102,分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
[0032]步骤103,分别将每一第一代码的代码解析本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种代码集映射方法,其特征在于,包括:获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;将代码向量之间相似度最大的第一代码与第二代码进行映射。2.如权利要求1所述的方法,其特征在于,分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量,包括:分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,得到每一个分词的词向量;将每一第一代码对应的多个分词的词向量进行算术平均计算,得到每一第一代码的代码向量;以及将每一第二代码对应的多个分词的词向量进行算术平均计算,得到每一第二代码的代码向量。3.如权利要求1所述的方法,其特征在于,计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度,包括:计算每一第一代码的代码向量与每一第二代码的代码向量之间的欧氏距离;根据每一第一代码的代码向量与每一第二代码的代码向量之间的欧氏距离,确定每一第一代码的代码向量与每一第二代码的代码向量之间的相似度。4.如权利要求3所述的方法,其特征在于,将代码向量之间相似度最大的第一代码与第二代码进行映射,包括针对每一第一代码:根据每一第二代码的代码向量与第一代码的代码向量之间的欧氏距离,确定最小欧氏距离对应的第二代码;在所述最小欧氏距离小于或等于预设距离阈值的情况下,将最小欧氏距离对应的第二代码与第一代码进行映射。5.一种代码集映射装置,其特征在于,包括:代码集获取模块,用于获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括...

【专利技术属性】
技术研发人员:张艳
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1