应用于不同业务系统的元数据匹配的方法和系统技术方案

技术编号:34035649 阅读:21 留言:0更新日期:2022-07-06 12:14
本申请涉及一种应用于不同业务系统的元数据匹配的方法和系统,其中,该方法包括:根据先验知识库构建训练集和测试集,再根据训练集和测试集,训练得到混合算法模型;获取待匹配元数据,查询先验知识库是否存在匹配结果;若是,则直接返回匹配结果;若否,则通过粗排模型从先验知识库中得到待匹配元数据的候选集,再通过混合算法模型从候选集中得到待匹配元数据的匹配结果。通过本申请,解决了不同业务系统间元数据匹配效率低和精度差的问题,实现了基于先验知识库和粗排模型从数据层面降低算法的复杂度,混合算法模型进一步提高匹配的准确度。确度。确度。

【技术实现步骤摘要】
应用于不同业务系统的元数据匹配的方法和系统


[0001]本申请涉及术语匹配
,特别是涉及一种应用于不同业务系统的元数据匹配的方法和系统。

技术介绍

[0002]在业务系统中,元数据是对数据及信息资源的描述性信息。作为业务系统的重要组成部分,在系统的正常运行中有着举足轻重的地位。如在医院中,众多业务系统运行在院内的生产环境。由于不同业务系统中的元数据表述丰富多样,并且元数据的命名是基于具体的业务场景,因此同含义的元数据命名却不同,这极大地影响院内医疗数据的关联和应用。
[0003]过往,不同业务系统数据的对接是基于人工匹配的方式,该方法需要大量时间和人工投入,极大地延长业务系统地上线时间。如何快速、简便、高效地匹配元数据,已经成为迫切需要解决的问题。
[0004]相似度算法是术语匹配
的通用方法。然而,相似度算法一般指文字表面、文字顺序等算法。上述算法匹配的结果不尽如人意,这是因为元数据包含丰富的语义归类和抽象化的语义信息。
[0005]目前针对相关技术中不同业务系统间元数据匹配效率低和精度差的问题,尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种应用于不同业务系统的元数据匹配的方法和系统,以至少解决相关技术中不同业务系统间元数据匹配效率低和精度差的问题。
[0007]第一方面,本申请实施例提供了一种应用于不同业务系统的元数据匹配的方法,所述方法包括:
[0008]根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;
[0009]获取待匹配元数据,查询所述先验知识库是否存在匹配结果;
[0010]若是,则直接返回所述匹配结果;
[0011]若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。
[0012]在其中一些实施例中,所述混合算法模型包括特征提取器和分类器,其中,所述特征提取器包括编辑距离算法模型、部首相似度算法模型和语义相似度算法模型,所述分类器基于AdaBoost算法训练得到。
[0013]在其中一些实施例中,通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集包括:
[0014]利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词,根据所述分
词的结果,通过基于BM25算法的粗排模型筛选出所述待匹配元数据的候选集。
[0015]在其中一些实施例中,通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果包括:
[0016]通过编辑距离算法模型,得到所述待匹配元数据和所述候选集的字面相似度特征;
[0017]通过部首相似度算法模型,将所述待匹配元数据和所述候选集的词汇按照偏旁部首拆分,得到字形相似度特征;
[0018]通过语义相似度算法模型,将所述待匹配元数据和所述候选集的词汇映射在高维的语义空间内,基于向量计算得到语义相似度特征;
[0019]根据所述字面相似度特征、所述字形相似度特征和所述语义相似度特征,通过分类器从所述候选集中得出所述待匹配元数据的匹配结果。
[0020]在其中一些实施例中,根据所述训练集和所述测试集,训练得到混合算法模型包括:
[0021]根据所述训练集和所述测试集,对语义相似度算法模型进行训练,其中,所述语义相似度算法模型为SimCSE算法模型,所述SimCSE算法模型由预训练的Bert模型和对比学习方法组成;
[0022]根据所述训练集和所述测试集,利用编辑距离算法模型、部首相似度算法模型和语义相似度算法模型作为特征提取器,对分类器进行训练,其中,所述分类器为AdaBoost算法模型。
[0023]在其中一些实施例中,所述方法还包括:
[0024]将所述应用于不同系统的元数据匹配的方法和依赖环境,通过容器技术集成到docker容器中。
[0025]在其中一些实施例中,获取待匹配元数据之后,所述方法包括:
[0026]同一化所述待匹配元数据的标点符号,统一所述待匹配元数据的字符表示,删除所述待匹配元数据中重复和无效语义的字符,得到处理后的待匹配元数据。
[0027]在其中一些实施例中,在根据先验知识库构建训练集和测试集之前,所述方法包括:
[0028]获取书籍和互联网中的元数据,通过数据清洗和校检得到所述元数据的数据同义词和核心语义词汇,进而构建先验知识库。
[0029]在其中一些实施例中,查询所述先验知识库是否存在匹配结果包括:
[0030]通过全词匹配来查询所述先验知识库是否存在匹配结果。
[0031]第二方面,本申请实施例提供了一种应用于不同业务系统的元数据匹配的系统,所述系统包括模型训练模块和元数据匹配模块;
[0032]所述模型训练模块用于根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;
[0033]所述元数据匹配模块用于获取待匹配元数据,查询所述先验知识库是否存在匹配结果;
[0034]若是,则直接返回所述匹配结果;
[0035]若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再
等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0049]目前,不同业务系统数据的对接是基于人工匹配的方式,该方法需要大量时间和人工投入,极大地延长业务系统地上线时间。如何快速、简便、高效地匹配元数据,已经成为迫切需要解决的问题。
[0050]相似度算法是术语匹配
的通用方法。然而,相似度算法一般指文字表面、文字顺序等算法。上述算法匹配的结果不尽如人意,这是因为元数据包含丰富的语义归类和抽象化的语义信息。
[0051]因此,本专利技术提出一种应用于不同业务系统间的元数据匹配方法和系统,该方法内含算法模型和容器技术封装两部分,算法模型是知识信息和机器学习算法的结合,容器技术是实现医院内的快速部署和使用。
[0052]算法模型具体包括混合算法模型,AdaB本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于不同业务系统的元数据匹配的方法,其特征在于,所述方法包括:根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;获取待匹配元数据,查询所述先验知识库是否存在匹配结果;若是,则直接返回所述匹配结果;若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。2.根据权利要求1所述的方法,其特征在于,所述混合算法模型包括特征提取器和分类器,其中,所述特征提取器包括编辑距离算法模型、部首相似度算法模型和语义相似度算法模型,所述分类器基于AdaBoost算法训练得到。3.根据权利要求1所述的方法,其特征在于,通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集包括:利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词,根据所述分词的结果,通过基于BM25算法的粗排模型筛选出所述待匹配元数据的候选集。4.根据权利要求1所述的方法,其特征在于,通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果包括:通过编辑距离算法模型,得到所述待匹配元数据和所述候选集的字面相似度特征;通过部首相似度算法模型,将所述待匹配元数据和所述候选集的词汇按照偏旁部首拆分,得到字形相似度特征;通过语义相似度算法模型,将所述待匹配元数据和所述候选集的词汇映射在高维的语义空间内,基于向量计算得到语义相似度特征;根据所述字面相似度特征、所述字形相似度特征和所述语义相似度特征,通过分类器从所述候选集中得出所述待匹配元数据的匹配结果。5.根据权利要求1所述的方法,其特征在于,根据所述训练集和所述测试集,训练得到混合算法模型包括:根据所述训练集和所述测试集,对语义...

【专利技术属性】
技术研发人员:郭亚强甄化春杨金义
申请(专利权)人:医惠科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1