应用于不同业务系统的元数据匹配的方法和系统技术方案

技术编号：34035649 阅读：21 留言：0更新日期：2022-07-06 12:14

本申请涉及一种应用于不同业务系统的元数据匹配的方法和系统，其中，该方法包括：根据先验知识库构建训练集和测试集，再根据训练集和测试集，训练得到混合算法模型；获取待匹配元数据，查询先验知识库是否存在匹配结果；若是，则直接返回匹配结果；若否，则通过粗排模型从先验知识库中得到待匹配元数据的候选集，再通过混合算法模型从候选集中得到待匹配元数据的匹配结果。通过本申请，解决了不同业务系统间元数据匹配效率低和精度差的问题，实现了基于先验知识库和粗排模型从数据层面降低算法的复杂度，混合算法模型进一步提高匹配的准确度。确度。确度。

全部详细技术资料下载

【技术实现步骤摘要】
应用于不同业务系统的元数据匹配的方法和系统

[0001]本申请涉及术语匹配
，特别是涉及一种应用于不同业务系统的元数据匹配的方法和系统。

技术介绍

[0002]在业务系统中，元数据是对数据及信息资源的描述性信息。作为业务系统的重要组成部分，在系统的正常运行中有着举足轻重的地位。如在医院中，众多业务系统运行在院内的生产环境。由于不同业务系统中的元数据表述丰富多样，并且元数据的命名是基于具体的业务场景，因此同含义的元数据命名却不同，这极大地影响院内医疗数据的关联和应用。
[0003]过往，不同业务系统数据的对接是基于人工匹配的方式，该方法需要大量时间和人工投入，极大地延长业务系统地上线时间。如何快速、简便、高效地匹配元数据，已经成为迫切需要解决的问题。
[0004]相似度算法是术语匹配
的通用方法。然而，相似度算法一般指文字表面、文字顺序等算法。上述算法匹配的结果不尽如人意，这是因为元数据包含丰富的语义归类和抽象化的语义信息。
[0005]目前针对相关技术中不同业务系统间元数据匹配效率低和精度差的问题，尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种应用于不同业务系统的元数据匹配的方法和系统，以至少解决相关技术中不同业务系统间元数据匹配效率低和精度差的问题。
[0007]第一方面，本申请实施例提供了一种应用于不同业务系统的元数据匹配的方法，所述方法包括：
[0008]根据先验知识库构建训练集和测试集，再根据所述训练集和所述测试集...

【技术保护点】

【技术特征摘要】
1.一种应用于不同业务系统的元数据匹配的方法，其特征在于，所述方法包括：根据先验知识库构建训练集和测试集，再根据所述训练集和所述测试集，训练得到混合算法模型；获取待匹配元数据，查询所述先验知识库是否存在匹配结果；若是，则直接返回所述匹配结果；若否，则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集，再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。2.根据权利要求1所述的方法，其特征在于，所述混合算法模型包括特征提取器和分类器，其中，所述特征提取器包括编辑距离算法模型、部首相似度算法模型和语义相似度算法模型，所述分类器基于AdaBoost算法训练得到。3.根据权利要求1所述的方法，其特征在于，通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集包括：利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词，根据所述分词的结果，通过基于BM25算法的粗排模型筛选出所述待匹配元数据的候选集。4.根据权利要求1所述的方法，其特征在于，通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果包括：通过编辑距离算法模型，得到所述待匹配元数据和所述候选集的字面相似度特征；通过部首相似度算法模型，将所述待匹配元数据和所述候选集的词汇按照偏旁部首拆分，得到字形相似度特征；通过语义相似度算法模型，将所述待匹配元数据和所述候选集的词汇映射在高维的语义空间内，基于向量计算得到语义相似度特征；根据所述字面相似度特征、所述字形相似度特征和所述语义相似度特征，通过分类器从所述候选集中得出所述待匹配元数据的匹配结果。5.根据权利要求1所述的方法，其特征在于，根据所述训练集和所述测试集，训练得到混合算法模型包括：根据所述训练集和所述测试集，对语义...

【专利技术属性】
技术研发人员：郭亚强，甄化春，杨金义，
申请(专利权)人：医惠科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人