多方法融合的机构匹配方法、装置、设备和存储介质制造方法及图纸

技术编号:31715805 阅读:14 留言:0更新日期:2022-01-01 11:21
本申请提供了一种多方法融合的机构匹配方法、装置、设备和存储介质,通过构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。本申请可用于解决机构实体对齐、同名学者消歧等问题,大幅节省了预处理和实体标注过程中人工的成本,可适用于不同数据集的处理需求,可提升模型标注效果以及匹配准确度,实现更高的匹配精确度。实现更高的匹配精确度。实现更高的匹配精确度。

【技术实现步骤摘要】
多方法融合的机构匹配方法、装置、设备和存储介质


[0001]本申请涉及训练集数据生成
,特别是涉及一种多方法融合的机构匹配方法、装置、设备和存储介质。

技术介绍

[0002]随着科技领域大数据的发展,在科研人才、科研机构、科技文献的情报分析中,对不规则机构文本的标准化对齐成为亟需解决的问题。由于数据规模大,人工处理较为困难,传统基于规则的数据清洗不能适应复杂混乱的数据格式,采用机器学习模型的技术成为了新的解决路径。以往方法通常只会使用机器学习模型标注机构实体后进行直接匹配,而在遇到相同含义但拼写不一致等情况时会难以处理。此外,以往方法没有对目标机构库进行清洗和权重设置,在运用相似度模型时会出现二级机构比一级机构优先匹配的情况,因此对目标机构库的标准化数据质量要求较高。
[0003]随着大数据技术的发展,综合运用数据预处理、标准化、机器学习模型标注、设置权重等多种方法,能够提高机构名称匹配的准确度,有助于进一步应用于构建知识图谱、数据分析、同名学者消歧等工作。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本申请的目的在于提供一种多方法融合的机构匹配方法、装置、设备和存储介质,以解决现有技术中存在的至少一个问题。
[0005]为实现上述目的及其他相关目的,本申请提供一种多方法融合的机构匹配方法,所述方法包括:构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。
[0006]于本申请的一实施例中,所述构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化,包括:构建无效字符、特殊字符、无关信息、及符号规范的匹配模式和处理规则,以作为数据预处理配置文件输入;基于所述数据预处理配置文件利用多种工具结合正则表达式对待匹配机构数据和目标机构表进行清洗和标准化;将预处理后的待匹配机构数据和目标机构表保存到MongoDB数据库中,以供实体标注和机构匹配。
[0007]于本申请的一实施例中,所述清洗和标准化包括:未解析的HTML内容转换、符号的统一、清洗位于中间的无效字符、移除首尾的干扰字符、无关信息的清洗、拼写格式统一为标题规范、多个空格压缩为一个、规范控制空格格式、全角字符统一为半角、及对组织机构名称标准化中任意一个或多个。
[0008]于本申请的一实施例中,所述利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体,包括:将一预
处理后的待匹配机构数据中的多个机构名称进行切分;利用机器学习模型对各机构名称进行实体的标注,并将对应所有机构实体的标注结果保存到MongoDB数据库中;根据自定义规则对所述机器学习模型的标注结果进行处理,以供将未识别的机构名称添加至机构实体中,并保存到MongoDB数据库。
[0009]于本申请的一实施例中,所述方法还包括:通过机器学习模型抽取地区实体;将包含有机构名称的地区实体扩充至所述机构实体中;将优化后的机构实体和地区实体分别保存到MongoDB数据库。
[0010]于本申请的一实施例中,所述将预处理后的待匹配机构数据与目标机构表进行直接匹配,包括:将目标机构表按权重构建成字典数据类型;将配置的权重按从大到小的顺序,通过字典数据类型的获取方法对预处理后的待匹配机构数据以及抽取的机构实体进行直接匹配;为成功匹配的机构实体添加对应的机构标识。
[0011]于本申请的一实施例中,所述将预处理后的待匹配机构数据与目标机构表进行模糊匹配,包括:将目标机构表和配置的权重导入Elasticsearch,以进行模糊匹配;在模糊匹配中利用Elasticsearch依次对预处理后的待匹配机构数据融合多步骤、多来源的机构名称相似度计算;结合自定义权重得到最终的机构名称之间的匹配度得分;依次采用预处理后的待匹配机构数据、实体标注结果、及预处理后的待匹配机构数据的分隔后结果对目标机构表进行模糊搜索,并选取符合相应阈值的匹配度得分对应的机构名称作为最终的匹配结果。
[0012]为实现上述目的及其他相关目的,本申请提供一种多方法融合的机构匹配装置,所述装置包括:预处理模块,用于构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;处理模块,用于利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。
[0013]为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。
[0014]为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
[0015]综上所述,本申请提供的一种多方法融合的机构匹配方法、装置、设备和存储介质,通过构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。
[0016]具有以下有益效果:
[0017]1)实现了机构名称数据预处理过程和实体标注的半自动化,大幅节省了预处理和实体标注过程中人工的成本,通过输入自定义预处理配置文件,可适用于不同数据集的处理需求;
[0018]2)对非标准化目标机构表、待匹配机构数据适应能力较强,通过数据清洗、规范化机构名称以及配置权重的方式可使得双方具有相同的数据格式规范,可提升模型标注效果以及匹配准确度;
[0019]3)构建了基于Elasticsearch的模糊搜索模块,对于无法直接匹配的机构文本进行模糊匹配,结合配置权重得到最终匹配得分;
[0020]4)综合使用了预处理后文本以及实体标注后结果作为匹配阶段的输入避免了机器学习模型标注带来的问题,实现更高的匹配精确度;
[0021]5)实现了待匹配机构数据与目标机构表的匹配,可用于解决机构实体对齐、同名学者消歧等问题。
附图说明
[0022]图1显示为本申请于一实施例中多方法融合的机构匹配方法的流程示意图。
[0023]图2显示为本申请于一实施例中步骤S1的流程示意图。
[0024]图3显示为本申请于一实施例中步骤S2的流程示意图。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多方法融合的机构匹配方法,其特征在于,所述方法包括:构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。2.根据权利要求1所述的方法,其特征在于,所述构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化,包括:构建无效字符、特殊字符、无关信息、及符号规范的匹配模式和处理规则,以作为数据预处理配置文件输入;基于所述数据预处理配置文件利用多种工具结合正则表达式对待匹配机构数据和目标机构表进行清洗和标准化;将预处理后的待匹配机构数据和目标机构表保存到MongoDB数据库中,以供实体标注和机构匹配。3.根据权利要求1或2所述的方法,其特征在于,所述清洗和标准化包括:未解析的HTML内容转换、符号的统一、清洗位于中间的无效字符、移除首尾的干扰字符、无关信息的清洗、拼写格式统一为标题规范、多个空格压缩为一个、规范控制空格格式、全角字符统一为半角、及对组织机构名称标准化中任意一个或多个。4.根据权利要求1所述的方法,其特征在于,所述利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体,包括:将一预处理后的待匹配机构数据中的多个机构名称进行切分;利用机器学习模型对各机构名称进行实体的标注,并将对应所有机构实体的标注结果保存到MongoDB数据库中;根据自定义规则对所述机器学习模型的标注结果进行处理,以供将未识别的机构名称添加至机构实体中,并保存到MongoDB数据库。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:通过机器学习模型抽取地区实体;将包含有机构名...

【专利技术属性】
技术研发人员:王杨王茜张奥琳
申请(专利权)人:上海市研发公共服务平台管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1