基于科技内容的机构及作者管理系统、方法、终端及介质技术方案

技术编号:33538194 阅读:15 留言:0更新日期:2022-05-21 09:38
本申请提供基于科技内容的机构及作者管理系统、方法、终端及介质,本发明专利技术利用专利和论文等科技数据,提供了一种用于对机构及作者进行管理的解决方案,适用科学数据领域检索的机构和人才的中英文、外文的信息语料库,利用词频、短语相似度等方法基于专利的同族专利(pct和优先权)的数据来构建语料库,来实现一个名称的全关联和全检所的需求。称的全关联和全检所的需求。称的全关联和全检所的需求。

【技术实现步骤摘要】
基于科技内容的机构及作者管理系统、方法、终端及介质


[0001]本申请涉及科技数据管理领域,特别是涉及基于科技内容的机构及作者管理系统、方法、终端及介质。

技术介绍

[0002]随着大数据的飞速发展,数据之间的联系和打通显得尤为重要,但一个实体的名称可能有别称,中英文,外文等不同表示,正是由于同一个实体有多种不同表述,所以检索结果往往不够全面,尤其是在检索科学类数据时,这种问题变得尤为突出。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本申请的目的在于提供基于科技内容的机构及作者管理系统、方法、终端及介质,用于解决现有技术中同一个实体有多种不同表述,所以检索结果往往不够全面的问题。
[0004]为实现上述目的及其他相关目的,本申请的第一方面提供一种基于科技内容的机构及作者管理系统,包括:映射表构建模块,用于通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;映射表优化模块,用于基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;标准化模块,用于对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;聚合模块,用于对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。
[0005]于本申请的第一方面的一些实施例中,所述映射表构建模块构建映射表的过程包括:通过PCT和优先权标签建立同族专利关系,利用Spark大数据处理技术分别抽取不同语言版本的申请人和专利技术人;选取申请人和专利技术人数量一致的不同语言版本的专利;以申请人及专利技术人的中文版本为唯一标识,抽取中文名称的英文版和其他语言版本,据以输出对应的机构基础映射表和人名基础映射表。
[0006]于本申请的第一方面的一些实施例中,所述映射表优化模块基于企业数据对所述机构基础映射表和人名基础映射表进行优化,包括:从企业信用查询平台查询机构实体的曾用名和/或别名信息;将机构的曾用名和/或别名信息补充至该机构实体所对应的映射表中。
[0007]于本申请的第一方面的一些实施例中,所述映射表优化模块基于百科数据对所述机构基础映射表和人名基础映射表进行优化,包括:从百科平台中查询机构实体和作者实体的不同语言表述信息;将机构实体和作者实体的不同语言表述信息补充至实体所对应的映射表中。
[0008]于本申请的第一方面的一些实施例中,所述映射表优化模块对机构映射表进行优
化的过程如下:获取机构基础映射表和既有机构映射表;所述既有机构映射表至少包括跨源合并的机构库初版;将既有机构映射表反映到机构基础映射表中,以使既有机构映射表中的每一个机构名称表述都能与机构基础映射表中的机构名称相匹配,并将机构名称的曾用名或别名分别写入相应的栏位中;忽略字符串长度小于预设长度的机构实体;从既有机构映射表中抽取机构的机构ID和机构的不同表述构成待处理机构映射表,对所述待待处理机构映射表中的所有机构表述进行预处理;所述预处理的方式至少包括如下任一种:忽略大小写并去掉正则表达、删除标点符号、将全部小写字母改为大写字母、同一全角括号和半角括号、将机构名称末尾括号中的内容提取到机构名称最前面并删除括号、将机构名称反序排列;将经过预处理后的机构表述与机构基础映射表中的机构表述,分别两两计算字符串相似度,选择最高相似度作为既有机构映射表的机构实体与机构基础映射表中的机构实体之间的相似度;在完成一轮字符串相似度计算后,选择最高的字符串相似度,若该相似度大于预设阈值,则确定为同一个机构实体,并将该机构实体在既有机构映射表中的相关信息记入机构基础映射表中。
[0009]于本申请的第一方面的一些实施例中,所述映射表优化模块对人名映射表进行优化的过程如下:获取人名基础映射表和既有人名映射表;忽略字符串长度小于预设长度的作者实体;从既有人名映射表中抽取作者ID及作者姓名的不同表述,并对所有作者姓名进行预处理;所述预处理的方式包括如下任一种:修改或删除指定的标点符号、将全部小写字母改为大写字母、将英文表述中字符串长度小于2的人名删除、对英文表述的人名的字母进行顺序交换;将预处理后的人名表述与人名基础映射表中的所有人名表述,分别两两计算字符串相似度,选择最高相似度作为既有人名映射表的作者实体与人名基础映射表中作者实体的相似度;在完成一轮字符串相似度计算后,选择最高的字符串相似度,若该相似度大于预设阈值,则确定为同一个作者实体,并将该作者实体在既有人名映射表中的相关信息记入人名基础映射表中。
[0010]于本申请的第一方面的一些实施例中,所述聚合模块在机构名称确实的情况下,按照机构地址进行聚合。
[0011]为实现上述目的及其他相关目的,本申请的第二方面提供一种基于科技内容的机构及作者管理方法,包括:通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。
[0012]为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于科技内容的机构及作者管理方法。
[0013]为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于科技内容的机构及作者管理方法。
[0014]如上所述,本申请的基于科技内容的机构及作者管理系统、方法、终端及介质,具有以下有益效果:本专利技术利用专利和论文等科技数据,提供了一种用于对机构及作者进行管理的解决方案,适用科学数据领域检索的机构和人才的中英文、外文的信息语料库,利用词频、短语相似度等方法基于专利的同族专利(pct和优先权)的数据来构建语料库,来实现一个名称的全关联和全检所的需求。
附图说明
[0015]图1显示为本申请一实施例中基于科技内容的机构及作者管理系统的结构示意图。
[0016]图2显示为本申请一实施例中基于科技内容的机构及作者管理方法的流程示意图。
[0017]图3显示为本申请一实施例中电子终端的结构示意图。
具体实施方式
[0018]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于科技内容的机构及作者管理系统,其特征在于,包括:映射表构建模块,用于通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;映射表优化模块,用于基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;标准化模块,用于对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;聚合模块,用于对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。2.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表构建模块构建映射表的过程包括:通过PCT和优先权标签建立同族专利关系,利用Spark大数据处理技术分别抽取不同语言版本的申请人和发明人;选取申请人和发明人数量一致的不同语言版本的专利;以申请人及发明人的中文版本为唯一标识,抽取中文名称的英文版和其他语言版本,据以输出对应的机构基础映射表和人名基础映射表。3.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块基于企业数据对所述机构基础映射表和人名基础映射表进行优化,包括:从企业信用查询平台查询机构实体的曾用名和/或别名信息;将机构的曾用名和/或别名信息补充至该机构实体所对应的映射表中。4.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块基于百科数据对所述机构基础映射表和人名基础映射表进行优化,包括:从百科平台中查询机构实体和作者实体的不同语言表述信息;将机构实体和作者实体的不同语言表述信息补充至实体所对应的映射表中。5.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块对机构映射表进行优化的过程如下:获取机构基础映射表和既有机构映射表;所述既有机构映射表至少包括跨源合并的机构库初版;将既有机构映射表反映到机构基础映射表中,以使既有机构映射表中的每一个机构名称表述都能与机构基础映射表中的机构名称相匹配,并将机构名称的曾用名或别名分别写入相应的栏位中;忽略字符串长度小于预设长度的机构实体;从既有机构映射表中抽取机构的机构ID和机构的不同表述构成待处理机构映射表,对所述待待处理机构映射表中的所有机构表述进行预处理;所述预处理的方式至少包括如下任一种:忽略大小写并去掉正则表达、删除标点符号、将全部小写字母改为大写字母、同一全角括号和半角括号、将机构名称末尾括...

【专利技术属性】
技术研发人员:王茜胡寅骏徐永斌
申请(专利权)人:上海市研发公共服务平台管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1