一种文献作者重名消歧方法和构建系统技术方案

技术编号:26846132 阅读:17 留言:0更新日期:2020-12-25 13:08
本发明专利技术公开了一种文献作者重名消歧方法和构建系统,包括以下步骤:步骤一:读取数据库中的文献数据及学者数据;步骤二:使用Word2Vec模型训练并预测每篇文档的文档向量;步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。本发明专利技术能够保证消歧结果具有较高的准确率和召回率水平,并且适用于中文文献、英文文献和专利等多语言和多文献类型的情况。

【技术实现步骤摘要】
一种文献作者重名消歧方法和构建系统
本专利技术属于文献处理
,特别是涉及一种文献作者重名消歧方法。
技术介绍
随着科技的高速发展和信息的不断融合,在处理信息化问题时,尤其是处理灵活多样的自然语言数据时,广泛存在于现实世界中的重名现象会极大的影响数据的检索和处理,因此产生命名实体消歧这项技术,研究如何将歧义实体引用与知识库中的正确实体匹配。作者消歧属于命名实体消歧,在现实世界中,不同的人可能拥有相同的姓名,在诸如科学文献管理和信息集成的许多应用中,人们的姓名用作检索信息的标识符,而姓名的歧义会极大的损害检索信息的质量。作者消歧本质上就是分类问题,需要准确的将文献进行划分并对应到重名的不同作者名下。利用聚类技术可以完成文献作者重名消歧任务,现有的方法大多都是基于文献所包含的信息,主要包括基于特征区分的方法、基于图分割的方法和基于网络资源的分类等方法,这些方法虽然能够进行重名消歧,但仅仅基于文本特征或者基于图关系的划分方法未能完全利用到文献中包含丰富的信息,难以保证消歧结果具有较高的准确率和召回率水平,并且现有重名消歧方法无法适用了中文文献、英文文献和专利等多语言和多文献类型的情况。
技术实现思路
本专利技术主要解决的技术问题是提供一种文献作者重名消歧方法和构建系统,以解决上述技术问题。为解决上述技术问题,本专利技术采用的一个技术方案是:一种文献作者重名消歧方法,包括以下步骤:步骤一:读取数据库中的文献数据及学者数据;步骤二:使用Word2Vec模型训练并预测每篇文档的文档向量;步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。进一步地说,所述步骤一具体包括:从公司的文献数据库和学者数据库中分别读取相关数据,包括:(1)中文论文数据中的ID、标题、作者、机构、摘要、期刊、年份、关键词;(2)英文论文数据中的ID、标题、作者、机构、摘要、期刊、年份、关键词;(3)专利数据中的ID、标题、专利技术人、摘要、日期、发表单位;其中,中文论文-作者、英文论文-作者和专利-专利技术人用于提取合作数据,即合作者网络中的点和边;中文论文-摘要、中文论文-摘要和专利-摘要用于Word2Vec模型训练词向量模型并提取文档向量,可以使得重名消歧过程中融入文本信息。进一步地说,所述步骤二具体包括:文献的主题内容包括标题、关键词和摘要,先将文献的标题和摘要进行字符串合并,然后分词、提取特征词,再将特征词和关键词合并后使用Word2Vec的Skip-Gram模型进行训练,设置输出维度,得到词向量模型;最后计算文档Di中所有特征词在所有文档中的IDF值αi和词向量ωi,文档向量pi的计算公式为:进一步地说,所述步骤三具体包括:(1)获取点的数据,包括待消歧作者姓名和其合作者姓名,其中待消歧作者节点设计为“作者姓名-文献id”形式,节点个数与文献数量相同,合作者节点设计为“作者姓名”;(2)获取边的数据,提取作者姓名之间一一对应的关系;(3)将提取出的所有文献的“作者”-“论文”关系表示为图G={V,E,W},其中每个节点v∈V表示一个作者的一个实例,而无向边e∈E表示两位作者合著过一篇文献;(4)计算待消歧节点相似度,相似度函数为:Pij为联结这两个节点路径长度小于等于4的有效路径集合,vi和vj为不同作者名;(5)构建相似度矩阵,使用AP聚类进行聚类。进一步地说,所述步骤四具体包括:(1)计算两个文档向量pi,pj之间的相似度,文档向量相似度sij的计算公式为:(2)计算两个文献簇ca,cb之间的相似度,文献簇相似度sab的计算公式为:本专利技术为解决其技术问题所采用的进一步技术方案是:一种文献作者重名消歧的构建系统,包括:数据获取模块,包括数据库连接组件,用于连接数据库;查询组件,用于执行数据库查询语句,并返回对应结果;数据预处理模块,包括文献去重组件,用于去除重复的文献;错误文献格式修改组件,用于修改错误文献格式;作者机构规范化组件,用于规范化作者的单位信息;关键属性缺失值处理组件,用于处理关键属性缺失的记录;文献结构化组件,将文献数据转化为json文件方便后续处理;文档向量生产模块,包括自定义分词词典组件,用于读取关键词扩充分词词典;词向量模型训练组件,用于根据Word2Vec模型的Skip-Gram模型,分别训练中英文文献数据,得到词向量模型并保存;文档向量生成组件:将文献的每个词放进词向量模型预测词向量并计算idf值作为权值,最终加权词向量合成为文档向量;合作者关系图聚类模块,包括合作者关系图构建组件,用于读取待消歧作者名下的文献数据,并构建合作者网络图,其中单作者文献单独保存进单作者文献作为一个簇的划分;相似度计算组件,用于计算各待消歧作者节点的路径相似度值,并构建相似度矩阵;聚类组件,在相似度矩阵的基础上进行AP聚类,得到最终的簇;语义特征聚类模块,包括簇数据加载组件,用于读取合作者关系图聚类模块中的各个簇的文档向量数据和待消歧作者学校数据;相似度计算组件,用于计算文献簇之间的相似度;聚类组件,用于在相似度基础上对文献簇进行聚类,得到最终的文献簇划分信息。本专利技术的有益效果至少具有以下几点:1、本专利技术不仅考虑了文献合作者关系这种强特征信息,还考虑了文献的语义信息等弱特征信息,可以最大限度挖掘文献数据并最得到更准更全的文献簇划分;2、本专利技术可以使用于各种不同格式,不同语言的文献作者重名消歧中,兼容性好。附图说明图1是本专利技术的重名消歧方法的示意图;图2是本专利技术的Word2Vec模型示意图;图3是本专利技术的文档向量生成流程图;图4是本专利技术的合作者关系图聚类流程图;图5是本专利技术的重复路径处理流程图;图6是本专利技术的语义特征聚类流程图;图7是本专利技术的系统结构图;图8是本专利技术的中文论文、专利和英文论文测评结果准确率对比表;图9是本专利技术的中文论文、专利和英文论文测评结果召回率对比表;图10是本专利技术的中文论文、专利和英文论文测评结果F1值对比表。具体实施方式下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。实施例:一种文献作者重名消歧方法,如图1所示,包括以下步骤:步骤一:读取数据库中的文献数据及学者数据;步骤二:使用Word2Vec模型训练并预测每篇文档的文档向量;步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。所述步骤一具体包括:从公司的本文档来自技高网...

【技术保护点】
1.一种文献作者重名消歧方法,其特征在于:包括以下步骤:/n步骤一:读取数据库中的文献数据及学者数据;/n步骤二:使用Word2Vec模型训练并预测每篇文档的文档向量;/n步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;/n步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。/n

【技术特征摘要】
1.一种文献作者重名消歧方法,其特征在于:包括以下步骤:
步骤一:读取数据库中的文献数据及学者数据;
步骤二:使用Word2Vec模型训练并预测每篇文档的文档向量;
步骤三:构建待消歧作者合作者关系网络图并计算节点相似度及聚类;
步骤四:获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。


2.根据权利要求1所述的一种文献作者重名消歧方法,其特征在于:所述步骤一具体包括:
从文献数据库和学者数据库中分别读取相关数据,包括:
(1)中文论文数据中的ID、标题、作者、机构、摘要、期刊、年份、关键词;
(2)英文论文数据中的ID、标题、作者、机构、摘要、期刊、年份、关键词;
(3)专利数据中的ID、标题、发明人、摘要、日期、发表单位;
其中,中文论文-作者、英文论文-作者和专利-发明人用于提取合作数据,即合作者网络中的点和边;中文论文-摘要、中文论文-摘要和专利-摘要用于Word2Vec模型训练词向量模型并提取文档向量,可以使得重名消歧过程中融入文本信息。


3.根据权利要求1所述的一种文献作者重名消歧方法,其特征在于:所述步骤二具体包括:
文献的主题内容包括标题、关键词和摘要,先将文献的标题和摘要进行字符串合并,然后分词、提取特征词,再将特征词和关键词合并后使用Word2Vec的Skip-Gram模型进行训练,设置输出维度,得到词向量模型;
最后计算文档Di中所有特征词在所有文档中的IDF值αi和词向量ωi,文档向量pi的计算公式为:





4.根据权利要求1所述的一种文献作者重名消歧方法,其特征在于:所述步骤三具体包括:
(1)获取点的数据,包括待消歧作者姓名和其合作者姓名,其中待消歧作者节点设计为“作者姓名-文献id”形式,节点个数与文献数量相同,合作者节点设计为“作者姓名”;
(2)获取边的数据,提取作者姓名之间一一对应的关系;
(3)将提取出的所有文献的“作者”-“论文”关系表示为图G={V,E,W},其中每个节点v∈V表示一个...

【专利技术属性】
技术研发人员:李微胡晟
申请(专利权)人:三螺旋大数据科技昆山有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1