一种文献作者重名消歧方法和构建系统技术方案

技术编号：26846132 阅读：17 留言：0更新日期：2020-12-25 13:08

本发明专利技术公开了一种文献作者重名消歧方法和构建系统，包括以下步骤：步骤一：读取数据库中的文献数据及学者数据；步骤二：使用Word2Vec模型训练并预测每篇文档的文档向量；步骤三：构建待消歧作者合作者关系网络图并计算节点相似度及聚类；步骤四：获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。本发明专利技术能够保证消歧结果具有较高的准确率和召回率水平，并且适用于中文文献、英文文献和专利等多语言和多文献类型的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种文献作者重名消歧方法和构建系统
本专利技术属于文献处理
，特别是涉及一种文献作者重名消歧方法。
技术介绍
随着科技的高速发展和信息的不断融合，在处理信息化问题时，尤其是处理灵活多样的自然语言数据时，广泛存在于现实世界中的重名现象会极大的影响数据的检索和处理，因此产生命名实体消歧这项技术，研究如何将歧义实体引用与知识库中的正确实体匹配。作者消歧属于命名实体消歧，在现实世界中，不同的人可能拥有相同的姓名，在诸如科学文献管理和信息集成的许多应用中，人们的姓名用作检索信息的标识符，而姓名的歧义会极大的损害检索信息的质量。作者消歧本质上就是分类问题，需要准确的将文献进行划分并对应到重名的不同作者名下。利用聚类技术可以完成文献作者重名消歧任务，现有的方法大多都是基于文献所包含的信息，主要包括基于特征区分的方法、基于图分割的方法和基于网络资源的分类等方法，这些方法虽然能够进行重名消歧，但仅仅基于文本特征或者基于图关系的划分方法未能完全利用到文献中包含丰富的信息，难以保证消歧结果具有较高的准确率和召回率水平，并且现有重名消歧方法无法适用了中文文献、英文文献和专利等多语言和多文献类型的情况。
技术实现思路
本专利技术主要解决的技术问题是提供一种文献作者重名消歧方法和构建系统，以解决上述技术问题。为解决上述技术问题，本专利技术采用的一个技术方案是：一种文献作者重名消歧方法，包括以下步骤：步骤一：读取数据库中的文献数据及学者数据；步骤二：使用Word2Vec模型训练并预测每篇文...

【技术保护点】
1.一种文献作者重名消歧方法，其特征在于：包括以下步骤：/n步骤一：读取数据库中的文献数据及学者数据；/n步骤二：使用Word2Vec模型训练并预测每篇文档的文档向量；/n步骤三：构建待消歧作者合作者关系网络图并计算节点相似度及聚类；/n步骤四：获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。/n

【技术特征摘要】
1.一种文献作者重名消歧方法，其特征在于：包括以下步骤：
步骤一：读取数据库中的文献数据及学者数据；
步骤二：使用Word2Vec模型训练并预测每篇文档的文档向量；
步骤三：构建待消歧作者合作者关系网络图并计算节点相似度及聚类；
步骤四：获取合作者关系图聚类文献簇中文献的文档向量并计算文献簇之间相似度及聚类。

2.根据权利要求1所述的一种文献作者重名消歧方法，其特征在于：所述步骤一具体包括：
从文献数据库和学者数据库中分别读取相关数据，包括：
(1)中文论文数据中的ID、标题、作者、机构、摘要、期刊、年份、关键词；
(2)英文论文数据中的ID、标题、作者、机构、摘要、期刊、年份、关键词；
(3)专利数据中的ID、标题、发明人、摘要、日期、发表单位；
其中，中文论文-作者、英文论文-作者和专利-发明人用于提取合作数据，即合作者网络中的点和边；中文论文-摘要、中文论文-摘要和专利-摘要用于Word2Vec模型训练词向量模型并提取文档向量，可以使得重名消歧过程中融入文本信息。

3.根据权利要求1所述的一种文献作者重名消歧方法，其特征在于：所述步骤二具体包括：
文献的主题内容包括标题、关键词和摘要，先将文献的标题和摘要进行字符串合并，然后分词、提取特征词，再将特征词和关键词合并后使用Word2Vec的Skip-Gram模型进行训练，设置输出维度，得到词向量模型；
最后计算文档Di中所有特征词在所有文档中的IDF值αi和词向量ωi，文档向量pi的计算公式为：

4.根据权利要求1所述的一种文献作者重名消歧方法，其特征在于：所述步骤三具体包括：
(1)获取点的数据，包括待消歧作者姓名和其合作者姓名，其中待消歧作者节点设计为“作者姓名-文献id”形式，节点个数与文献数量相同，合作者节点设计为“作者姓名”；
(2)获取边的数据，提取作者姓名之间一一对应的关系；
(3)将提取出的所有文献的“作者”-“论文”关系表示为图G＝{V,E,W}，其中每个节点v∈V表示一个...

【专利技术属性】
技术研发人员：李微，胡晟，
申请(专利权)人：三螺旋大数据科技昆山有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人