无监督的基于表示学习的同名作者消歧方法及装置制造方法及图纸

技术编号：29254209 阅读：22 留言：0更新日期：2021-07-13 17:24

本发明专利技术公开了一种无监督的基于表示学习的同名作者消歧方法及装置，包括：对科学文献数据进行预处理；利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量；通过对消歧数据的处理生成局部异质网络，指定元路径metapath并利用metapath2vec方法获取基于局部图结构的论文关系表示向量；针对上述三种表征向量分别生成相似度矩阵并进行加权求和；利用无监督聚类方法进行聚类；对聚类离散点进行簇指派，得到最终消歧结果。本发明专利技术利用论文的表征信息，结合多重混合的表征学习和聚类离散点指派方法，增强消歧算法的泛化能力与鲁棒性，提高了消歧准确度与消歧效率。

全部详细技术资料下载

【技术实现步骤摘要】
无监督的基于表示学习的同名作者消歧方法及装置
本专利技术涉及软件
，尤其涉及一种无监督的基于表示学习的同名作者消歧方法及装置。技术背景数字学术检索系统为学者学术交流、论文信息检索、科学文献管理提供了诸多便利，例如谷歌学术、百度学术、DBLP、Aminer等。随着数字文献数据量的增长，学者重名率大大提高，可能会导致检索系统无法正确地返回学者信息，并且，每天都会有大量新论文更新到文献库中，因此人名消歧成为一项领域内极具挑战性的任务。人名消歧任务通常参考重名学者的研究领域等特征区分不同的作者实体。当前已有诸多研究人员针对消歧任务提出了解决方案并取得进展。例如，CN201310202444提出一种基于本体的中文人名消歧方法，CN201610320129提出一种文献作者重名检测方法，CN201610638002提出一种面向英文文献中中国作者的姓名消歧方法，CN201811393285提出一种基于规则匹配和机器学习的论文作者名消歧方法等。随着表示学习方法日趋成熟，DeepWalk、Node2vec、LINE等图表示学习方法被提出，将表示学习应用到人名消歧问题中成为当前流行的解决方案之一，通过构建局部的论文图网络，利用图嵌入方法来表征论文信息，或利用Word2Vec、Doc2Vec等文本嵌入方法将论文关键信息(例如标题、所属机构、关键词、摘要等)转换为向量形式，对论文进行语义层面的表征。基于论文表征，利用K-MEANS、DBSCAN等聚类方法对论文集进行聚类，最终将近似的论文划分为一簇，非近似的论文划分为不同簇中...

【技术保护点】
1.一种无监督的基于表示学习的同名作者消歧方法，其步骤包括：/n1)对科学文献数据进行预处理，得到若干结构化文本数据，抽取各结构化文本数据的第一关键文本信息与第二关键文本信息；/n2)依据第一关键文本信息，将各结构化文本数据转化为第一论文语义表示向量，并生成第一论文相似度矩阵；/n3)依据第二关键文本信息，将各结构化文本数据转化为第二论文语义表示向量，并生成第二论文相似度矩阵；/n4)依据结构化文本数据生成论文网络，并针对每一待消歧作者，从论文网络中抽取存在该待消歧作者的节点，生成局部异质网络，其中论文网络的节点是各结构化文本数据相应的论文，论文网络的边为各论文间的关联关系；/n5)对每一局部异质网络进行随机游走获取相应的路径集，并通过训练各路径集得到的论文关系表示向量，生成第三论文相似度矩阵；/n6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵，得到混合表征学习的相似度矩阵，并对混合表征学习的相似度矩阵中的数据进行聚类，得到预聚类结果和聚类离群集；/n7)对聚类离群集进行离散点指派，并结合预聚类结果，得到消歧结果。/n

【技术特征摘要】
1.一种无监督的基于表示学习的同名作者消歧方法，其步骤包括：
1)对科学文献数据进行预处理，得到若干结构化文本数据，抽取各结构化文本数据的第一关键文本信息与第二关键文本信息；
2)依据第一关键文本信息，将各结构化文本数据转化为第一论文语义表示向量，并生成第一论文相似度矩阵；
3)依据第二关键文本信息，将各结构化文本数据转化为第二论文语义表示向量，并生成第二论文相似度矩阵；
4)依据结构化文本数据生成论文网络，并针对每一待消歧作者，从论文网络中抽取存在该待消歧作者的节点，生成局部异质网络，其中论文网络的节点是各结构化文本数据相应的论文，论文网络的边为各论文间的关联关系；
5)对每一局部异质网络进行随机游走获取相应的路径集，并通过训练各路径集得到的论文关系表示向量，生成第三论文相似度矩阵；
6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵，得到混合表征学习的相似度矩阵，并对混合表征学习的相似度矩阵中的数据进行聚类，得到预聚类结果和聚类离群集；
7)对聚类离群集进行离散点指派，并结合预聚类结果，得到消歧结果。

2.如权利要求1所述的方法，其特征在于，预处理方法包括：统一使用特殊标识进行填充、删除标点符号、删除转义符、删除常用冠词和删除介词。

3.如权利要求1所述的方法，其特征在于，第一关键文本信息包括：题目、关键词、机构信息、期刊/会议名称和/或摘要；第二关键文本信息包括：论文题目、关键词和/或摘要；论文间的关联关系包括：共同机构和/或共同作者。

4.如权利要求1所述的方法，其特征在于，将各结构化文本数据转化为第一论文语义表示向量的方法包括：使用一训练好的Word2Vec模型；将各结构化文本数据转化为第二论文语义表示向量的方法包括：使用一训练好的开源预训练模型；所述开源预训练模型包括：SCIBERT模型。

5.如权利要求1所述的方法，其特征在于，通过以下步骤生成第一论文相似度矩阵：
1)利用余弦相似度，计算各论文表示向量间的相似程度；
2)根据各论文表示向量间的相似程度，生成第一论文相似度矩阵。

6...

【专利技术属性】
技术研发人员：杜一，董昊，宁致远，乔子越，周园春，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人