无监督的基于表示学习的同名作者消歧方法及装置制造方法及图纸

技术编号:29254209 阅读:22 留言:0更新日期:2021-07-13 17:24
本发明专利技术公开了一种无监督的基于表示学习的同名作者消歧方法及装置,包括:对科学文献数据进行预处理;利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量;通过对消歧数据的处理生成局部异质网络,指定元路径metapath并利用metapath2vec方法获取基于局部图结构的论文关系表示向量;针对上述三种表征向量分别生成相似度矩阵并进行加权求和;利用无监督聚类方法进行聚类;对聚类离散点进行簇指派,得到最终消歧结果。本发明专利技术利用论文的表征信息,结合多重混合的表征学习和聚类离散点指派方法,增强消歧算法的泛化能力与鲁棒性,提高了消歧准确度与消歧效率。

【技术实现步骤摘要】
无监督的基于表示学习的同名作者消歧方法及装置
本专利技术涉及软件
,尤其涉及一种无监督的基于表示学习的同名作者消歧方法及装置。技术背景数字学术检索系统为学者学术交流、论文信息检索、科学文献管理提供了诸多便利,例如谷歌学术、百度学术、DBLP、Aminer等。随着数字文献数据量的增长,学者重名率大大提高,可能会导致检索系统无法正确地返回学者信息,并且,每天都会有大量新论文更新到文献库中,因此人名消歧成为一项领域内极具挑战性的任务。人名消歧任务通常参考重名学者的研究领域等特征区分不同的作者实体。当前已有诸多研究人员针对消歧任务提出了解决方案并取得进展。例如,CN201310202444提出一种基于本体的中文人名消歧方法,CN201610320129提出一种文献作者重名检测方法,CN201610638002提出一种面向英文文献中中国作者的姓名消歧方法,CN201811393285提出一种基于规则匹配和机器学习的论文作者名消歧方法等。随着表示学习方法日趋成熟,DeepWalk、Node2vec、LINE等图表示学习方法被提出,将表示学习应用到人名消歧问题中成为当前流行的解决方案之一,通过构建局部的论文图网络,利用图嵌入方法来表征论文信息,或利用Word2Vec、Doc2Vec等文本嵌入方法将论文关键信息(例如标题、所属机构、关键词、摘要等)转换为向量形式,对论文进行语义层面的表征。基于论文表征,利用K-MEANS、DBSCAN等聚类方法对论文集进行聚类,最终将近似的论文划分为一簇,非近似的论文划分为不同簇中,以达到对同名作者区分的目的。中国专利申请CN111191466A公开了一种基于网络表征和语义表征的同名作者消歧方法,但其在论文语义表征上只使用了基于消歧数据集的预训练模型,只适用于线下小规模的消歧测试,而针对中型规模或较大规模的消歧任务,其专利技术还存在一些改良空间。此外,其在离群点的处理上,主要是利用文本匹配的方式进行相似度比较,且在离散点的簇指派上只考虑了一种最佳匹配,仍有待完善。除此之外,针对消歧结果中的离群点处理问题,现有技术中仍亦鲜有系统性方法,而这是一个亟待解决的问题。
技术实现思路
针对上述问题,本专利技术提出了一种无监督的基于表示学习的同名作者消歧方法及装置,其基于结合论文多重语义表征信息和局部图结构表征信息的相似度聚类解决方案,利用DBSCAN聚类方法对论文表征的相似度矩阵进行聚类,再通过离散点队列簇指派方法对聚类离散点集进行后处理,将聚类后的离散点根据预定义规则进行簇指派。为了实现上述目的,本专利技术提供了如下的技术方案:一种无监督的基于表示学习的同名作者消歧方法,其步骤包括:1)对科学文献数据进行预处理,得到若干结构化文本数据,抽取各结构化文本数据的第一关键文本信息与第二关键文本信息;2)依据第一关键文本信息,将各结构化文本数据转化为第一论文语义表示向量,并生成第一论文相似度矩阵;3)依据第二关键文本信息,将各结构化文本数据转化为第二论文语义表示向量,并生成第二论文相似度矩阵;4)依据结构化文本数据生成论文网络,并针对每一待消歧作者,从论文网络中抽取存在该待消歧作者的节点,生成局部异质网络,其中论文网络的节点是各结构化文本数据相应的论文,论文网络的边为各论文间的关联关系;5)对每一局部异质网络进行随机游走获取相应的路径集,并通过训练各路径集得到的论文关系表示向量,生成第三论文相似度矩阵;6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵,得到混合表征学习的相似度矩阵,并对混合表征学习的相似度矩阵中的数据进行聚类,得到预聚类结果和聚类离群集;7)对聚类离群集进行离散点指派,并结合预聚类结果,得到消歧结果。进一步地,预处理方法包括:统一使用特殊标识进行填充、删除标点符号、删除转义符、删除常用冠词和删除介词。进一步地,第一关键文本信息包括:题目、关键词、机构信息、期刊/会议名称和/或摘要。进一步地,第二关键文本信息包括:论文题目、关键词和/或摘要。进一步地,将各结构化文本数据转化为第一论文语义表示向量的方法包括:使用一训练好的Word2Vec模型。进一步地,通过以下步骤生成第一论文相似度矩阵:1)利用余弦相似度,计算各论文表示向量间的相似程度;2)根据各论文表示向量间的相似程度,生成第一论文相似度矩阵。进一步地,将各结构化文本数据转化为第二论文语义表示向量的方法包括:使用一训练好的开源预训练模型;所述开源预训练模型包括:SCIBERT模型。进一步地,论文间的关联关系包括:共同机构和/或共同作者。进一步地,通过以下步骤获取相应的路径集:1)选择当前局部异质网络中一论文节点作为游走的起始节点;2)按照预定义路径模式搜索下一跳可选节点,以边权重作为选择概率游走到下一跳,直到跳数达到阈值,得到一条游走路径;3)重复步骤1)-2),直到将当前局部异质网络中所有论文节点作为游走的起始节点,得到路径集。进一步地,通过将生路径集作为训练集且利用Word2Vec中的skip-gram模型进行训练,得到论文关系表示向量。进一步地,聚类的方法包括:DBSCAN方法。进一步地,通过以下步骤对对聚类离群集进行离散点指派:1)对于每一离散点pi,计算该离散点pi与其它各点的相似度,得到相似度矩阵,Sim(pi,pj)=w0*countco_author(pi,pj)+w1*countco_venue(pi,pj)+w2*countco_org(pi,pj)+w3*countco_title(pi,pj)+w4*countco_keyword(pi,pj),其中pj为任一其它点,w*为权重;2)依据相似度矩阵Sim,获取与离散点pi最相似的点pk,记Sim(pi,pk)=s0;3)若s0小于设定值,则离散点pi指派为新簇;若s0不小于设定值且点pk不是离散点,则离散点pi指派为点pk所在簇;若s0不小于设定值且点pk是离散点,则通过与点pk最相似的非离散点pm及与离散点pi最相似的非离散点pn,对离散点pi进行离散点指派,包括:记相似度Sim(pk,pm)=s1与相似度Sim(pi,pn)=s2;若相似度s1与相似度s2都小于设定值,则离散点pi指派为新簇;若相似度s1与相似度s2不都小于设定值,则计算相似度s1与相似度s2之间的大小,并将离散点pi指派为相似度大的簇。一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。与现有技术相比,本专利技术具有以下优势:首先,该专利技术利用表征学习方法分别捕获论文的两种文本语义信息,以消歧数据集训练的Word2Vec预训练模型为主,以开源的预训练模型(本专利技术以本文档来自技高网
...

【技术保护点】
1.一种无监督的基于表示学习的同名作者消歧方法,其步骤包括:/n1)对科学文献数据进行预处理,得到若干结构化文本数据,抽取各结构化文本数据的第一关键文本信息与第二关键文本信息;/n2)依据第一关键文本信息,将各结构化文本数据转化为第一论文语义表示向量,并生成第一论文相似度矩阵;/n3)依据第二关键文本信息,将各结构化文本数据转化为第二论文语义表示向量,并生成第二论文相似度矩阵;/n4)依据结构化文本数据生成论文网络,并针对每一待消歧作者,从论文网络中抽取存在该待消歧作者的节点,生成局部异质网络,其中论文网络的节点是各结构化文本数据相应的论文,论文网络的边为各论文间的关联关系;/n5)对每一局部异质网络进行随机游走获取相应的路径集,并通过训练各路径集得到的论文关系表示向量,生成第三论文相似度矩阵;/n6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵,得到混合表征学习的相似度矩阵,并对混合表征学习的相似度矩阵中的数据进行聚类,得到预聚类结果和聚类离群集;/n7)对聚类离群集进行离散点指派,并结合预聚类结果,得到消歧结果。/n

【技术特征摘要】
1.一种无监督的基于表示学习的同名作者消歧方法,其步骤包括:
1)对科学文献数据进行预处理,得到若干结构化文本数据,抽取各结构化文本数据的第一关键文本信息与第二关键文本信息;
2)依据第一关键文本信息,将各结构化文本数据转化为第一论文语义表示向量,并生成第一论文相似度矩阵;
3)依据第二关键文本信息,将各结构化文本数据转化为第二论文语义表示向量,并生成第二论文相似度矩阵;
4)依据结构化文本数据生成论文网络,并针对每一待消歧作者,从论文网络中抽取存在该待消歧作者的节点,生成局部异质网络,其中论文网络的节点是各结构化文本数据相应的论文,论文网络的边为各论文间的关联关系;
5)对每一局部异质网络进行随机游走获取相应的路径集,并通过训练各路径集得到的论文关系表示向量,生成第三论文相似度矩阵;
6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵,得到混合表征学习的相似度矩阵,并对混合表征学习的相似度矩阵中的数据进行聚类,得到预聚类结果和聚类离群集;
7)对聚类离群集进行离散点指派,并结合预聚类结果,得到消歧结果。


2.如权利要求1所述的方法,其特征在于,预处理方法包括:统一使用特殊标识进行填充、删除标点符号、删除转义符、删除常用冠词和删除介词。


3.如权利要求1所述的方法,其特征在于,第一关键文本信息包括:题目、关键词、机构信息、期刊/会议名称和/或摘要;第二关键文本信息包括:论文题目、关键词和/或摘要;论文间的关联关系包括:共同机构和/或共同作者。


4.如权利要求1所述的方法,其特征在于,将各结构化文本数据转化为第一论文语义表示向量的方法包括:使用一训练好的Word2Vec模型;将各结构化文本数据转化为第二论文语义表示向量的方法包括:使用一训练好的开源预训练模型;所述开源预训练模型包括:SCIBERT模型。


5.如权利要求1所述的方法,其特征在于,通过以下步骤生成第一论文相似度矩阵:
1)利用余弦相似度,计算各论文表示向量间的相似程度;
2)根据各论文表示向量间的相似程度,生成第一论文相似度矩阵。


6...

【专利技术属性】
技术研发人员:杜一董昊宁致远乔子越周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1