本发明专利技术公开了一种基于网络表征和语义表征的同名作者消歧方法。本方法为:1)提取目标论文库中各论文的语义特征和离散特征;2)基于离散特征计算各论文间的相似度,得到论文的关系相似性矩阵;如果一论文与其他论文没有共同作者或机构,则将其加入一离群论文集中;3)基于各论文的所述语义特征计算论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入离群论文集中;4)将关系相似性矩阵和语义相似度矩阵加权求和,获得论文相似度矩阵并对其进行聚类;将不属于任何簇的论文加入离群论文集中;5)利用基于相似度阈值匹配的方法将离群论文集中的论文分配到对应的簇中。本发明专利技术实现高准确率的论文同名作者的消歧。
A disambiguation method for authors of the same name based on network representation and semantic representation
【技术实现步骤摘要】
一种基于网络表征和语义表征的同名作者消歧方法
本专利技术主要涉及实体消歧,异质网络嵌入
,词向量嵌入
,具体是一种基于网络表征和语义表征的论文同名作者消歧技术。
技术介绍
在许多领域中,同名消歧一直被视为一个很有意义但具有挑战性的问题,如文献管理,社交网络分析等。在学术网络领域,各种学术搜索系统的出现,如GoogleScholar,Aminer等,为论文的搜索和学术交流提供了极大的便利。但由于论文数量的巨大,以及论文信息的复杂和多样,存在大量的论文被分配错误的问题,其中同名作者歧义问题就是一个比较重要但棘手的问题。对论文同名作者的消歧是指利用论文的信息,如标题,作者,作者机构,摘要,关键词等,通过一些方法将论文分配到正确的作者档案中。目前已经有很多研究者针对同名作者消歧问题提出了解决方法,这些方法主要包括利用论文信息进行基于规则的匹配,或者利用表示学习方法,对论文信息进行表征,然后利用聚类方法,如层次聚类,DBSCAN等对这些表征信息进行聚类,使得相似的论文聚成一簇,不相似的论文被分到不同的簇中。语义表征学习是一种将原始数据转换成能够被机器学习有效开发的形式的一种技术,利用论文的表征学习,可以将论文的语义信息映射到隐层,用于进行聚类。随着DeepWalk,LINE等网络表征学习方法的提出,基于网络表征学习的同名作者消歧方法被提出,它通过构建论文网络,将论文的特征映射到新的空间中,从而使相似的论文在空间上距离较近,不相似的论文在空间上的分布较远,进而对论文进行聚类,实现同名作者消歧。专利技术内容本专利技术的目的是提供了一种基于论文的网络表征和语义表征来进行论文同名作者消歧的方法,该方法利用论文的相关信息,包括论文的题目,摘要,作者,机构,期刊等,能够有效的挖掘出论文之间的关系信息和论文文本的语义信息,进而求出论文表征向量和论文相似度矩阵,并对相似度矩阵通过聚类的方法将不同作者的论文集划分到不同的簇中,实现对同名的作者进行消歧,此外本方法还利用基于相似度阈值匹配的方法对上述过程中出现的一些离群论文进行进一步处理,进而实现高准确率的论文同名作者的消歧。本专利技术具体包括以下步骤:步骤一:对论文库中论文的相关信息进行特征分析,将这些特征分为语义特征和离散特征。步骤二:基于步骤一的离散特征,构建基于论文和论文关系的异质网络,并基于元路径的随机游走方法生成包含论文id的路径集,并利用word2vec模型训练论文的关系表征向量,得到论文的关系相似性矩阵。步骤三:基于步骤一的语义特征,利用word2vec训练词向量,并获得论文的语义表征向量,从而得到论文的语义相似度矩阵。步骤四:基于步骤二和步骤三生成的相似性矩阵,利用DBSCAN算法进行聚类,聚类后的簇代表真实的作者所包含的论文集合。步骤五:利用基于相似度阈值匹配的方法对上述步骤二,步骤三,步骤四产生的离群论文集进行处理,将离群论文集中的论文分配到正确的簇中。本专利技术的技术方案为:一种基于网络表征和语义表征的同名作者消歧方法,其步骤包括:1)提取目标论文库中各论文的语义特征和离散特征;其中,目标论文库为根据待消歧作者获取的论文库;2)基于各论文的所述离散特征构建论文的异质网络,然后基于所述异质网络生成路径集并将其作为训练语料训练一模型,然后利用该模型生成目标论文库中论文的关系表征向量,然后根据所述关系表征向量计算各论文间的相似度,得到论文的关系相似性矩阵;对于目标论文库中一论文a,如果该论文a与其他论文没有共同作者或机构,则将其加入一离群论文集中;3)基于各论文的所述语义特征生成论文的语义表征向量,然后根据所述语义表征向量计算各论文的相似度,得到论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入所述离群论文集中;4)将所述关系相似性矩阵和所述语义相似度矩阵进行加权求和,获得论文相似度矩阵并对其进行聚类,聚类后的每一簇代表一作者所包含的论文集合;将不属于任何簇的论文加入所述离群论文集中;5)利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中。进一步的,利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中的方法为:11)从所述离群论文集中任选一论文pi,对于各簇中每一论文pj;初始化论文pi与论文pj的相似度s(pi,pj)为0;12)计算s(pi,pj)=s(pi,pj)+(pi和pj的共同作者数)×N;N为一设定经验值;13)计算s(pi,pj)=s(pi,pj)+tanimoto(pi的期刊名,pj的期刊名);其中,函数tanimoto(p,q)用于计算两个集合p,q的tanimoto相似度;14)计算s(pi,pj)=s(pi,pj)+tanimoto(pi中待消歧作者的机构,pj中待消歧作者的机构);15)计算s(pi,pj)=s(pi,pj)+(pi和pj中主题、关键词的共词数)/M;M为一设定经验值;16)如果步骤15)计算得到的s(pi,pj)大于设定阈值α,则将论文pi分配到论文pj所在簇中,否则将论文pi单独分配到一个新簇中。进一步的,函数进一步的,对所述离群论文集中的论文,两两计算相似度,如果相似度大于设定阈值则将二者分别所在的簇进行合并。进一步的,构建所述异质网络的方法为:将目标论文库中每一篇论文作为异质网络中的一节点,并设置若干关系;如果两论文之间存在某一设置的关系,则在两论文对应的节点之间构建一条边,并设置该边的权值,得到所述异质网络。进一步的,所述设定关系包括具有共同作者、具有共同机构。进一步的,通过基于元路径随机游走策略生成所述路径集。进一步的,所述离散特征包括作者和机构;所述语义特征包括标题、期刊、机构、发表年份和关键词。进一步的,所述模型为word2vec模型。一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行上述方法中各步骤的指令。与现有技术相比,本专利技术的积极效果为:本专利技术能够同时利用论文之间的关系特征以及论文的语义特征得到论文的表征向量,进而对论文进行聚类实现消歧。与此同时,本专利技术还充分考虑到了可能存在一些论文的特征不够明显,与其他论文的相似度比较小的情况,提出了一种基于相似度阈值匹配的方法对这些离群论文进行进一步处理,从而提高了消歧的准确率。附图说明图1为本专利技术的模型架构图;图2为异质网络示意图;图3为基于元路径的随机游走路径生成示意图。具体实施方式下面将结合附图及实施例对本专利技术做进一步的阐述说明。本专利技术以解决论文中存在的同名作者歧义问题为目标,使用论文的一些主要信息,如标题,摘要,作者,期刊,作者机构,发表年份,关键词,通过对论文关系表征和语义表征进行学习并使用聚类方法对其进行聚类,同时并对过程中产生的离群论文使用基于相似度阈值匹配的方法进行处理,从而得到最终的论文划分结果本文档来自技高网...
【技术保护点】
1.一种基于网络表征和语义表征的同名作者消歧方法,其步骤包括:/n1)提取目标论文库中各论文的语义特征和离散特征;其中,目标论文库为根据待消歧作者获取的论文库;/n2)基于各论文的所述离散特征构建论文的异质网络,然后基于所述异质网络生成路径集并将其作为训练语料训练一模型,然后利用该模型生成目标论文库中论文的关系表征向量,然后根据所述关系表征向量计算各论文间的相似度,得到论文的关系相似性矩阵;对于目标论文库中一论文a,如果该论文a与其他论文没有共同作者或机构,则将其加入一离群论文集中;/n3)基于各论文的所述语义特征生成论文的语义表征向量,然后根据所述语义表征向量计算各论文的相似度,得到论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入所述离群论文集中;/n4)将所述关系相似性矩阵和所述语义相似度矩阵进行加权求和,获得论文相似度矩阵并对其进行聚类,聚类后的每一簇代表一作者所包含的论文集合;将不属于任何簇的论文加入所述离群论文集中;/n5)利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中。/n
【技术特征摘要】
1.一种基于网络表征和语义表征的同名作者消歧方法,其步骤包括:
1)提取目标论文库中各论文的语义特征和离散特征;其中,目标论文库为根据待消歧作者获取的论文库;
2)基于各论文的所述离散特征构建论文的异质网络,然后基于所述异质网络生成路径集并将其作为训练语料训练一模型,然后利用该模型生成目标论文库中论文的关系表征向量,然后根据所述关系表征向量计算各论文间的相似度,得到论文的关系相似性矩阵;对于目标论文库中一论文a,如果该论文a与其他论文没有共同作者或机构,则将其加入一离群论文集中;
3)基于各论文的所述语义特征生成论文的语义表征向量,然后根据所述语义表征向量计算各论文的相似度,得到论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入所述离群论文集中;
4)将所述关系相似性矩阵和所述语义相似度矩阵进行加权求和,获得论文相似度矩阵并对其进行聚类,聚类后的每一簇代表一作者所包含的论文集合;将不属于任何簇的论文加入所述离群论文集中;
5)利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中。
2.如权利要求1所述的方法,其特征在于,利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中的方法为:
11)从所述离群论文集中任选一论文pi,对于各簇中每一论文pj;初始化论文pi与论文pj的相似度s(pi,pj)为0;
12)计算s(pi,pj)=s(pi,pj)+(pi和pj的共同作者数)×N;N为一设定经验值;
13)计算s(pi,pj)=s(pi,pj)+tanimoto(pi的期刊名,pj的期刊名);其中,函数tanimoto(p,q)用于计算两个集合p,q的tani...
【专利技术属性】
技术研发人员:杜一,王寒雪,乔子越,周园春,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。