一种基于网络表征和语义表征的同名作者消歧方法技术

技术编号:24252014 阅读:187 留言:0更新日期:2020-05-22 23:49
本发明专利技术公开了一种基于网络表征和语义表征的同名作者消歧方法。本方法为:1)提取目标论文库中各论文的语义特征和离散特征;2)基于离散特征计算各论文间的相似度,得到论文的关系相似性矩阵;如果一论文与其他论文没有共同作者或机构,则将其加入一离群论文集中;3)基于各论文的所述语义特征计算论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入离群论文集中;4)将关系相似性矩阵和语义相似度矩阵加权求和,获得论文相似度矩阵并对其进行聚类;将不属于任何簇的论文加入离群论文集中;5)利用基于相似度阈值匹配的方法将离群论文集中的论文分配到对应的簇中。本发明专利技术实现高准确率的论文同名作者的消歧。

A disambiguation method for authors of the same name based on network representation and semantic representation

【技术实现步骤摘要】
一种基于网络表征和语义表征的同名作者消歧方法
本专利技术主要涉及实体消歧,异质网络嵌入
,词向量嵌入
,具体是一种基于网络表征和语义表征的论文同名作者消歧技术。
技术介绍
在许多领域中,同名消歧一直被视为一个很有意义但具有挑战性的问题,如文献管理,社交网络分析等。在学术网络领域,各种学术搜索系统的出现,如GoogleScholar,Aminer等,为论文的搜索和学术交流提供了极大的便利。但由于论文数量的巨大,以及论文信息的复杂和多样,存在大量的论文被分配错误的问题,其中同名作者歧义问题就是一个比较重要但棘手的问题。对论文同名作者的消歧是指利用论文的信息,如标题,作者,作者机构,摘要,关键词等,通过一些方法将论文分配到正确的作者档案中。目前已经有很多研究者针对同名作者消歧问题提出了解决方法,这些方法主要包括利用论文信息进行基于规则的匹配,或者利用表示学习方法,对论文信息进行表征,然后利用聚类方法,如层次聚类,DBSCAN等对这些表征信息进行聚类,使得相似的论文聚成一簇,不相似的论文被分到不同的簇中。语义表征学习是一种将原始数据转换成能本文档来自技高网...

【技术保护点】
1.一种基于网络表征和语义表征的同名作者消歧方法,其步骤包括:/n1)提取目标论文库中各论文的语义特征和离散特征;其中,目标论文库为根据待消歧作者获取的论文库;/n2)基于各论文的所述离散特征构建论文的异质网络,然后基于所述异质网络生成路径集并将其作为训练语料训练一模型,然后利用该模型生成目标论文库中论文的关系表征向量,然后根据所述关系表征向量计算各论文间的相似度,得到论文的关系相似性矩阵;对于目标论文库中一论文a,如果该论文a与其他论文没有共同作者或机构,则将其加入一离群论文集中;/n3)基于各论文的所述语义特征生成论文的语义表征向量,然后根据所述语义表征向量计算各论文的相似度,得到论文的语...

【技术特征摘要】
1.一种基于网络表征和语义表征的同名作者消歧方法,其步骤包括:
1)提取目标论文库中各论文的语义特征和离散特征;其中,目标论文库为根据待消歧作者获取的论文库;
2)基于各论文的所述离散特征构建论文的异质网络,然后基于所述异质网络生成路径集并将其作为训练语料训练一模型,然后利用该模型生成目标论文库中论文的关系表征向量,然后根据所述关系表征向量计算各论文间的相似度,得到论文的关系相似性矩阵;对于目标论文库中一论文a,如果该论文a与其他论文没有共同作者或机构,则将其加入一离群论文集中;
3)基于各论文的所述语义特征生成论文的语义表征向量,然后根据所述语义表征向量计算各论文的相似度,得到论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入所述离群论文集中;
4)将所述关系相似性矩阵和所述语义相似度矩阵进行加权求和,获得论文相似度矩阵并对其进行聚类,聚类后的每一簇代表一作者所包含的论文集合;将不属于任何簇的论文加入所述离群论文集中;
5)利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中。


2.如权利要求1所述的方法,其特征在于,利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中的方法为:
11)从所述离群论文集中任选一论文pi,对于各簇中每一论文pj;初始化论文pi与论文pj的相似度s(pi,pj)为0;
12)计算s(pi,pj)=s(pi,pj)+(pi和pj的共同作者数)×N;N为一设定经验值;
13)计算s(pi,pj)=s(pi,pj)+tanimoto(pi的期刊名,pj的期刊名);其中,函数tanimoto(p,q)用于计算两个集合p,q的tani...

【专利技术属性】
技术研发人员:杜一王寒雪乔子越周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1