一种学者重名的消歧方法及其系统技术方案

技术编号:10560837 阅读:126 留言:0更新日期:2014-10-22 14:37
本发明专利技术公开了一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明专利技术还公开了一种学者重名的消歧系统。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本专利技术还公开了一种学者重名的消歧系统。【专利说明】一种学者重名的消歧方法及其系统
本专利技术涉及实体消歧领域,特别是涉及一种面向学术领域的学者重名消除歧义的 方法及其系统。
技术介绍
文献系统是科研人员从事研究工作的重要工具。通过文献系统,科研人员可以全 面获取文献和学者信息,了解相关研究的最新进展,进而开拓思路并提高研究水平。然而, 目前文献系统中普遍存在一个重要问题,即学者重名问题。学者重名现象主要包括:(1)不 同的学者具有相同名字(2)同一个学者名字在不同的文献中具有不同的表现形式。例如在 万方文献系统中查询"王伟",会返回几千条学者信息。而中国学者在发表外文文献时重名 问题尤为突出,同样是"Wei Wang",可能对应"王伟"、"王维"和"汪玮"等多达几十种的中 文名称形式。另外在英文文献中存在缩写形式," Wei Wang"也可以表示成"W. Wang",更是 加剧了重名现象的严重性。学者重名现象的存在,影响到论文隶属性的判断,即具有相同作 者名字的论文是否隶属于同一个真实的学者,进而会严重影响到文献系统检索的准确性和 基于学者层面进行分析评价的效果。因而,对学者重名进行有效的消歧,不但能够增强文献 系统的规范化程度和提高系统服务水平,而且可以广泛的应用在科技评价、学术研究和科 技管理中,帮助科研人员更有效的获取和了解学者信息。 学者重名消歧隶属于实体消歧领域,而实体消歧问题广泛存在于很多知识管理应 用中,包括数字图书馆、社交网络分析、专家分析检索和舆情分析等。很多研究者针对学者 重名问题展开深入的研究,提出了不同的解决方法。根据采用的方法可以分为:基于人工方 式的消歧方法、监督式学习的消歧方法和无监督式学习的消歧方法。 基于人工方式的消歧方法,即通过人工辨识方式来判断具有相同作者名字的论文 是否隶属于同一个真实的学者。这种方法在数据量少的情况下具有较高的可靠性;然而人 工辨识的方式效率偏低,已经不再满足论文和学者数量的快速增长。目前更多采用的是基 于学习的自动方法。 监督式学习的消歧方法,基于根据人工标注好的训练数据集合,创建学习模式,生 成相应的分类模型;然后利用该分类模型判别具有相同作者名字的论文是否隶属于同一个 真实的学者。然而在实际系统中,所面临一个重要问题就是信息稀疏性。譬如在文献系统 中,学者的Email、主页和引文等重要信息常常是缺失的。这种信息稀疏性导致分类模型常 常达不到预期效果,因而给学者重名消歧问题带来了巨大的挑战。 无监督式学习的消歧方法,基本思路是根据记录的属性特征,计算两个记录之间 的相似度;然后利用聚类算法,得到最终的消歧结果,即哪些名字对应同一个真实的学者。 无监督的消歧方法主要有基于经典聚类算法,包括层次聚类和谱聚类等,另外还有基于图 分割或者图聚类方法来进行消歧。无监督的消歧方法因为不需要人工标注训练数据,通常 具有较好的实用性。然而无监督式方法一般需要预先指定聚团的数目,而对于消歧问题而 言,实体的聚团数目通常是不可预知的,因此给学者重名消歧问题带来很大的困难。
技术实现思路
本专利技术所要解决的技术问题在于提供一种学者重名的消歧方法及其系统,以克服 学术数据中可能存在的信息稀缺问题以及现有技术中需要预先指定聚团数目的问题。 为达上述目的,本专利技术提供一种学者重名的消歧方法,其特征在于,包括: 分类模型建立步骤:基于异质学术网络数据,通过标注获取标注数据集,基于所述 标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进 行二元分类模型训练,得到文档对二元分类模型; 迭代消歧步骤:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集 合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。 上述学者重名的消歧方法,其特征在于,所述分类模型建立步骤还包括: 文档对特征提取步骤:提取所述文档对的特征,所述特征包含固有特征和关系特 征。 上述学者重名的消歧方法,其特征在于,所述迭代消歧步骤还包括: 文档对构建步骤:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对 应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征; 迭代分类步骤:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元 分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对 的二元分类; 合并处理步骤:基于所述文档对的二元分类进行合并处理,根据所述文档对的二 元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者, 实现学者重名的消歧处理。 上述学者重名的消歧方法,其特征在于,所述迭代分类步骤还包括: 特征值计算步骤:根据所述分类结果和所述文档对之间的关系,重新计算所述文 档对的关系特征值,并更新所述文档对特征值; 分类结果获取步骤:对更新特征值后的所述文档对重新进行分类预测,获得新的 分类结果。 本专利技术还提供一种学者重名的消歧系统,采用如上述的学者重名的消歧方法,其 特征在于,包括 : 分类模型建立模块:基于异质学术网络数据,通过标注获取标注数据集,基于所述 标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进 行二元分类模型训练,得到文档对二元分类模型; 迭代消歧模块:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集 合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。 上述学者重名的消歧系统,其特征在于,所述系统还包括: 数据预处理模块:用于生成待消歧的数据集合; 消歧后处理模块:用于将所述迭代消歧步骤生成的聚团进行相应的融合处理。 上述学者重名的消歧系统,其特征在于,所述分类模型建立模块还包括: 文档对特征提取模块:提取所述文档对的特征,所述特征包含固有特征和关系特 征。 上述学者重名的消歧系统,其特征在于,所述迭代消歧模块还包括: 文档对构建模块:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对 应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征; 迭代分类模块:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元 分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对 的二元分类; 合并处理模块:基于所述文档对的二元分类进行合并处理,根据所述文档对的二 元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者, 实现学者重名的消歧处理。 上述学者重名的消歧系统,其特本文档来自技高网
...
一种学者重名的消歧方法及其系统

【技术保护点】
一种学者重名的消歧方法,其特征在于,包括:分类模型建立步骤:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:程学旗陈忠祥郭嘉丰曹雷
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1