当前位置: 首页 > 专利查询>清华大学专利>正文

命名排歧方法及系统技术方案

技术编号:11423296 阅读:138 留言:0更新日期:2015-05-07 01:34
本发明专利技术提出一种命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将论文集进行分类,以获取多个原子论文集团,每个原子论文集团中的论文相关联;S3,根据作者对每个原子论文集团进行聚类分析,以得到与作者对应的论文集合;S4,通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果;S5,将标注结果加入已标注数据集,并重复执行步骤S1~S4直至原始论文集合中的论文标注完成。本发明专利技术的方法,正确率高、主动性强、成本低。本发明专利技术还提出一种命名排歧系统。

【技术实现步骤摘要】
命名排歧方法及系统
本专利技术涉及计算机
,尤其涉及一种命名排歧方法及系统。
技术介绍
命名歧义主要是指“一个名字实际对应到多个人”或者“多个名字实际对应于同一个人”的问题。命名歧义在现实生活中普遍存在,例如,据统计美国有1.14亿人共用300个名字;在同名查询网上搜索“张伟”,可以知道全中国有29万多个名叫“张伟”的人。命名排歧是通过一定的技术手段去除名字中的歧义。它是近年来自然语言处理、数据挖掘、数字图书馆和信息检索研究中的热点问题。其中,学术论文中的作者命名排歧是这一技术的典型应用场景。由于作者存在大量同名,以及不同学术数据库、会议和期刊对于作者姓名的规范标准不同而导致名字写法不同,不同的作者可能以相同的名字出现。将名字按照实际指代的作者区分合并是学术搜索引擎和数字图书馆提升搜索质量及进一步挖掘知识的核心问题。通过命名排歧技术,精确地将来自异构数据源的有噪声作者信息归类到正确的作者实体中,对于进一步建立研究人员档案,对研究人员进行学术能力评价,搜索特定研究领域的研究人群,分析研究人员的合作与引用关系,以及构建特定研究领域的社会化网络等应用都有着重要意义。目前命名排歧技术已经取得了一定的进展,根据命名排歧的机器学习模型,主要分为三类:基于监督学习,基于无监督学习和基于半监督学习。基于监督学习的方法可以取得最好的命名排歧的效果。然而,在实际应用中,很难获得高质量的训练数据集来保证基于监督学习的命名排歧方法获得较高性能。另外,现有的命名排歧方法缺乏对先验约束知识和用户反馈信息的运用。整体准确率低、主动性差、成本高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种高正确率的命名排歧方法。本专利技术第二方面目的在于提出一种命名排歧系统。为了实现上述目的,本专利技术第一方面实施例的命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;S3,根据作者对每个所述原子论文集团进行聚类分析,以得到与所述作者对应的论文集合;S4,通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;S5,将所述标注结果加入所述已标注数据集,重复执行步骤S1~S4直至所述原始论文集合中的论文标注完成。根据本专利技术实施例的命名排歧方法,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。在一些示例中,所述步骤S2包括:S21,根据所述论文特征关系从所述已标注数据集获取偏差分类器;S22,利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。在一些示例中,所述偏差分类器包括:初始化所述已标注数据集的权重;利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新所述已标注数据集的权重;获取所述偏差分类器。在一些示例中,所述步骤S3包括:S31,获取所述多个原子论文集团两两之间的相似度关系;S32,利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;S33,根据步骤S32的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;S34,重复执行S32~S33直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。本专利技术第二方面实施例的命名排歧系统,包括:提取模块、分类模块、聚类模块和标注模块。提取模块,用于从原始论文集合中选取预定样本容量的论文集。分类模块,用于根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联。聚类模块,用于根据作者对每个所述原子论文集团进行聚类分析,以得到与所述作者对应的论文集合。标注模块,用于通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;以及将所述标注结果加入所述已标注数据集。根据本专利技术实施例的命名排歧系统,分类模块根据已标注数据集将论文集进行分类,以获取多个原子论文集团,聚类模块对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。标注模块通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。在一些示例中,所述分类模块还用于,根据所述论文特征关系从所述已标注数据集获取偏差分类器;及利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。在一些示例中,所述偏差分类器包括:初始化所述已标注数据集的权重;利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新所述已标注数据集的权重;获取所述偏差分类器。在一些示例中,所述聚类模块还用于,获取所述多个原子论文集团两两之间的相似度关系;利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;根据上述的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;重复执行上述过程直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1是根据本专利技术一个实施例的命名排歧方法的流程图;图2是本专利技术一个实施例的命名排歧方法的过程示意图;图3是隐式马尔科夫随机场示意图;图4是根据本专利技术一个实施例的命名排歧系统的结构框图。具体实施方式在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本专利技术的描述中本文档来自技高网...
命名排歧方法及系统

【技术保护点】
一种命名排歧方法,其特征在于,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;S3,根据作者对每个所述原子论文集团进行聚类分析,得到与所述作者对应的论文集合;S4,通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;以及S5,将所述标注结果加入所述已标注数据集,并重复执行步骤S1~S4直至所述原始论文集合中的论文标注完成。

【技术特征摘要】
1.一种命名排歧方法,其特征在于,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已经标注数据集训练得到偏差分类器,以获取作者对应的高准确率原子论文集团;所述偏差分类器包括:初始化所述已标注数据集的权重;利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新所述已标注数据集的权重;获取所述偏差分类器;S3,根据作者对应的高准确率原子论文集团进行聚类分析,得到所述作者对应的论文集合,进而完成对所有论文的标注结果;S4,通过主动学习策略在聚类论文集合中选取最难以确定自动标注结果的论文,提供用户交互接口,用户可进行标注;S5,根据所述标注结果,更新偏差分类器和聚类模型,进而整体提升系统性能。2.如权利要求1所述的方法,其特征在于,所述步骤S2包括:S21,利用论文标注结果训练偏差分类器;S22,利用训练得到的偏差分类器对未标注论文进行标注,并将标注结果,高准确率原子论文集团,作为下一步骤的输入。3.如权利要求1所述的方法,其特征在于,所述步骤S3包括:S31,获取多个原子论文集团两两之间的相似度关系;S32,利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;S33,根据步骤S32的分配结果...

【专利技术属性】
技术研发人员:唐杰刘德兵刘静远
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1