命名排歧方法及系统技术方案

技术编号：11423296 阅读：138 留言：0更新日期：2015-05-07 01:34

本发明专利技术提出一种命名排歧方法，包括以下步骤：S1，从原始论文集合中选取预定样本容量的论文集；S2，根据已标注数据集将论文集进行分类，以获取多个原子论文集团，每个原子论文集团中的论文相关联；S3，根据作者对每个原子论文集团进行聚类分析，以得到与作者对应的论文集合；S4，通过主动学习策略从论文集合中选取特定的论文，并对论文进行标注以得到标注结果；S5，将标注结果加入已标注数据集，并重复执行步骤S1～S4直至原始论文集合中的论文标注完成。本发明专利技术的方法，正确率高、主动性强、成本低。本发明专利技术还提出一种命名排歧系统。

全部详细技术资料下载

【技术实现步骤摘要】
命名排歧方法及系统
本专利技术涉及计算机
，尤其涉及一种命名排歧方法及系统。
技术介绍
命名歧义主要是指“一个名字实际对应到多个人”或者“多个名字实际对应于同一个人”的问题。命名歧义在现实生活中普遍存在，例如，据统计美国有1.14亿人共用300个名字；在同名查询网上搜索“张伟”，可以知道全中国有29万多个名叫“张伟”的人。命名排歧是通过一定的技术手段去除名字中的歧义。它是近年来自然语言处理、数据挖掘、数字图书馆和信息检索研究中的热点问题。其中，学术论文中的作者命名排歧是这一技术的典型应用场景。由于作者存在大量同名，以及不同学术数据库、会议和期刊对于作者姓名的规范标准不同而导致名字写法不同，不同的作者可能以相同的名字出现。将名字按照实际指代的作者区分合并是学术搜索引擎和数字图书馆提升搜索质量及进一步挖掘知识的核心问题。通过命名排歧技术，精确地将来自异构数据源的有噪声作者信息归类到正确的作者实体中，对于进一步建立研究人员档案，对研究人员进行学术能力评价，搜索特定研究领域的研究人群，分析研究人员的合作与引用关系，以及构建特定研究领域的社会化网络等应用都有着重要意义。目前命名排歧技术已经取得了一定的进展，根据命名排歧的机器学习模型，主要分为三类：基于监督学习，基于无监督学习和基于半监督学习。基于监督学习的方法可以取得最好的命名排歧的效果。然而，在实际应用中，很难获得高质量的训练数据集来保证基于监督学习的命名排歧方法获得较高性能。另外，现有的命名排歧方法缺乏对先验约束知识和用户反馈信息的运用。整体准确率低、主动性差、成本高。
技术实现思路
本专利技术旨在至少在一定...
命名排歧方法及系统

【技术保护点】
一种命名排歧方法，其特征在于，包括以下步骤：S1，从原始论文集合中选取预定样本容量的论文集；S2，根据已标注数据集将所述论文集进行分类，以获取多个原子论文集团，每个所述原子论文集团中的论文相关联；S3，根据作者对每个所述原子论文集团进行聚类分析，得到与所述作者对应的论文集合；S4，通过主动学习策略从所述论文集合中选取特定的论文，并对所述论文进行标注以得到标注结果；以及S5，将所述标注结果加入所述已标注数据集，并重复执行步骤S1～S4直至所述原始论文集合中的论文标注完成。

【技术特征摘要】
1.一种命名排歧方法，其特征在于，包括以下步骤：S1，从原始论文集合中选取预定样本容量的论文集；S2，根据已经标注数据集训练得到偏差分类器，以获取作者对应的高准确率原子论文集团；所述偏差分类器包括：初始化所述已标注数据集的权重；利用分类算法对所述已标注数据集进行分类，获取多个弱分类器；利用偏差错误量值计算所述弱分类器的偏差误差；从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器；更新所述已标注数据集的权重；获取所述偏差分类器；S3，根据作者对应的高准确率原子论文集团进行聚类分析，得到所述作者对应的论文集合，进而完成对所有论文的标注结果；S4，通过主动学习策略在聚类论文集合中选取最难以确定自动标注结果的论文，提供用户交互接口，用户可进行标注；S5，根据所述标注结果，更新偏差分类器和聚类模型，进而整体提升系统性能。2.如权利要求1所述的方法，其特征在于，所述步骤S2包括：S21，利用论文标注结果训练偏差分类器；S22，利用训练得到的偏差分类器对未标注论文进行标注，并将标注结果，高准确率原子论文集团，作为下一步骤的输入。3.如权利要求1所述的方法，其特征在于，所述步骤S3包括：S31，获取多个原子论文集团两两之间的相似度关系；S32，利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合，并使得某篇论文属于某位作者的条件概率最大；S33，根据步骤S32的分配结果...

【专利技术属性】
技术研发人员：唐杰，刘德兵，刘静远，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人