一种面向中文人名识别系统的评测方法及评测系统技术方案

技术编号:4270828 阅读:654 留言:0更新日期:2012-04-11 18:40
一种面向中文人名识别系统的评测方法及评测系统自然语言处理领域。评测方法包括:评测文件生成步骤,从句子库抽取指定数目的句子,并对句子中的每个人名利用人名库中的人名进行替换产生评测文件;记录数据步骤,记录句子在评测文件中的行号、句子中的每个人名和人名在句子中的起始位置;识别步骤,利用待评测的中文人名识别系统对评测文件进行人名识别;判断步骤,根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名识别系统是否正确识别出人名;评测指标计算步骤,根据判断步骤的判断结果形成评价中文人名识别系统的评测指标。本发明专利技术实现了中文人名识别系统评测的自动化,使不同识别系统有可比性;发现识别算法存在的问题。

【技术实现步骤摘要】

本专利技术涉及一种面向中文人名识别系统的评测方法,属于自然语言处理领域。
技术介绍
随着信息技术的发展,尤其是近几年互联网的飞速发展,新信息大量地涌现,Web 上的数据正以每天几百万个页面的速度增长。目前,Web已成为人类获取信息的主要手段之 一。面对海量的、大规模的、非结构化的语言文本信息,如何快速有效的获得所需的信息和 知识己经成为自然语言处理研究的重点。命名实体识别尤其是中文人名识别在信息检索、 信息抽取、机器翻译和文本分类等应用领域有重要作用,能够显著地提高信息检索、信息提 取、机器翻译和文本分类等系统的性能,为从文本中自动获取知识奠定了基础。人名识别结 果的好坏,直接决定着语法分析、语义分析等语言理解全过程的性能。 随着近几年人们对中文人名识别的研究,中文人名识别已经取得了一定的成果, 然而对中文人名识别方法的评测的方法却是一个空白。正确客观的对人名识别方法的进行 评测可以极大的促进中文人名识别方法的发展。 在当前评测人名识别方法主要是采取随意抓取一篇文章或一定数目的句子进行 人名识别,然后人工统计识别的结果,进行人工计算召回率和准确率,通过几次结果的比较 判断系统的稳定性。这主要存在以下不足 (1)每次都要进行人工统计费时、费力而且不可避免的出现差错。(2)句子数目、人名固定不具有代表性,统计的结果不能足够、客观的反应识别系统的准确率和召回率。(3)评测次数过少,不能很好的反映系统的稳定性。 因此,设计一种中文人名识别系统的评测方法具有及其重要意义。
技术实现思路
本专利技术的目的,就在于克服上面提到的当前中文姓名识别评测方法中的不足,提 出了一种面向中文人名识别系统的评测方法。 本专利技术的一种面向中文人名识别系统的评测方法,其特征在于,包括以下步骤 评测文件生成步骤从句子库抽取指定数目的句子,并对句子中的每个 人名利用人名库中的人名进行替换产生评测文件; 记录数据步骤在生成评测文件的过程中,记录句子在评测文件中的行号、句子中 的每个人名及人名在句子中的起始位置; 识别步骤利用待评测的中文人名识别系统对评测文件进行人名识别,得到识 别结果,识别结果包括句子在评测文件中的行号、识别出的人名及人名在句子中的起始位 置; 判断步骤根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名 识别系统是否正确识别出句子中的人名;所述预先设定的判断标准如下当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句 子的行号、句子中的人名、人名在句子中的起始位置对应相等时,为一个正确识别出的人指标; 评测指标计算步骤根据判断步骤的判断结果形成评价中文人名识别系统的评测 在所述评测指标计算步骤中的一次评测指标包括指标一召回率(R)识别系统识别正确的人名数x 1Q0%识别系统识别出的人名总数 0指标二准确率(E)- 识别系统识别正确的人名数x 10()0/ 评测文件中的人名总数 0对识别系统的评测指标包括指标一 平均召回率,n次评测召回率的平均值; 指标二 平均准确率,n次评测准确率的平均值;指标三稳定性,通过n次评测准确率的方差来表示,方差小于等于一设定阈值0. 01时,n取值范围为10《n《50,表明中文人名识别系统具有较高稳定性。 在所述评测文件生成步骤中所述句子库其特征在于 特征一 句子库要涉及政治,经济,文化等多个领域; 特征二 句子库中句子的个数要大于1万条,每个句子要包含一个或多个人名,对 句子中的每个人名采用计算机能够准确识别的标识来标示,如'7nrb姓名/nre (/nrb姓 名在句子的起始位置,/nre姓名在句子的结束位置); 特征三为增加评测的准确性和客观性,增加10% _50%不包含人名的干扰句子。 在所述评测文件生成步骤中所述人名库其特征在于 特征一 人名库的姓氏个数要大于600个; 特征二 人名库包含的人名数要大于10万个。 —种所述方法的中文人名识别评测系统,该评测系统实现对中文人名识别系统的 性能进行评测,该系统包括一计算机,其特征在于,该计算机包括 第一存储模块,用于存储人名库和句子库; 第二存储模块,用于存储评测文件; 第三存储模块,用于存储记录数据中每个句子的行号,句子中的每个人名以及人 名在句子中的起始位置; 第四存储模块,用于存储待评测的中文人名识别系统对评测文件人名识别的识别 结果; 判断模块,根据预先设定的判断标准对识别结果和评测文件中句子中的人名及 人名起始位置进行比较,判断人名识别系统是否正确识别出句子中的人名,并记录判断结 果; 评测指标计算模块,根据判断模块的判断结果形成评价中文人名识别系统的评测 指标。 显示模块,显示人名识别系统的评测指标,显示识别错误的句子和识别错误的原5因,识别错误的原因包括句子中的人名没有被识别出来和人名被识别错误。 本专利技术对中文人名识别系统提供一套完整的评测方法和评测系统,实现了中文人名识别系统评测的自动化,解决了人工评测时的误差;使不同方法的中文人名识别系统间具有可比性;帮助中文人名识别系统发现识别算法存在的问题,对改善识别算法具有重要意义。附图说明 图1是本专利技术的中文人名识别评测系统的组成示意图; 图2是本专利技术的中文人名识别系统评测方法的流程图。具体实施例方式下面结合附图和具体实施方式对本专利技术方法及系统进行详细描述。 如图1中的虚线框所示,本专利技术的中文人名识别评测系统包括第一存储模块、第二存储模块、第三存储模块、第四存储模块、判断模块、评测指标计算模块、显示模块。该中文人名识别评测系统可用一计算机来实现。 图2显示了本专利技术的中文人名识别系统评测方法的流程图,下面结合图1对本发 明的方法和系统进行详细说明。 如图2所示,在步骤1中生成评测文件,评测文件是用来评测中文人名识别系统 的文本文件,评测文件来源于句子库和人名库,为了客观、全面的评测一个中文人名识别系 统 (1)句子库需满足以下特征 特征一 句子库要涉及政治,经济,文化等多个领域; 特征二 句子库中句子的个数要大于1万条,每个句子要包含一个或多个人名,对句子中的每个人名采用计算机能够准确识别的标识来标示,如'7nrb姓名/nre (/nrb姓名在句子的起始位置,/nre姓名在句子的结束位置); 特征三句子库中要包含10% _50%不含人名的干扰句子。 (2)人名库需满足以下特征 特征一 人名库的姓氏个数要大于600个; 特征二 人名库包含的人名数要大于10万个。 (3)评测文件应该具有多样性,利用系统产生随机数,利用随机数随机的从句子库 中抽取指定数目的句子,并对每个句子中的每个人名利用人名库中的人名进行随机替换, 利用线性同余算法产生随机数,保证了每次产生的句子和人名都是随机的,从而每次产生 的评测文件都是不同的。 在一个实施例中,句子库中包含句子2万条,涉及政治、经济、文化三个领域,其中 含有人名的句子1. 5万条,对句子中的每个姓名采用/nrb姓名/nre (/nrb姓名在句子 的起始位置,/nre姓名在句子的结束位置)的格式进行标识使计算机能够准确的识别;如 广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。,其中田聪明为人名; 人名库包含人名个数47万个本文档来自技高网...

【技术保护点】
一种面向中文人名识别系统的评测方法,其特征在于,包括以下步骤:评测文件生成步骤:从句子库抽取指定数目的句子,并对句子中的每个人名利用人名库中的人名进行替换产生评测文件;记录数据步骤:在生成评测文件的过程中,记录句子在评测文件中的行号、句子中的每个人名及人名在句子中的起始位置;识别步骤:利用待评测的中文人名识别系统对评测文件进行人名识别,得到识别结果,识别结果包括句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置;判断步骤:根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名识别系统是否正确识别出句子中的人名;所述预先设定的判断标准如下:当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时,为一个正确识别出的人名;评测指标计算步骤:根据判断步骤的判断结果形成评价中文人名识别系统的评测指标;在所述评测指标计算步骤中的一次评测指标包括:指标一:召回率(R)=识别系统识别正确的人名数/识别系统识别出的人名总数×100%指标二:准确率(E)=识别系统识别正确的人名数/评测文件中的人名总数×100%对识别系统的评测指标包括:指标一:平均召回率,n次评测召回率的平均值;指标二:平均准确率,n次评测准确率的平均值;指标三:稳定性,通过n次评测准确率的方差来表示,方差小于等于一设定阈值0.01时,n取值范围为10≤n≤50,表明中文人名识别系统具有较高稳定性。...

【技术特征摘要】
一种面向中文人名识别系统的评测方法,其特征在于,包括以下步骤评测文件生成步骤从句子库抽取指定数目的句子,并对句子中的每个人名利用人名库中的人名进行替换产生评测文件;记录数据步骤在生成评测文件的过程中,记录句子在评测文件中的行号、句子中的每个人名及人名在句子中的起始位置;识别步骤利用待评测的中文人名识别系统对评测文件进行人名识别,得到识别结果,识别结果包括句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置;判断步骤根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名识别系统是否正确识别出句子中的人名;所述预先设定的判断标准如下当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时,为一个正确识别出的人名;评测指标计算步骤根据判断步骤的判断结果形成评价中文人名识别系统的评测指标;在所述评测指标计算步骤中的一次评测指标包括指标一指标二对识别系统的评测指标包括指标一平均召回率,n次评测召回率的平均值;指标二平均准确率,n次评测准确率的平均值;指标三稳定性,通过n次评测准确率的方差来表示,方差小于等于一设定阈值0.01时,n取值范围为10≤n≤50,表明中文人名识别系统具有较高稳定性。F2009102431237C00011.tif,F2009102431237C00012.tif2. 根据权利要求1所述的中文人...

【专利技术属性】
技术研发人员:李玉鑑张德栋杨震
申请(专利权)人:北京工业大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1