一种命名实体识别的方法及装置制造方法及图纸

技术编号:8834281 阅读:185 留言:0更新日期:2013-06-22 20:30
本申请公开了一种用于识别命名实体的识别模型生成方法及装置、以及一种命名实体识别的方法及装置,所述命名实体识别方法包括:获得待训练文本的第一特征信息集;基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种命名实体识别的方法及装置
技术介绍
随着计算机网络规模的日益扩大,大量的信息以电子文档的形式出现在人们面前,互联网已成为海量信息的载体。人们迫切希望计算机能够从海量信息中抽取出有用的信息,而信息抽取的主要任务之一就是命名实体识别(Named Entity Recognized, NER)。命名实体是指被命名的唯一确定的具有特定意义的最小信息单位——专有名称和数量短语。主要包括有七种类型的命名实体:人名、地名、组织名、日期、时间、货币值和百分数。命名实体识别的主要是任务是识别出文本中的命名实体并加以归类。在这七种命名实体中,由于人名、地名和组织名等命名实体具有开放性和发展性的特点,并且形成规律具有很大的随机性,所以对它们的识别会有较多的错选或漏选,现在大多数命名实体识别的研究都集中在这三种命名实体的识别技术上。基于条件随机场(conditional random fields)的命名实体识别,是目前常用的一种命名实体识别方法。该方法将命名实体识别过程分为两层,底层的条件随机场模型仅以观察值为条件,用于简单命名实体的识别。然后,将识别的结果传递到高层识别模型,这样高层模型的输入变量不仅包含观察值,还包含底层模型的简单识别结果,从而为高层条件随机场模型识别复杂命名实体打下基础。然而在实现本申请实施例中技术方案的过程中,本申请人发现现有技术至少存在如下缺点:由于现有技术中,只是基于条件随机场的两层模型对命名实体进行识别,而没有考虑到识别出的命名实体的正确与否,所以存在着识别不够准确的技术问题。
技术实现思路
本专利技术提供一种命名实体识别的方法及装置,用以解决现有技术中,由于只是基于条件随机场的两层模型对命名实体进行识别,而没有考虑到识别出的命名实体的正确与否,所以存在着识别不够准确的技术问题。本专利技术通过本申请中的实施例,提供如下技术方案:一方面,本专利技术通过本申请中的一个实施例,提供如下技术方案:一种用于识别命名实体的识别模型生成方法,包括:获得待训练文本的第一特征信息集;对待训练文本的第一特征信息集进行训练,获得第一识别模型;基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;对所述第二特征信息集中进行训练,获得错误驱动模型。进一步的,所述获得第一特征信息集,具体为:获得待训练文本的第三特征信息集;对待训练文本的第三特征信息集进行训练,获得第三识别模型;基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。进一步的,所述获得待训练文本的第三特征信息集,具体为:获得所述待训练文本;将所述待训练文本划分为至少一个待训练短句;获得用于标记所述至少一个待训练短句的标记集合;基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。进一步的,所述第三特征信息集具体包括:所述至少一个待训练短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。另一方面,本专利技术通过本申请中的另一实施例提供如下技术方案:一种命名实体识别的方法,包括如下步骤:获得待训练文本的第一特征信息集;基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。进一步的,所述获得待训练文本的第一特征信息集,具体为:获得待识别文本的第二特征信息集;基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数。进一步的,所述基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,还包括:获取所述K个命名实体的种类信息、位置信息、词性信息。进一步的,所述获得待识别文本的第三特征信息集,具体为:获得所述待识别文本;将所述待识别文本划分为至少一个待识别短句;获得用于标记所述至少一个待识别短句的标记集合;基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。进一步的,所述第一特征信息集具体包括:所述至少一个待识别短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。另一方面,本专利技术通过本申请中的另一实施例提供如下技术方案:一种用于识别命名实体的识别模型生成装置,包括:第一特征信息集合获得模块:用户获得待训练文本的第一特征信息集;第一训练模块获得模块:用于对待训练文本的第一特征信息集进行训练,获得第一识别模型;第二特征信息集获得模块:基于所述第一识别模型对所述第一特征信息集进行识另IJ,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;错误驱动模型获得模块:用于对所述第二特征信息集中进行训练,获得错误驱动模型。进一步的,所述第一特征信息集获得模块,具体包括:第三特征信息集获得单元:用于获得待训练文本的第三特征信息集;第三识别模型获得单元:用于对待训练文本的第三特征信息集进行训练,获得第三识别模型;第一特征信息集获得单元:用于基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。进一步的,所述第三特征信息集获得单元,具体包括:待训练文本获得单元:用于获得所述待训练文本;划分单元:用于将所述待训练文本划分为至少一个待训练短句;标记集合获得单元:用于获得用于标记所述至少一个待训练短句的标记集合;标记单元:用于基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。另一方面,本专利技术通过本申请中的另一实施例提供如下技术方案:一种命名实体识别的装置,包括:第一特征信息集获得模块:用于获得待训练文本的第一特征信息集;第二特征信息集获得模块:用于基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;错误纠正模块:用于基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。进一步的,所述第一特征信息集获得模块,主要包括:第三特征信息集获得单元:用于获得待识别文本的第三特征信息集;第一特征信息集获得单元:用于基于第三识别模型对所述第三特征信息集进行识另IJ,获得第一特征信息集,所述第一特征信息集包含本文档来自技高网...

【技术保护点】
一种用于识别命名实体的识别模型生成方法,其特征在于,包括:获得待训练文本的第一特征信息集;对待训练文本的第一特征信息集进行训练,获得第一识别模型;基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;对所述第二特征信息集中进行训练,获得错误驱动模型。

【技术特征摘要】
1.一种用于识别命名实体的识别模型生成方法,其特征在于,包括: 获得待训练文本的第一特征信息集; 对待训练文本的第一特征信息集进行训练,获得第一识别模型; 基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数; 对所述第二特征信息集中进行训练,获得错误驱动模型。2.如权利要求1所述的方法,其特征在于,所述获得第一特征信息集,具体为: 获得待训练文本的第三特征信息集; 对待训练文本的第三特征信息集进行训练,获得第三识别模型; 基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。3.如权利要求2所述的方法,其特征在于,所述获得待训练文本的第三特征信息集,具体为: 获得所述待训练文本; 将所述待训练文本划分为至少一个待训练短句; 获得用于标记所述 至少一个待训练短句的标记集合; 基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。4.如权利要求2或3所述的方法,其特征在于,所述第三特征信息集具体包括: 所述至少一个待训练短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。5.一种命名实体识别的方法,其特征在于,包括: 获得待训练文本的第一特征信息集; 基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数; 基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。6.如权利要求5所述的方法,其特征在于,所述获得待训练文本的第一特征信息集,具体为: 获得待识别文本的第三特征信息集; 基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数。7.如权利要求5所述的方法,其特征在于,所述基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,还包括: 获取所述K个命名实体的种类信息、位置信息、词性信息。8.如权利要求6所述的方法,其特征在于,所述获得待识别文本的第三特征信息集,具体为: 获得所述待识别文本; 将所述待识别文本划分为至少一个待识别短句; 获得用于标记所述至少一个待识别短句的标记集合; 基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。9.如权利要求7或8所述的方法,其特征在于,所述第一特征信息集具体包括: 所述至少一个待识别短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。10.一种用于识别命名实体的识别模型生成装置,其特征在于,包括: 第一特征信息集合获得模块:...

【专利技术属性】
技术研发人员:刘志超于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1