识别领域命名实体的方法及装置制造方法及图纸

技术编号:15690849 阅读:100 留言:0更新日期:2017-06-24 03:34
本发明专利技术公开了一种识别领域命名实体的方法及装置,涉及自然语言处理技术领域,主要目的在于有效的减少了分词结果对领域命名实体识别效果的影响,提高了命名实体识别的准确率。本发明专利技术的主要技术方案为:对待识别文本进行分词;根据待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,该标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;按照领域命名实体抽取规则对标签标注的分词进行抽取并组成领域命名实体。本发明专利技术主要用于领域命名实体识别的过程中。

Method and apparatus for identifying domain named entities

Method and device of the invention discloses a named entity recognition field, relates to the technical field of Natural Language Processing, the main purpose is to reduce the effect of segmentation results of named entity recognition effect on the field, to improve the accuracy of named entity recognition. The main technical scheme of the invention is: to identify text segmentation; text recognition according to the corresponding field tag set, treat each word recognition in the text of the label, the label contains a collection named entity recognition based on domain based tag set and to field belongs to a set of tags, the position of the base tag the label contains a collection of named entity related parts in the field of words; according to the domain name entity extraction rules to extract segmentation label and field named entity. The invention is mainly used in the process of domain name entity recognition.

【技术实现步骤摘要】
识别领域命名实体的方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种识别领域命名实体的方法及装置。
技术介绍
命名实体识别(NamedEntityRecognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,该实体主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb(语义网)的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。目前,命名实体识别一般采用如下方法实现,该方法具体为:构建命名实体集合,或者指定实体抽取规则;对句子进行分词,并构建字典树或者规则树;遍历分词结果,匹配词典或者规则,若有与词典或者规则匹配的内容,则标记匹配内容的位置,如果没有匹配的内容,则进行下一句文本语句的遍历;直到将所述的文本语句遍历结束,并输出最终的标注结果。在执行上述命名实体识别方法时,专利技术人发现目前的技术方案至少存在如下问题:中文领域的专有命名实体识别任务过程中,中文的分词不能像英文等通过空格来分词,所以错误的分词可能会导致命名实体边界确定的不准确,导致命名实体识别不准确;并且,目前命名实体识别的准确率完全依赖于字典或者规则的完整程度,针对于变化中的实体范围,并不能很好的完成实体识别任务。
技术实现思路
有鉴于此,本专利技术提供一种识别领域命名实体的方法及装置,主要目的在于,通过使用标签标记的方法,对命名实体边界进行精准定位,有效的减少了分词结果对领域命名实体识别效果的影响,提高了命名实体识别的准确率。为达到上述目的,本专利技术提供如下的技术方案:一方面,本专利技术提供一种识别领域命名实体的方法,包括:对待识别文本进行分词;根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;按照领域命名实体抽取规则对标签标注的分词进行抽取;将抽取的分词组成领域命名实体。另一方面,本专利技术还提供一种识别领域命名实体的装置,包括:分词单元,用于对待识别文本进行分词;标注单元,用于根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;抽取单元,用于按照领域命名实体抽取规则对标签标注的分词进行抽取;组词单元,用于将抽取的分词组成领域命名实体。本专利技术提供的识别领域命名实体的方法及装置,当需要对文本中的领域命名实体进行识别时,其是先根据预设置的该文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,即根据组成领域命名实体相关词语的位置标签对待识别文本中的每个分词进行标签标注,进而按照领域命名实体抽取规则对进行标签标注的分词进行抽取,并将抽取的分词组成领域命名实体,与现有技术中依赖于字典或者规则识别领域命名实体相比,其识别领域命名实体的边界不再局限于分词与字典进行匹配,而是通过标签标注来确定识别领域命名实体的边界,这样对命名实体边界能够进行精准定位,有效的减少了分词结果对领域命名实体识别效果的影响,提高了命名实体识别的准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例中一种识别领域命名实体的方法流程图;图2示出了本专利技术实施例中一种隐马尔科夫模型的示意图;图3示出了本专利技术实施例中一种识别领域命名实体的装置组成框图;图4示出了本专利技术实施例中另一种识别领域命名实体的装置组成框图;图5示出了本专利技术实施例中另一种识别领域命名实体的装置组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供一种识别领域命名实体的方法,如图1所示,该方法包括:101、对待识别文本进行分词。其中,对待识别文本进行分词可以采用目前的任一种方式实现,本专利技术实施例对此不进行限定。102、根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签。需要说明的是,不同领域的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的命名实体内部特征,所以本专利技术实施例在对不同领域的命名实体进行识别时,其各领域使用的标签集合也不尽相同。如上所述,每个领域的标签集合,包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合。其中,各领域所属标签集合为不同领域特属的标签集合。例如:汽车领域可以添加集团标签集合;人名识别中可以添加姓氏标签集合。其中,该所述基础标签集合包含组成领域命名实体相关词语的位置标签,该位置标签可以为但不局限于以下内容的标签:词语位于实体的首部TS、词语位于实体中部TM、词语位于实体的尾部TE、词语位于实体的前面/后面TSN/TEN、与该领域实体不相关TN、两个实体是并列关系TT、分词错误TSX/TEX/TXS/TEX等。各标签的具体含义可以参考如下的表1中的描述。表1进一步的,在执行本专利技术实施例之前,还需要先获取各领域的标签集合,在获取各领域的标签集合时,可以通过但不局限于以下的方法实现,该方法包括:获取领域命名实体识别的基础标签集合和各领域所属标签集合;取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。进一步的,本专利技术实施例在根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注时,可以采用但不局限于使用训练模型进行。该训练模型可以为但不局限于隐马尔科夫模型对待识别文本进行标签标注,也可以使用条件随机场模型或者神经网络模型等对待识别文本进行标签标注。由于隐马尔科夫模型充分考虑词语的上下文环境,有效的解决了在现有实体识别方法限于字典规模的问题,故本专利技术实施例优选使用隐马尔科夫模型对待识别文本进行标签标注。例如,将分词语句“上海大众汽车召回案”这句文本交给标签标注训练模型后,经过标签标注训练模型的标注,会输出“上海/TS大众/TE汽车/TEN召回案/TN”。本专利技术实施例将结合图2简单描述一下隐马尔科夫模型。在上述的例子中,“上海大众汽车召回案”四个词对应K节点,表示要标记的句子中的词语,是模型的观测层,而对应的标签层为S节点,每个节点可以在该步骤中进行标注,是模型的隐含层本文档来自技高网...
识别领域命名实体的方法及装置

【技术保护点】
一种识别领域命名实体的方法,其特征在于,包括:对待识别文本进行分词;根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;按照领域命名实体抽取规则对标签标注的分词进行抽取;将抽取的分词组成领域命名实体。

【技术特征摘要】
1.一种识别领域命名实体的方法,其特征在于,包括:对待识别文本进行分词;根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;按照领域命名实体抽取规则对标签标注的分词进行抽取;将抽取的分词组成领域命名实体。2.根据权利要求1所述的方法,其特征在于,所述位置标签包括:分词错误;在根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注之后,还包括:检测所述标签标注的文本中是否存在分词错误的标签;若存在分词错误的标签,则对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词;根据所述标签集合对所述新的分词中的每个分词进行标签标注,直到标签标注的文本中不再出现分词错误的标签为止。3.根据权利要求2所述的方法,其特征在于,对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词包括:对分词错误的标签所在的文本语句按字拆分并重新组合得到新的分词。4.根据权利要求1-3中任一项所述的方法,其特征在于,在根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注之前,所述方法还包括:获取领域命名实体识别的基础标签集合和各领域所属标签集合;取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。5.根据权利要求1-3中任一项所述的方法,其特征在于,所述位置标签包括:词语位于实体的首部、词语位于实体中部、词语位于实体的尾部、词语位于实体的前面/后面、与该领域实体不相关、两个实体是并列关系。6.一种识别领域命名实体的装置,其特征在于,包括:分词单元,用于对待识别文本进行分词;标注单元,用于根据所...

【专利技术属性】
技术研发人员:徐文斌何鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1