Method and device of the invention discloses a named entity recognition field, relates to the technical field of Natural Language Processing, the main purpose is to reduce the effect of segmentation results of named entity recognition effect on the field, to improve the accuracy of named entity recognition. The main technical scheme of the invention is: to identify text segmentation; text recognition according to the corresponding field tag set, treat each word recognition in the text of the label, the label contains a collection named entity recognition based on domain based tag set and to field belongs to a set of tags, the position of the base tag the label contains a collection of named entity related parts in the field of words; according to the domain name entity extraction rules to extract segmentation label and field named entity. The invention is mainly used in the process of domain name entity recognition.
【技术实现步骤摘要】
识别领域命名实体的方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种识别领域命名实体的方法及装置。
技术介绍
命名实体识别(NamedEntityRecognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,该实体主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb(语义网)的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。目前,命名实体识别一般采用如下方法实现,该方法具体为:构建命名实体集合,或者指定实体抽取规则;对句子进行分词,并构建字典树或者规则树;遍历分词结果,匹配词典或者规则,若有与词典或者规则匹配的内容,则标记匹配内容的位置,如果没有匹配的内容,则进行下一句文本语句的遍历;直到将所述的文本语句遍历结束,并输出最终的标注结果。在执行上述命名实体识别方法时,专利技术人发现目前的技术方案至少存在如下问题:中文领域的专有命名实体识别任务过程中,中文的分词不能像英文等通过空格来分词,所以错误的分词可能会导致命名实体边界确定的不准确,导致命名实体识别不准确;并且,目前命名实体识别的准确率完全依赖于字典或者规则的完整程度,针对于变化中的实体范围,并不能很好的完成实体识别任务。
技术实现思路
有鉴于此,本专利技术提供一种识别领域命名实体的方法及装置,主要目的在于,通过使用标签标记的方法,对命名实体边界进行精准定位,有效的减少了分词结果对领域命名实体识别效果的影响,提高了命名实体识别的准确率。为达到上述目的,本专利技术提供如下 ...
【技术保护点】
一种识别领域命名实体的方法,其特征在于,包括:对待识别文本进行分词;根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;按照领域命名实体抽取规则对标签标注的分词进行抽取;将抽取的分词组成领域命名实体。
【技术特征摘要】
1.一种识别领域命名实体的方法,其特征在于,包括:对待识别文本进行分词;根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注,所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合,其中,所述基础标签集合包含组成领域命名实体相关词语的位置标签;按照领域命名实体抽取规则对标签标注的分词进行抽取;将抽取的分词组成领域命名实体。2.根据权利要求1所述的方法,其特征在于,所述位置标签包括:分词错误;在根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注之后,还包括:检测所述标签标注的文本中是否存在分词错误的标签;若存在分词错误的标签,则对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词;根据所述标签集合对所述新的分词中的每个分词进行标签标注,直到标签标注的文本中不再出现分词错误的标签为止。3.根据权利要求2所述的方法,其特征在于,对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词包括:对分词错误的标签所在的文本语句按字拆分并重新组合得到新的分词。4.根据权利要求1-3中任一项所述的方法,其特征在于,在根据所述待识别文本对应领域的标签集合,对待识别文本中的每个分词进行标签标注之前,所述方法还包括:获取领域命名实体识别的基础标签集合和各领域所属标签集合;取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。5.根据权利要求1-3中任一项所述的方法,其特征在于,所述位置标签包括:词语位于实体的首部、词语位于实体中部、词语位于实体的尾部、词语位于实体的前面/后面、与该领域实体不相关、两个实体是并列关系。6.一种识别领域命名实体的装置,其特征在于,包括:分词单元,用于对待识别文本进行分词;标注单元,用于根据所...
【专利技术属性】
技术研发人员:徐文斌,何鑫,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。