【技术实现步骤摘要】
命名实体识别方法和命名实体识别装置
[0001]本公开总体说来涉及自然语言处理领域,更具体地讲,涉及一种命名实体识别方法和命名实体识别装置。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能领域中的一个重要方向,而命名实体识别(Named Entity Recognition,NER)则是自然语言处理领域中一项十分基本的任务,该任务的目的是识别自然语言文本中特定类型的实体,如人名、地名、机构名等。命名实体识别一般可以分为非嵌套命名实体识别和嵌套命名实体识别两种类型。非嵌套命名实体识别所处理的是单个命名实体,而嵌套实体识别一般处理这样的命名实体,该命名实体的内部还存在着一个或多个其它命名实体。
[0003]更具体地讲,命名实体识别作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。近年来,随着人工智能、知识图谱的发展,命名实体识别技术逐渐成为研究热点。命名实体识别早期工作是基于词典和规则的方法以及利用传统机器学习的方法,然而 ...
【技术保护点】
【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述命名实体识别方法适用于嵌套命名实体与非嵌套命名实体,并且所述命名实体识别方法包括:获取文本数据;基于预先训练的处理模型,获取所述文本数据中的每个字符的特征向量,将每个字符的特征向量映射为二元互斥标记,并将所有二元互斥标记组合为二维矩阵,其中,每个特征向量的元素的数量基于命名实体的类别的数量来确定,并且所述处理模型包括基于转换器的双向编码器语言表征的编码器模块和由采用sigmoid激活函数的全连接层实现的分类器模块,所述基于转换器的双向编码器语言表征的编码器模块被配置为获取所述文本数据中的每个字符的特征向量,所述编码器模块被配置为将每个字符的特征向量映射为二元互斥标记;基于所述二维矩阵,识别所述文本数据中的各个命名实体。2.如权利要求1所述的命名实体识别方法,其特征在于,所述分类器模块基于sigmoid激活函数对每个字符的特征向量的映射结果与预定阈值的比较,将每个字符的特征向量映射为0或1,从而将每个字符的特征向量映射为二元互斥标记。3.如权利要求2所述的命名实体识别方法,其特征在于,每个二元互斥标记为(2n+2)维向量,其中,n表示命名实体的类别。4.如权利要求3所述的命名实体识别方法,其特征在于,每个二元互斥标记包括指示字符与命名实体无关的元素、指示字符位于命名实体中间位置的元素、指示字符位于第一类别至第n类别的命名实体开始位置的元素、指示字符位于第一类别至第n类别的命名实体结束位置的元素。5.如权利要求4所述的命名实体识别方法,其特征在于,基于所述二维矩阵,识别所述文本数据中的各个命名实体的步骤包括:通过对包括在所述二维矩阵中的各个二元互斥标记进行解码,来识别所述文本数据中的各个命名实体及其类别。6.如权利要求5所述的命名实体识别方法,其特征在于,通过对包括在所述二维矩阵中的各个二元互斥标记进行解码,来识别所述文本数据中的各个命名实体及其类别的步骤包括:响应于指示字符与命名实体无关的元素为1,将相应的字符识别为非命名实体;响应于指示字符位于命名实体中间位置的元素为1,将相应的字符识别为命名实体中间位置的字符;和/或,响应于指示字符位于第一类别至第n类别中的至少一个类别的命名实体开始位置的元素为1,将相应的字符识别为第一类别至第n类别中的所述至少一个类别的命名实体开始字符;和/或,响应于指示字符位于第一类别至第n类...
【专利技术属性】
技术研发人员:王潇茵,李瑞群,丁醒醒,杜婉茹,刘萱,
申请(专利权)人:航天宏康智能科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。