一种实体识别方法和装置制造方法及图纸

技术编号:21892246 阅读:34 留言:0更新日期:2019-08-17 14:38
本申请实施例公开了一种命名实体识别方法,在需要对待识别文本中的实体进行识别时,获取待识别文本中分词词条的词向量;根据分词词条的词向量和实体识别模型确定分词词条对应每类标签的第一分值。分别计算分词词条的特征向量与每类标签的标签向量间的第一匹配得分,第一匹配得分反映分词词条具有每类标签的可能性。根据第一分值和第一匹配得分分别得到分词词条对应每类标签的第二分值,在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值。通过在实体识别模型的输出层结合第一匹配得分,在第一分值基础上增加分词词条所具有的标签的分值,增强实体词典对计算每类标签分值的影响,使得计算得到的分值更加准确,从而更多的召回实体。

A Method and Device for Entity Recognition

【技术实现步骤摘要】
一种实体识别方法和装置
本申请涉及文本处理领域,尤其涉及一种实体识别方法和装置。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER),是指识别文本中具有特定意义的实体。NER是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术的基础,能否准确的识别出文本中的实体对自然语言处理技术的处理效果影响重大。由于实体数量大且可能不断的更新,待识别文本中所包括的实体可能是训练语料中未出现实体(Outofvocabulary,简称OOV),训练语料难以覆盖全部实体。为此,需要结合实体词典识别实体。目前,针对待识别文本识别实体时,根据实体词典查找实体,并生成标签向量,将标签向量与词向量进行拼接输入到识别网络模型中,从而得到待识别文本中各个分词词条分别对应各个标签的分值,进而根据分值识别出实体。由于这种方法是在词向量输入到识别网络模型前结合实体词典,与实体词典相关的特征处于识别网络模型的输入层,使得实体词典对于输出层输出的分值影响非常小,难以发挥实体词典对于计算分值的作用,进而使得计算得到的分值不够准确,从而影响实体识别对实体的召回。专利技术内容为了解决现有技本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于,所述方法包括:获取待识别文本中分词词条的词向量;根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的;根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;根据所述第二分值识别所述待识别文本中的实体。

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括:获取待识别文本中分词词条的词向量;根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的;根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;根据所述第二分值识别所述待识别文本中的实体。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量;所述掩模向量用于确认所述分词词条所属的目标标签;所述根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值,包括:根据所述第一分值、所述第一匹配得分和所述掩模向量分别得到所述分词词条对应每类标签的第二分值。3.根据权利要求1所述的方法,其特征在于,若所述待识别文本中包括多个分词词条,所述根据所述第二分值识别所述待识别文本中的实体,包括:针对所述多个分词词条中每个分词词条,将第二分值最高的标签确定为分词词条的标签,得到所述多个分词词条的标签;根据确定出的所述多个分词词条的标签,识别所述待识别文本中的实体。4.根据权利要求1所述的方法,其特征在于,所述分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,包括:分别根据所述分词词条的特征向量与每类标签的标签向量之间的内积确定所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。5.根据权利要求2所述的方法,其特征在于,所述根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量,包括:若根据所述匹配结果确定所述分词词条与所述实体词典中的多个实体相匹配,分别计算所述分词词条与每个实体的第二匹配得分;根据所述第二匹配得分生成所述分词词条的掩模向量。6.根据权利要求2所述的方法,其特征在于,若根据所述匹配结果确定所述分词词条与所述实体词典中的目标实体相匹配,且所述目标实体包括多种语义,生成的所述掩模向量反映所述分词词条具有用于标识所述分词词条不构成目标实体的标签。7.根据权利要求2所述的方法,其特征在于,所述根据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值,包括:根据如下公式得到所述分词词条对应每类标签的第二分值:o'=o+s⊙m其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,s=[s1,s2,……,sm],s为待识别文本中所述分词词条的特征向量与每类标签对应的标签向量的第一匹配得...

【专利技术属性】
技术研发人员:代嘉慧苗艳军
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1