一种实体识别方法、模型训练方法及装置制造方法及图纸

技术编号:32277452 阅读:12 留言:0更新日期:2022-02-12 19:43
本申请提供一种实体识别方法、模型训练方法及装置,其中,实体识别方法包括:获取待识别文本及预先训练的实体识别模型,将待识别文本分别输入实体识别模型的第一子模型和第二子模型,得到第一词特征向量和第二词特征向量,然后将第一词特征向量和第二词特征向量输入实体识别模型的第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态,再将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态,将拼接后的隐藏状态输入实体识别模型的分类层,经分类层的分类识别,得到待识别文本的实体识别结果。实体识别时,既考虑了语法语义,又考虑了词法,从而提高了长实体的识别精度。从而提高了长实体的识别精度。从而提高了长实体的识别精度。

【技术实现步骤摘要】
一种实体识别方法、模型训练方法及装置


[0001]本申请涉及计算机技术的人工智能领域,特别涉及一种实体识别方法。本申请同时涉及一种实体识别模型训练方法、一种实体识别装置、一种实体识别模型训练装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(Natural Language Processing)是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
[0003]实体识别又称作命名实体识别(NER,Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。当前,NER是语言分析中数量最多、识别难度最大的任务,同时,NER也是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理(NLP,Natural Language Processing)技术必不可少的组成部分。
[0004]深度学习(Deep Learning)是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。在当前的NER任务中,通常采用深度学习方法,具体是将待识别文本输入预先训练得到的实体识别模型,经实体识别模型的运算,得到待识别文本的实体识别结果。实体识别模型由双向编码表征(BERT,Bidirectional Encoder Representations from Transformers)模型、长短期记忆(LSTM,Long Short

Term Memory)模型和条件随机场(CRF,Conditional Random Field)层组成。BERT模型是利用注意力(Attention)机制来实现预训练或再训练任务的模型结构,在语法和语义层面上具有较强的理解能力,对于短实体具有较高的识别准确度。
[0005]然而,由于BERT模型仅在语法和语义层面上有较强的理解能力,对于长实体而言,识别精度会有所下降,例如,针对长实体“加利福尼亚州斯坦福大学”,易被识别为组织(ORG,Organization)实体,但实际应该被识别为位置(LOC,Location)实体“加利福尼亚州”与ORG实体“斯坦福大学”。因此,如何提高长实体的识别精度,成为亟待解决的技术问题。

技术实现思路

[0006]有鉴于此,本申请实施例提供了一种实体识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种实体识别模型训练方法、一种实体识别装置、一种实体识别模型训练装置、一种计算设备,以及一种计算机可读存储介质。
[0007]根据本申请实施例的第一方面,提供了一种实体识别方法,包括:
[0008]获取待识别文本及预先训练的实体识别模型,其中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
[0009]将待识别文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
[0010]将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
[0011]将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
[0012]将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
[0013]根据本申请实施例的第二方面,提供了一种实体识别模型训练方法,包括:
[0014]获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
[0015]从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
[0016]将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
[0017]将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
[0018]将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果;
[0019]对比实体预测结果与训练文本携带的实体标注信息,得到差异值;
[0020]若差异值大于预设阈值,则调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行从训练集中提取训练文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。
[0021]根据本申请实施例的第三方面,提供了一种实体识别装置,包括:
[0022]第一获取模块,被配置为获取待识别文本及预先训练的实体识别模型,其中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
[0023]第一语言分析模块,被配置为将待识别文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
[0024]第一隐藏状态提取模块,被配置为将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
[0025]第一拼接模块,被配置为将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
[0026]识别模块,被配置为将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
[0027]根据本申请实施例的第四方面,提供了一种实体识别模型训练装置,包括:
[0028]第二获取模块,被配置为获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
[0029]第二语言分析模块,被配置为从训练集中提取训练文本,并将训练文本分别输入第一子模型和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:获取待识别文本及预先训练的实体识别模型,所述实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,所述第一子模型为基于深度学习的语言模型,所述第二子模型为词法关联模型,所述第三子模型为双向的隐藏状态提取模型;将所述待识别文本分别输入所述第一子模型和所述第二子模型,得到第一词特征向量和第二词特征向量;将所述第一词特征向量和所述第二词特征向量输入所述第三子模型,经所述第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;将所述多个第一隐藏状态和所述多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;将所述拼接后的隐藏状态输入所述分类层,经所述分类层的分类识别,得到所述待识别文本的实体识别结果。2.根据权利要求1所述的实体识别方法,其特征在于,在所述获取待识别文本及预先训练的实体识别模型的步骤之前,所述方法还包括:获取训练集和初始的网络模型,所述训练集包括多个训练文本,各训练文本携带有实体标注信息,所述网络模型包括第一子模型、第二子模型、第三子模型和分类层,所述第一子模型为基于深度学习的语言模型,所述第二子模型为词法关联模型,所述第三子模型为双向的隐藏状态提取模型;从所述训练集中提取训练文本,并将所述训练文本分别输入所述第一子模型和所述第二子模型,得到第一词特征向量和第二词特征向量;将所述第一词特征向量和所述第二词特征向量输入所述第三子模型,经所述第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;将所述多个第一隐藏状态和所述多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;将所述拼接后的隐藏状态输入所述分类层,经所述分类层的分类识别,得到所述训练文本的实体预测结果;对比所述实体预测结果与所述训练文本携带的实体标注信息,得到差异值;若所述差异值大于预设阈值,则调整所述第一子模型、所述第二子模型、所述第三子模型和所述分类层的模型参数,并返回执行所述从所述训练集中提取训练文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。3.根据权利要求1或2所述的实体识别方法,其特征在于,所述第三子模型包括多个隐藏层;所述将所述第一词特征向量和所述第二词特征向量输入所述第三子模型,经所述第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态的步骤,包括:将所述第一词特征向量输入所述第三子模型,经所述第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态;将所述第二词特征向量输入所述第三子模型,经所述第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态。4.根据权利要求3所述的实体识别方法,其特征在于,所述将所述第一词特征向量输入
所述第三子模型,经所述第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态的步骤,包括:按照所述第三子模型中各隐藏层从前往后的顺序,将所述第一词特征向量输入第1个隐藏层,经所述第1个隐藏层的计算,得到第1个第一隐藏状态;将所述第1个第一隐藏状态输入第2个隐藏层,经所述第2个隐藏层的计算,得到第2个第一隐藏状态;对第i个隐藏层之前已计算出的预设数目个第一隐藏状态进行加权运算,得到加权结果,并将所述加权结果输入第i个隐藏层,经所述第i个隐藏层的计算,得到第i个第一隐藏状态,其中,i为大于2、且小于或等于n的正整数,n为所述第三子模型中隐藏层的总个数。5.根据权利要求3所述的实体识别方法,其特征在于,所述将所述第二词特征向量输入所述第三子模型,经所述第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态的步骤,包括:按照所述第三子模型中各隐藏层从后往前的顺序,将所述第二词特征向量输入第n个隐藏层,经所述第n个隐藏层的计算,得到第1个第二隐藏状态,其中,所述第n个隐藏层为所述第三子模型中的最后一个隐藏层;将所述第1个第二隐藏状态输入第n

1个隐藏层,经所述第n

1个隐藏层的计算,得到第2个第二隐藏状态;对第j个隐藏层之后已计算出的预设数目个第二隐藏状态进行加权运算,得到加权结果,并将所述加权结果输入第j个隐藏层,经所述第j个隐藏层的计算,得到第n

(j

1)个第二隐藏状态,其中,j为大于或等于1、且小于n

1的正整数。6.根据权利要求1所述的实体识别方法,其特征在于,所述将所述多个第一隐藏状态和所述多个第二隐藏状态进行拼接,得到拼接后的隐藏状态的步骤,包括:按照第一隐藏状态和第二隐藏状态的提取顺序,将同一顺序提取的第二隐藏状态拼接在第一隐藏状态之后,得到多个拼接后的隐藏状态。7.根据权利要求1所述的实体识别方法,其特征在于,所述第一子模型为BERT模型,所述第二子模型为Word2Vec模型,所述第三子模型为双向LSTM模型,所述分类层为CRF层。8.一种实体识别模型训练方法,其特征在于,包括:获取训练集和初始的网络模型,所述训练集包括多个训练文本,各训练文本携带有实体标注信息,所述网络模型包括第一子模型、第二子模型、第三子模型和分类层,所述第一子模型为基于深度学习的语言模型,所述第二子模型为词法关联模型,所述第三子模型为双向的隐藏状态提取模型;从所述训练集中提取训练文本,并将所述训练文本分别输入所述第一子模型和所述第二子模型,得到第一词特征向量和第二词特征向量;将所述第一词特征向量和所述第二词特征向量输入所述第三子模型,经所述第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;将所述多个第一隐藏状态和所述多个第二隐藏状态进...

【专利技术属性】
技术研发人员:冯硕李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1