命名实体识别方法、装置、设备及介质制造方法及图纸

技术编号：35306965 阅读：21 留言：0更新日期：2022-10-22 12:57

本申请涉及人工智能技术领域，提供一种命名实体识别方法、装置、设备及介质，方法包括：获取待识别句子；根据预设的输入模板将所述待识别句子中的每一个字依次作为[w]，输入预先训练好的标注识别模型进行识别，得到对应的标注识别结果；其中，所述输入模板为[CLS],w11,w12,w13,

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别方法、装置、设备及介质

[0001]本申请涉及人工智能
，尤其涉及一种命名实体识别方法、装置、设备及介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。业内提出命名实体识别一般使用CRF模型，或者LSTM+CRF模型进行识别，若是使用这些模型，在模型训练前，需要对命名实体所在的句子进行BMES的四种标注，B表示一个词的词首位值，M表示一个词的中间位置，E表示一个词的末尾位置，S表示一个单独的字词，由于这类标注方法需要BMES四种标注，因此，标注成本较大。

技术实现思路

[0003]针对上述技术问题，本申请的目的在于提供一种命名实体识别方法、装置、设备及介质，旨在解决采用CRF模型，或者LSTM+CRF模型进行命名实体识别，标注成本大的问题。
[0004]第一方面，本专利技术实施例提供一种命名实体识别方法，包括：
[0005]获取待识别句子；
[0006]根据预设的输入模板将所述待识别句子中的每一个字依次作为[w]，输入预先训练好的标注识别模型进行识别，得到对应的标注识别结果；其中，所述输入模板为[CLS],w11,w12,w13,
…
,w1n,[sep],[w],是,[label],实,体,[sep]，[CLS]代表句向量，w11代表句子中的第一个字，w12代表句子中的第二个字，w13代表句子中...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，包括：获取待识别句子；根据预设的输入模板将所述待识别句子中的每一个字依次作为[w]，输入预先训练好的标注识别模型进行识别，得到对应的标注识别结果；其中，所述输入模板为[CLS],w11,w12,w13,
…
,w1n,[sep],[w],是,[label],实,体,[sep]，[CLS]代表句向量，w11代表句子中的第一个字，w12代表句子中的第二个字，w13代表句子中的第三个字，w1n代表句子中的第n个字，[sep]是分割符，[w]是句子中的字，[label]是模型需要预测的标注；所述预先训练好的标注识别模型是通过基于待训练句子以及所述待训练句子每个字的标注对Bert模型进行训练得到；将属于实体的标注对应的字从所述待识别句子中提取出来，得到命名实体识别结果。2.根据权利要求1所述的命名实体识别方法，其特征在于，在获取待识别句子之前，还包括：将所述Bert模型的输入模板[CLS],w11,w12,w13,
…
,w1n,[sep],w21,w22,w23,
…
,w2n,[sep]替换为所述预设的输入模板[CLS],w11,w12,w13,
…
,w1n,[sep],[w],是,[label],实,体,[sep]；其中，w21代表第二个句子中的第一个字，w22代表第二个句子中的第二个字，w23代表第二个句子中的第三个字，w2n代表第二个句子中的第n个字。3.根据权利要求1所述的命名实体识别方法，其特征在于，每一个实体的标注都由带有第一字母和第二字母结尾的字符组成，非实体字的标注都用第三字母表示。4.根据权利要求3所述的命名实体识别方法，其特征在于，实体的第一个字对应的标注用XB表示，实体的其他字对应的标注均用XN表示，非实体字的标注用S表示，其中，对于不同类型的实体，X不同，X可以是任一一个字母。5.根据权利要求4所述的所述命名实体识别方法，其特征在于，所述标注包括NB，NM，OB，OM，AB，AM，S；其中，NB代表姓名开头，NM代表姓名其他，OB代表机构名开头，OM代表...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人