一种命名实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33047870 阅读:20 留言:0更新日期:2022-04-15 09:32
本发明专利技术涉及计算机深度学习技术领域,特别涉及一种命名实体识别方法、装置、电子设备及存储介质,该方法包括:获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;基于已知命名实体的文本向量,对联合模型进行训练;联合模型包括字符识别模型、分词识别模型和序列标注模型;获取待识别的中文文本并进行预处理,得到待识别的文本向量;将待识别的文本向量输入训练后的联合模型,进行命名实体识别。本发明专利技术能够提高中文文本的实体识别性能。体识别性能。体识别性能。

【技术实现步骤摘要】
一种命名实体识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机深度学习
,特别涉及一种命名实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息化互联网时代的到来,海量多源舆情大数据的收集与分析处理变得更加复杂,传统人工干预为主的信息收集与处理方式已经难以跟上数据增长的速度。同时,以深度学习为核心的新兴人工智能技术飞速发展,扩大了多源文本数据的处理能力,也推动了舆情大数据智能挖掘与分析领域的技术发展。命名实体识别旨在定位并分类文本中的重要实体信息,如人物名称、时间地点、组织机构等专有名词,命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中不可缺少的重要组成部分,是当前智能化舆情分析的热点研究方向之一。目前,由于中文语言的特殊性,通过深度学习模型对中文文本进行命名实体识别的准确率尚有待提高。

技术实现思路

[0003]针对上述至少一部分技术缺陷,本专利技术实施例提供了一种基于联合预训练语言模型的命名实体识别方法、装置、电子设备及存储介质,能够提升对于中文文本的实体识别性能。
[0004]第一方面,本专利技术实施例提供了一种命名实体识别方法,包括:
[0005]获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
[0006]基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
[0007]获取待识别的中文文本并进行预处理,得到待识别的文本向量;
[0008]将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。
[0009]可选地,所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。
[0010]可选地,对于所述联合模型,融合所述第一文本表示向量和所述第二文本表示向量,包括:
[0011]对每个字符,将所述第一文本表示向量中表征该字符的特征和所述第二文本表示向量中表征该字符的特征拼接,作为融合后表征该字符的特征。
[0012]可选地,所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向
量进行求解,得到标识文本向量的实体类别的第二序列;
[0013]所述对联合模型进行训练,包括:
[0014]将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;
[0015]确定已知命名实体的文本向量所对应的标准标注序列;
[0016]基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;
[0017]基于所述联合模型的损失函数调整所述联合模型的参数。
[0018]可选地,所述字符识别模型采用BERT模型,所述分词识别模型采用ERNIE模型,所述序列标注模型采用线性链条件随机场。
[0019]第二方面,本专利技术实施例还提供了一种命名实体识别装置,包括:
[0020]获取模块,用于获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
[0021]训练模块,用于基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
[0022]处理模块,用于获取待识别的中文文本并进行预处理,得到待识别的文本向量;
[0023]识别模块,用于将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。
[0024]可选地,所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。
[0025]可选地,所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;
[0026]所述训练模块对联合模型进行训练,包括执行如下操作:
[0027]将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;
[0028]确定已知命名实体的文本向量所对应的标准标注序列;
[0029]基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;
[0030]基于所述联合模型的损失函数调整所述联合模型的参数。
[0031]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器和处理器,所述存储
器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
[0032]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
[0033]本专利技术提供了一种命名实体识别方法、装置、电子设备及存储介质,本专利技术采用联合模型进行命名实体识别,联合模型包括预训练的字符识别模型和分词识别模型,其中字符识别模型用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量,分词识别模型用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量,利用融合后的第一文本表示向量和第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列,从而实现对中文文本中的人物、组织机构、地点等命名实体进行识别,本专利技术综合了中文文本中的字符级、词汇级和语法级语义信息,能够有效提高实体识别性能。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;获取待识别的中文文本并进行预处理,得到待识别的文本向量;将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。2.根据权利要求1所述的方法,其特征在于,所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。3.根据权利要求1所述的方法,其特征在于,对于所述联合模型,融合所述第一文本表示向量和所述第二文本表示向量,包括:对每个字符,将所述第一文本表示向量中表征该字符的特征和所述第二文本表示向量中表征该字符的特征拼接,作为融合后表征该字符的特征。4.根据权利要求2所述的方法,其特征在于,所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;所述对联合模型进行训练,包括:将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;确定已知命名实体的文本向量所对应的标准标注序列;基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;基于所述联合模型的损失函数调整所述联合模型的参数。5.根据权利要求4所述的方法,其特征在于,所述字符识别模型采用BERT模型,所述分词识别模型采用ERNIE模型,所述序列标注模型采用线性链条件随机场。6.一种命名实体识别装置,其...

【专利技术属性】
技术研发人员:彭实陈文谢晓丹翟佳何志豪刘威董毅张子恺
申请(专利权)人:北京环境特性研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1