一种命名实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33047870 阅读：20 留言：0更新日期：2022-04-15 09:32

本发明专利技术涉及计算机深度学习技术领域，特别涉及一种命名实体识别方法、装置、电子设备及存储介质，该方法包括：获取已知命名实体的中文文本并进行预处理，得到多个已知命名实体的文本向量；基于已知命名实体的文本向量，对联合模型进行训练；联合模型包括字符识别模型、分词识别模型和序列标注模型；获取待识别的中文文本并进行预处理，得到待识别的文本向量；将待识别的文本向量输入训练后的联合模型，进行命名实体识别。本发明专利技术能够提高中文文本的实体识别性能。体识别性能。体识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种命名实体识别方法、装置、电子设备及存储介质

[0001]本专利技术涉及计算机深度学习
，特别涉及一种命名实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息化互联网时代的到来，海量多源舆情大数据的收集与分析处理变得更加复杂，传统人工干预为主的信息收集与处理方式已经难以跟上数据增长的速度。同时，以深度学习为核心的新兴人工智能技术飞速发展，扩大了多源文本数据的处理能力，也推动了舆情大数据智能挖掘与分析领域的技术发展。命名实体识别旨在定位并分类文本中的重要实体信息，如人物名称、时间地点、组织机构等专有名词，命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中不可缺少的重要组成部分，是当前智能化舆情分析的热点研究方向之一。目前，由于中文语言的特殊性，通过深度学习模型对中文文本进行命名实体识别的准确率尚有待提高。

技术实现思路

[0003]针对上述至少一部分技术缺陷，本专利技术实施例提供了一种基于联合预训练语言模型的命名实体识别方法、装置、电子设备及存储介质，能够提升对于中文文本的实体识别性能。
[0004]第一方面，本专利技术实施例提供了一种命名实体识别方法，包括：
[0005]获取已知命名实体的中文文本并进行预处理，得到多个已知命名实体的文本向量；
[0006]基于已知命名实体的文本向量，对联合模型进行训练；所述联合模型包括字符识别模型、分词识别模型和序列标注模型；所述字符识别模型为预训练语言模型，用于对输入的文本向量提取字符...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，包括：获取已知命名实体的中文文本并进行预处理，得到多个已知命名实体的文本向量；基于已知命名实体的文本向量，对联合模型进行训练；所述联合模型包括字符识别模型、分词识别模型和序列标注模型；所述字符识别模型为预训练语言模型，用于对输入的文本向量提取字符特征，输出包含字符级语义信息的第一文本表示向量；所述分词识别模型为预训练语言模型，用于对输入的文本向量提取分词特征，输出包含词汇级和语法级语义信息的第二文本表示向量；所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解，得到标识文本向量的实体类别的第一序列；获取待识别的中文文本并进行预处理，得到待识别的文本向量；将待识别的文本向量输入训练后的所述联合模型，进行命名实体识别。2.根据权利要求1所述的方法，其特征在于，所述联合模型还包括规范化层，所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量，进行规范化处理后，输出至所述序列标注模型。3.根据权利要求1所述的方法，其特征在于，对于所述联合模型，融合所述第一文本表示向量和所述第二文本表示向量，包括：对每个字符，将所述第一文本表示向量中表征该字符的特征和所述第二文本表示向量中表征该字符的特征拼接，作为融合后表征该字符的特征。4.根据权利要求2所述的方法，其特征在于，所述联合模型还包括分类器，所述分类器用于基于所述第二文本表示向量进行求解，得到标识文本向量的实体类别的第二序列；所述对联合模型进行训练，包括：将已知命名实体的文本向量输入所述联合模型，得到所述第一序列和所述第二序列；确定已知命名实体的文本向量所对应的标准标注序列；基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数，基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数，对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权，构建所述联合模型的损失函数，其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重；基于所述联合模型的损失函数调整所述联合模型的参数。5.根据权利要求4所述的方法，其特征在于，所述字符识别模型采用BERT模型，所述分词识别模型采用ERNIE模型，所述序列标注模型采用线性链条件随机场。6.一种命名实体识别装置，其...

【专利技术属性】
技术研发人员：彭实，陈文，谢晓丹，翟佳，何志豪，刘威，董毅，张子恺，
申请(专利权)人：北京环境特性研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人