基于多层神经网络的电力实体识别方法、存储介质和设备技术

技术编号:27830173 阅读:9 留言:0更新日期:2021-03-30 11:30
本发明专利技术公开了一种基于多层神经网络的电力实体识别方法、存储介质和设备,将待识别的电力语料输入至预先构建的BERT电力实体识别模型中,得到电力实体标签的哈夫曼编码,通过哈夫曼编码映射得到实体标签,进而得到识别出的实体。通过语言模型训练语料对BERT语言模型进行预训练;对电力语料数据标注电力实体标签,构建电力实体识别语料;根据电力实体标签在电力实体识别语料中的数量构建电力实体标签的哈夫曼编码;在预训练得到的BERT语言模型后增加分类层构成BERT电力实体识别模型,通过电力实体识别语料对BERT电力实体识别模型进行再次训练,得到训练好的BERT电力实体识别模型。提高了电力领域中文命名实体识别的精度。提高了电力领域中文命名实体识别的精度。提高了电力领域中文命名实体识别的精度。

【技术实现步骤摘要】
基于多层神经网络的电力实体识别方法、存储介质和设备


[0001]本专利技术涉及电力实体识别
,具体涉及一种基于多层神经网络的电力实体识别方法、存储介质和设备。

技术介绍

[0002]命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,用于识别输入文本中的人名、地名、组织机构名或者根据特定需求划分的命名实体,旨在将输入文本中的命名实体定位并分类为预先定义的类别。传统命名实体识别涉及包括3大类(实体、时间和数字)和7小类(人名、地名、时间、数值、货币和百分比)的识别任务。传统的命名实体识别方法可以分为基于词典的命名实体识别方法,基于规则的命名实体识别方法以及基于传统机器学习的命名实体识别的方法。
[0003]早期的研究基于规则方法,制定规则、维护规则的人力成本很高。基于机器学方法,其中条件随机场模型(CRF)通过建立对数似然模型进行特征学习,但是训练代价较大,训练速度较慢。基于深度学习模型,可以自动学习特征,长短期记忆网络模型(LSTM)可以通过门控单元学习到长距离特征,注意力机制模型(Attention)可以在众多的输入信息中聚焦于对NER任务更为关键的信息。
[0004]大多数现有的NER方法基于数据驱动来实现,即数据量越大,模型的学习效果越好。但在一些特定领域难以建立足够多的标注语料,模型的效果也会大打折扣。目前构建电力领域命名实体识别工具存在标注语料不充足的问题,此外命名实体识别任务常出现标签不平衡问题,即不同实体出现的频次差异较大,基于该数据训练的模型会导致模型偏向于预测成频次多的标签,语料不足也加大了不平衡的问题处理难度。而人工标注需要有电力领域专业知识,普通人难以直接准确识别电力领域实体,会造成成本高昂、标注较为缓慢问题。

技术实现思路

[0005]为解决现有技术中的不足,本专利技术提供一种基于多层神经网络的电力实体识别方法、存储介质和设备,解决了电力实体识别标签不平衡、识别不准确、人工标注慢的问题。
[0006]为了实现上述目标,本专利技术采用如下技术方案:一种基于多层神经网络的电力实体识别方法,包括步骤:将待识别的电力语料输入至预先构建的BERT电力实体识别模型中,得到电力实体标签的哈夫曼编码,通过哈夫曼编码映射得到实体标签,进而得到识别出的实体。
[0007]进一步的,所述BERT电力实体识别模型的构建步骤包括:
[0008]提取海量文本语料库,对海量本文语料库进行数据预处理,得到语言模型训练语料;
[0009]通过语言模型训练语料对BERT语言模型进行预训练;
[0010]对电力语料数据标注电力实体标签,构建电力实体识别语料;
[0011]根据电力实体标签在电力实体识别语料中的数量构建电力实体标签的哈夫曼编码;
[0012]在预训练得到的BERT语言模型后增加分类层构成BERT电力实体识别模型,通过电力实体识别语料对BERT电力实体识别模型进行再次训练,得到训练好的BERT电力实体识别模型。
[0013]进一步的,所述对海量本文语料库进行数据预处理过程包括:
[0014]对文本分句并构建句子对,句子对用设定的连接标签进行连接,句子对头部加设定的头部标签,句子对尾加设定的尾部标签;其中,原始文本相连的句子构成的句子对为正样本,未连接的句子作为负样本;构建上下句关系预测任务的语料;
[0015]在每一个句子中,随机遮住部分的字用于预测;对于被遮住的字,其一部分用设定字符串标签代替,一部分用随机的字来替换,剩余部分保持词不变,构成用于字预测任务的语料;
[0016]根据遮住位置的真实词生成词标签,根据句子对的关系生成上下句关系标签,从而得到语言模型训练语料。
[0017]进一步的,所述通过语言模型训练语料对BERT语言模型进行预训练,包括步骤:
[0018]BERT语言模型的输入为经过预处理后的文本,输出为字标签和上下句关系标签;
[0019]计算BERT语言模型的输出和真实标签的损失值,将字标签的损失值和上下句关系的损失值加和得到最终的损失值,根据最终损失值采用AdamW优化器训练BERT语言模型,当验证集上模型的损失值不再下降时,停止训练,保存模型参数,得到BERT语言模型。
[0020]进一步的,所述对电力语料数据标注电力实体标签,构建电力实体识别语料,包括:人工标注部分电力语料数据,得到电力实体的知识库;使用该知识库对剩余的电力语料进行非人工电力实体标签标注,得到电力实体识别语料。
[0021]进一步的,所述非人工电力实体标签标注,包括:
[0022]采用BMEO的标记形式构建得到电力实体识别语料,若一个字符单元是一个实体词的开始,则标记为B

实体类别;若一个字符单元是一个实体词的结束,则标记为E

实体类别;若一个字符单元是一个实体词的非开始非结束字符,则标记为M

实体类别;若一个字符不属于实体词则标注为O。
[0023]进一步的,所述分类层包括串接的全连接层和Sigmoid激活函数,分类层的输入为BERT语言模型的输出,分类层的输出为预测的电力实体标签的哈夫曼编码。
[0024]进一步的,训练BERT电力实体识别模型,包括:
[0025]将电力实体识别语料输入BERT电力实体识别模型,输出为预测的电力实体标签的哈夫曼编码,通过哈夫曼编码映射得到对应的电力实体标签;
[0026]采用交叉熵损失计算电力实体识别语料上的真实标签和BERT电力实体识别模型输出标签的差异,并通过AdamW优化器训练BERT电力实体识别模型,当电力实体识别语料验证集上模型的损失不再下降时,停止训练,保存模型参数,得到训练好的BERT电力实体识别模型。
[0027]一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据前述的任一一项基于多层神经网络的电力实体识别方法。
[0028]一种计算设备,包括,
[0029]一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据前述的任一一项基于多层神经网络的电力实体识别方法中的指令。
[0030]本专利技术所达到的有益效果:
[0031]1、本专利技术中实体标签的哈夫曼编码能通过哈夫曼树结构有效缓解了电力领域实体标签不平衡的问题,提高了电力领域中文命名实体识别的精度;
[0032]2、本专利技术中伪标注的数据标注方法,能够有效减少实体识别文本标注的人力成本;
[0033]3、本专利技术通过BERT预训练模型增强字的语义表示,通过微调的方式减少了训练参数,节省了训练时间,数据量较小的情况下模型性能良好。
附图说明
[0034]图1为本专利技术具体实施方式中的数据标注流程图;
[0035]图2为本专利技术具体实施方式中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层神经网络的电力实体识别方法,其特征在于:将待识别的电力语料输入至预先构建的BERT电力实体识别模型中,得到电力实体标签的哈夫曼编码,通过哈夫曼编码映射得到实体标签,进而得到识别出的实体。2.根据权利要求1所述的一种基于多层神经网络的电力实体识别方法,其特征是:所述BERT电力实体识别模型的构建步骤包括:提取海量文本语料库,对海量本文语料库进行数据预处理,得到语言模型训练语料;通过语言模型训练语料对BERT语言模型进行预训练;对电力语料数据标注电力实体标签,构建电力实体识别语料;根据电力实体标签在电力实体识别语料中的数量构建电力实体标签的哈夫曼编码;在预训练得到的BERT语言模型后增加分类层构成BERT电力实体识别模型,通过电力实体识别语料对BERT电力实体识别模型进行再次训练,得到训练好的BERT电力实体识别模型。3.根据权利要求2所述的一种基于多层神经网络的电力实体识别方法,其特征是:所述对海量本文语料库进行数据预处理过程包括:对文本分句并构建句子对,句子对用设定的连接标签进行连接,句子对头部加设定的头部标签,句子对尾加设定的尾部标签;其中,原始文本相连的句子构成的句子对为正样本,未连接的句子作为负样本;构建上下句关系预测任务的语料;在每一个句子中,随机遮住部分的字用于预测;对于被遮住的字,其一部分用设定字符串标签代替,一部分用随机的字来替换,剩余部分保持词不变,构成用于字预测任务的语料;根据遮住位置的真实词生成词标签,根据句子对的关系生成上下句关系标签,从而得到语言模型训练语料。4.根据权利要求3所述的一种基于多层神经网络的电力实体识别方法,其特征是:所述通过语言模型训练语料对BERT语言模型进行预训练,包括步骤:BERT语言模型的输入为经过预处理后的文本,输出为字标签和上下句关系标签;计算BERT语言模型的输出和真实标签的损失值,将字标签的损失值和上下句关系的损失值加和得到最终的损失值,根据最终损失值采用AdamW优化器训练BERT语言模型,当验证集上模型的损失值不再下降时,停止训练,保存模型参数,得到BERT语言模型。5.根据权利要求2所述的一种基于多层神经网络的电力实体识别方法,其特征...

【专利技术属性】
技术研发人员:刘子全李睿凡王泽元胡成博熊永平朱雪琼
申请(专利权)人:国家电网有限公司北京邮电大学国网江苏省电力有限公司江苏省电力试验研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1