电力领域模型预训练方法、精调方法、装置及设备制造方法及图纸

技术编号:35112726 阅读:65 留言:0更新日期:2022-10-01 17:28
本发明专利技术公开了一种电力领域模型预训练方法、精调方法、装置及设备,其中,所述预训练方法包括:获取原始电力语料数据;对所述原始电力语料数据进行处理,所述处理至少包括分词处理;对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料;构建电力领域模型,所述电力领域模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;利用所述预训练语料,对所述电力领域模型进行预训练。本发明专利技术提供的技术方案,能够提升预训练模型的迁移能力。够提升预训练模型的迁移能力。够提升预训练模型的迁移能力。

【技术实现步骤摘要】
电力领域模型预训练方法、精调方法、装置及设备


[0001]本专利技术涉及人工智能
,具体涉及一种电力领域模型预训练方法、精调方法、装置及设备。

技术介绍

[0002]现有的自然语言处理 (NLP,Natural Language Processing)模型包含的参数可以达到上百万。因此,训练出具有良好性能的NLP模型需要大量的训练样本和标签数据。通常,采用人工对训练样本进行标注。因此,获取大量的标签数据,需要较高的人工成本。
[0003]在此背景下,预训练加精调的模式广泛应用于NLP模型训练。首先利用成本较低且容易获取的训练数据训练一个预训练模型。通过这种方式,预训练模型可以学习到语言学的通用知识。因此,针对不同的下游任务,可以利用其相关的标签数据对其相关的参数进行精调,使得训练的NLP模型具有良好性能。
[0004]但是,在自然语言处理模型的预训练阶段,由于并非是针对下游任务进行训练的,而是针对预训练阶段的任务(例如预测遮蔽的词语)进行训练的,因此会导致预训练出的模型的迁移能力弱,即在对预训练模型进行精调得到针对下游任务的模型时,模型的适应性差,预测精度低。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种电力领域模型预训练方法、精调方法、装置及设备,以解决现有自然语言处理的预训练模型的迁移能力弱的问题。
[0006]根据第一方面,本专利技术实施例提供了一种电力领域模型预训练方法,所述方法包括:获取原始电力语料数据;对所述原始电力语料数据进行处理,所述处理至少包括分词处理;对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料;构建电力领域模型,所述电力领域模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;利用所述预训练语料,对所述电力领域模型进行预训练。
[0007]可选的,引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为:Attention_rel(Q,K,V)= Attention (Q,K,V)+rel其中,Attention (Q,K,V)为未引入所述相对位置编码的注意力矩阵的算法公式,rel是与词与词之间的相对位置有关的参数。
[0008]可选的,所述对所述原始电力语料数据进行处理,包括:采用BERT

CRF模型和电力领域词典对所述原始电力语料数据进行分词处理,所述BERT

CRF模型是利用电力分词语料进行训练得到。
[0009]可选的,所述对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料,包括:对所述处理后得到的电力语料数据采用预设概率进行随机全词遮蔽,将所有需要遮蔽的词语对应的字符中的一部分替换为随机字符、另一部分替换为遮蔽符号、剩余部分保留原来的字符不变。
[0010]根据第二方面,本专利技术实施例提供了一种电力领域模型的精调方法,包括:针对下游任务构建训练用数据集;将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器,并根据所述下游任务构建输出层网络结构,将所述输出层网络结构连接至所述底层编码器之后,得到针对下游任务的电力领域模型,所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的,且所述电力领域预训练模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练。
[0011]可选的,所述下游任务为分类任务,所述输出层网络结构为全连接网络;且所述底层编码器与所述全连接网络之间还包括第一网络结构;所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求平均,得到第一编码向量,再对各个词的所述第一编码向量取平均得到所述底层编码器的编码向量;所述全连接网络用于基于所述底层编码器的编码向量输出每个类别对应的置信度。
[0012]可选的,所述下游任务为序列标注任务,所述输出层网络结构为条件随机场,且所述底层编码器与条件随机场层之间还包括Dropout层和映射层;所述底层编码器的输出为(batch_size,time_steps,hidden_size)形状的张量,其中,batch_size为批大小、time_steps为序列长度、hidden_size为所述底层编码器的隐层单元大小;所述底层编码器的输出经过所述Dropout层和所述映射层转换为(batch_size, time_steps, num_classes)形状的张量,其中,num_classes为目标类的数量;所述条件随机场层用于基于所述(batch_size, time_steps, num_classes)形状的张量得到整个序列中每个元素的标签。
[0013]根据第三方面,本专利技术实施例提供了一种电力领域模型预训练装置,包括:获取模块,用于获取原始电力语料数据;处理模块,用于对所述原始电力语料数据进行处理,所述处理至少包括分词处理;第一构建模块,用于对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料;第二构建模块,用于构建电力领域模型,所述电力领域模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;预训练模块,用于利用所述预训练语料,对所述电力领域模型进行预训练。
[0014]根据第四方面,本专利技术实施例提供了一种电力领域模型的精调装置,包括:第三构建模块,用于针对下游任务构建训练用数据集;
第四构建模块,用于将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器,并根据所述下游任务构建输出层网络结构,将所述输出层网络结构连接至所述底层编码器之后,得到针对下游任务的电力领域模型,所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的,且所述电力领域预训练模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;训练模块,用于利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练。
[0015]根据第五方面,本专利技术实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述第一方面所述的任一种电力领域模型预训练方法、或实现上述第二方面所述的任一种电力领域模型的精调方法。
[0016]根据第六方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现上述第一方面所述的任一种电力领域模型预训练方法、或实现上述第二方面所述的任一种电力领域模型的精调方法。
[0017]本专利技术实施例中,通过全词遮蔽的方式构建电力领域模型的预训练语料,避免了使用字符遮蔽方式构建电力领域模型的预训练语料时,模型能轻易猜出遮蔽的词语,而忽略了词语和整个句子之间的语义信息的问题,可以提升预训练模型的迁移能力。另外,本专利技术实施例还在构建的预训练模型,即电力领域模型中引入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力领域模型预训练方法,其特征在于,所述方法包括:获取原始电力语料数据;对所述原始电力语料数据进行处理,所述处理至少包括分词处理;对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料;构建电力领域模型,所述电力领域模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;利用所述预训练语料,对所述电力领域模型进行预训练。2.根据权利要求1所述的方法,其特征在于,引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为:Attention_rel(Q,K,V)= Attention (Q,K,V)+rel其中,Attention (Q,K,V)为未引入所述相对位置编码的注意力矩阵的算法公式,V是输入特征的向量,Q、K是计算Attention权重的特征向量,rel是词与词之间的相对位置有关的参数。3.根据权利要求1所述的方法,其特征在于,所述对所述原始电力语料数据进行处理,包括:采用BERT

CRF模型和电力领域词典对所述原始电力语料数据进行分词处理,所述BERT

CRF模型是利用电力分词语料进行训练得到。4.根据权利要求1所述的方法,其特征在于,所述对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料,包括:对所述处理后得到的电力语料数据采用预设概率进行随机全词遮蔽,将所有需要遮蔽的词语对应的字符中的一部分替换为随机字符、另一部分替换为遮蔽符号、剩余部分保留原来的字符不变。5.一种电力领域模型的精调方法,其特征在于,包括:针对下游任务构建训练用数据集;将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器,并根据所述下游任务构建输出层网络结构,将所述输出层网络结构连接至所述底层编码器之后,得到针对下游任务的电力领域模型,所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的,且所述电力领域预训练模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练。6.根据权利要求5所述的方法,其特征在于,所述下游任务为分类任务,所述输出层网络结构为全连接网络;且所述底层编码器与所述全连接网络之间还包括第一网络结构;所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求平均,得到第一编码向量,再对各个词的所述第一编码向量取平均得到所述底层编码器的编码向量;所述全连接网络用于基于所述底层编码器的编码向量输出每个类别对应的置信度。7.根据权利要...

【专利技术属性】
技术研发人员:宋博川张强周飞刘同阳范晓宣贾全烨
申请(专利权)人:国网智能电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1