电力领域模型预训练方法、精调方法、装置及设备制造方法及图纸

技术编号：35112726 阅读：65 留言：0更新日期：2022-10-01 17:28

本发明专利技术公开了一种电力领域模型预训练方法、精调方法、装置及设备，其中，所述预训练方法包括：获取原始电力语料数据；对所述原始电力语料数据进行处理，所述处理至少包括分词处理；对处理后得到的电力语料数据，采用全词遮蔽的方法，构建电力领域模型的预训练语料；构建电力领域模型，所述电力领域模型包括注意力矩阵，所述注意力矩阵引入了词与词之间的相对位置编码；利用所述预训练语料，对所述电力领域模型进行预训练。本发明专利技术提供的技术方案，能够提升预训练模型的迁移能力。够提升预训练模型的迁移能力。够提升预训练模型的迁移能力。

全部详细技术资料下载

【技术实现步骤摘要】
电力领域模型预训练方法、精调方法、装置及设备

[0001]本专利技术涉及人工智能
，具体涉及一种电力领域模型预训练方法、精调方法、装置及设备。

技术介绍

[0002]现有的自然语言处理 (NLP，Natural Language Processing)模型包含的参数可以达到上百万。因此，训练出具有良好性能的NLP模型需要大量的训练样本和标签数据。通常，采用人工对训练样本进行标注。因此，获取大量的标签数据，需要较高的人工成本。
[0003]在此背景下，预训练加精调的模式广泛应用于NLP模型训练。首先利用成本较低且容易获取的训练数据训练一个预训练模型。通过这种方式，预训练模型可以学习到语言学的通用知识。因此，针对不同的下游任务，可以利用其相关的标签数据对其相关的参数进行精调，使得训练的NLP模型具有良好性能。
[0004]但是，在自然语言处理模型的预训练阶段，由于并非是针对下游任务进行训练的，而是针对预训练阶段的任务（例如预测遮蔽的词语）进行训练的，因此会导致预训练出的模型的迁移能力弱，即在对预训练模型进行精调得到针对下游任务的模型时，模型的适应性差，预测精度低。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供了一种电力领域模型预训练方法、精调方法、装置及设备，以解决现有自然语言处理的预训练模型的迁移能力弱的问题。
[0006]根据第一方面，本专利技术实施例提供了一种电力领域模型预训练方法，所述方法包括：获取原始电力语料数据；对所述原始电力语料数据进行处理，所述处理...

【技术保护点】

【技术特征摘要】
1.一种电力领域模型预训练方法，其特征在于，所述方法包括：获取原始电力语料数据；对所述原始电力语料数据进行处理，所述处理至少包括分词处理；对处理后得到的电力语料数据，采用全词遮蔽的方法，构建电力领域模型的预训练语料；构建电力领域模型，所述电力领域模型包括注意力矩阵，所述注意力矩阵引入了词与词之间的相对位置编码；利用所述预训练语料，对所述电力领域模型进行预训练。2.根据权利要求1所述的方法，其特征在于，引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为：Attention_rel(Q，K，V)= Attention (Q，K，V)+rel其中，Attention (Q，K，V)为未引入所述相对位置编码的注意力矩阵的算法公式，V是输入特征的向量，Q、K是计算Attention权重的特征向量，rel是词与词之间的相对位置有关的参数。3.根据权利要求1所述的方法，其特征在于，所述对所述原始电力语料数据进行处理，包括：采用BERT
‑
CRF模型和电力领域词典对所述原始电力语料数据进行分词处理，所述BERT
‑
CRF模型是利用电力分词语料进行训练得到。4.根据权利要求1所述的方法，其特征在于，所述对处理后得到的电力语料数据，采用全词遮蔽的方法，构建电力领域模型的预训练语料，包括：对所述处理后得到的电力语料数据采用预设概率进行随机全词遮蔽，将所有需要遮蔽的词语对应的字符中的一部分替换为随机字符、另一部分替换为遮蔽符号、剩余部分保留原来的字符不变。5.一种电力领域模型的精调方法，其特征在于，包括：针对下游任务构建训练用数据集；将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器，并根据所述下游任务构建输出层网络结构，将所述输出层网络结构连接至所述底层编码器之后，得到针对下游任务的电力领域模型，所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的，且所述电力领域预训练模型包括注意力矩阵，所述注意力矩阵引入了词与词之间的相对位置编码；利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练。6.根据权利要求5所述的方法，其特征在于，所述下游任务为分类任务，所述输出层网络结构为全连接网络；且所述底层编码器与所述全连接网络之间还包括第一网络结构；所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求平均，得到第一编码向量，再对各个词的所述第一编码向量取平均得到所述底层编码器的编码向量；所述全连接网络用于基于所述底层编码器的编码向量输出每个类别对应的置信度。7.根据权利要...

【专利技术属性】
技术研发人员：宋博川，张强，周飞，刘同阳，范晓宣，贾全烨，
申请(专利权)人：国网智能电网研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人