基于改进BERT模型的电力审计文本分类方法及装置制造方法及图纸

技术编号:35660450 阅读:18 留言:0更新日期:2022-11-19 16:58
本发明专利技术公开一种基于改进BERT模型的电力审计文本分类方法及装置,其中分类方法包括:获取电力文本;构建EPAT

【技术实现步骤摘要】
基于改进BERT模型的电力审计文本分类方法及装置


[0001]本专利技术属于自然语言处理(Natural Language Processing,NLP)
,特别涉及一种基于改进BERT模型的电力审计文本分类方法及装置。

技术介绍

[0002]随着信息技术的发展,word2vec、RNN、LSTM等基于机器学习及神经网络的文本分类技术被先后提出。
[0003]近年来,“预训练+微调”范式,逐渐成为文本分类的最新研究方向,相较于之前的全监督神经模型,能够取得更好的效果。然而,现有的预训练模型,都是使用通用语料进行预训练的,并未使用与电力领域、特别是电力审计领域相关的文本进行预训练。
[0004]电力企业审计文本都是特定领域的短文本,具有文本相似度高,分类边界模糊等鲜明的行业特征,与通用交流语言存在不同,直接利用现有的文本分类模型无法考虑电力审计文本在领域内的特性,因此,进一步设计模型以适应这些特性,成为需要解决的重要问题。

技术实现思路

[0005]针对上述问题,本专利技术提供一种基于改进BERT模型的电力审计文本分类方法及装置,具体技术方案如下:一种基于改进BERT模型的电力审计文本分类方法,包括以下步骤:获取电力文本;构建EPAT

BERT模型,其中,EPAT

BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型;将电力文本输入EPAT

BERT模型进行预训练,获得预训练后的EPAT

BERT模型;其中,预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练;对预训练后的EPAT

BERT模型进行微调后开展性能评价,确定文本分类EPAT

BERT模型;将待分类的电力审计文本输入文本分类EPAT

BERT模型,输出电力审计文本的类别标签。
[0006]进一步的,获取电力文本具体为:将电力领域的专业词汇整理为词表V,在Web数据集中搜索包含词表V中词汇的网页,获得集合W;使用基于正则表达式的抽取算法,抽取集合W中的文本,获得预训练语料库C。
[0007]进一步的,进行字粒度掩码语言模型预训练具体如下:标示预训练语料库C中每个字对应的位置输入向量,获得向量化的输入文本;通过字粒度码语言模型对向量化的输入文本中的句子前后添加标识符,进行句子分割获得数据集A;
将数据集A按照设定比例划分为预训练数据集和第一验证集;将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练。
[0008]进一步的,进行实体粒度的掩码语言模型预训练具体如下:引入电力相关的知识图谱标记出预训练数据集和第一验证集中包含的实体;实体粒度的掩码语言模型将对应实体中的每个字替换为掩码标记,每个掩码标记位置对应一个隐含层向量,通过连接一个全连接层,预测每个掩码标记对应位置的字;采用损失函数衡量预测值和真实值之间的差异,使用预训练数据集对实体粒度的掩码语言模型预训练达到设定训练轮次后,在第一验证集上计算损失函数值,当损失函数值不再下降时,停止实体粒度的掩码语言模型预训练。
[0009]进一步的,对预训练后的EPAT

BERT模型进行微调,具体如下:抽取一定量电力审计文本形成数据集,采用字的向量表示、字的位置编码以及字的分段标示数据集中的每个字,获得向量化文本T;采用设定比例将向量化文本T划分为微调数据集、第二验证集和测试集;EPAT

BERT模型在向量化文本T的开头加入一个特殊标记,将特殊标记输出位置的向量作为整个输入文本的向量表示;在EAPT

BERT上层添加一个全连接层,添加全连接层后的EPAT

BERT模型在微调数据集的每个训练轮次后在验证集上计算F1值,当验证集上的F1值出现下降时,停止训练,完成EPAT

BERT模型的微调。
[0010]进一步的,对微调后的EPAT

BERT模型开展性能评价,确定文本分类EPAT

BERT模型具体如下:计算微调后的EPAT

BERT模型在测试集下的分类准确度;比对EPAT

BERT模型和其他预训练语言模型在测试集下的各类评价指标,若比对结果符合设定要求,即确定训练好的EPAT

BERT模型为文本分类EPAT

BERT模型,其中,各类评价指标包括分类准确度。
[0011]进一步的,将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练具体如下:字粒度掩码语言模型将预训练数据集的每个句子中的汉字随机按照设定比例进行掩码,通过掩码位置对应的输出向量预测被掩码的汉字,采用损失函数衡量预测值和真实值之间的差异,使用预训练数据集对字粒度掩码语言模型预训练达到设定训练轮次后,在第一验证集上计算损失函数值,当损失函数值不再下降时,停止字粒度掩码语言模型预训练。
[0012]进一步的,标示预训练语料库C中每个字对应的位置输入向量具体如下:采用字的向量、字的绝对位置编码和分段编码,标示每个字w对应的位置输入向量Vw,具体如下:式中,W
w
表示字的向量,即字的初始词向量,用来区分不同汉字;P
w
表示字的位置,使用绝对位置编码,来向输入数据中融入序列位置信息;S
w
表示分段编码。
[0013]进一步的,还包括以下步骤:对文本分类EPAT

BERT模型进行消融实验,通过各类
评价指标评价实验结果确定预训练效果。
[0014]进一步的,各类评价指标还包括精准率、召回率和F1值。
[0015]进一步的,F1值根据EPAT

BERT模型在验证集上的精准率和召回率确定。
[0016]进一步的,实体部分为与电力领域的专业词汇表以及语法分析工具包中相近或相同的词汇、语法。
[0017]本专利技术还提供一种基于改进BERT模型的电力审计文本分类装置,包括:文本处理模块,用于获取电力文本;模型构建模块,用于构建EPAT

BERT模型,其中,EPAT

BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型;模型预训练模块,用于将电力文本输入EPAT

BERT模型进行预训练,获得预训练后的EPAT

BERT模型;其中,预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练;模型微调模块,用于对预训练后的EPAT

BERT模型进行微调后开展性能评价,确定文本分类EPAT

BERT模型;文本分类模块,用于将待分类的电力审计文本输入文本分类EPAT

BERT模型,输出电力审计文本的类别标签。
[0018]进一步的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进BERT模型的电力审计文本分类方法,其特征在于,包括以下步骤:获取电力文本;构建EPAT

BERT模型,其中,EPAT

BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型;将电力文本输入EPAT

BERT模型进行预训练,获得预训练后的EPAT

BERT模型;其中,预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练;对预训练后的EPAT

BERT模型进行微调后开展性能评价,确定文本分类EPAT

BERT模型;将待分类的电力审计文本输入文本分类EPAT

BERT模型,输出电力审计文本的类别标签。2.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,获取电力文本具体为:将电力领域的专业词汇整理为词表V,在Web数据集中搜索包含词表V中词汇的网页,获得集合W;使用基于正则表达式的抽取算法,抽取集合W中的文本,获得预训练语料库C。3.根据权利要求2所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,进行字粒度掩码语言模型预训练具体如下:标示预训练语料库C中每个字对应的位置输入向量,获得向量化的输入文本;通过字粒度码语言模型对向量化的输入文本中的句子前后添加标识符,进行句子分割获得数据集A;将数据集A按照设定比例划分为预训练数据集和第一验证集;将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练。4.根据权利要求3所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,进行实体粒度的掩码语言模型预训练具体如下:引入电力相关的知识图谱标记出预训练数据集和第一验证集中包含的实体;实体粒度的掩码语言模型将对应实体中的每个字替换为掩码标记,每个掩码标记位置对应一个隐含层向量,通过连接一个全连接层,预测每个掩码标记对应位置的字;采用损失函数衡量预测值和真实值之间的差异,使用预训练数据集对实体粒度的掩码语言模型预训练达到设定训练轮次后,在第一验证集上计算损失函数值,当损失函数值不再下降时,停止实体粒度的掩码语言模型预训练。5.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,对预训练后的EPAT

BERT模型进行微调,具体如下:抽取一定量电力审计文本形成数据集,采用字的向量表示、字的位置编码以及字的分段标示数据集中的每个字,获得向量化文本T;采用设定比例将向量化文本T划分为微调数据集、第二验证集和测试集;EPAT

BERT模型在向量化文本T的开头加入一个特殊标记,将特殊标记输出位置的向量作为整个输入文本的向量表示;在EAPT

BERT上层添加一个全连接层,添加全连接层后的EPAT

BERT模型在微调数据集的每个训练轮次后在验证集上计算F1值,当验证集上的F1值出现下降时,停止训练,完成
EPAT

BERT模型的微调。6.根据权利要求5所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,对微调后的EPAT

BERT模型开展性能评价,确定文本分类EPAT

BERT模型具体如下:计算微调后的EPAT

BERT模型在测试集下的分类准确度;比对EPAT

BERT模型和其他预训练语言模型在测试集下的各类评价指标,若比对结果符合设定要求,即确定训练好的EPAT

BERT模型为文本分类EPAT

BERT模型,其中,各类评价指标包括分类准确度。7.根据权利要求3所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练具体如下:字粒度掩码语言模型将预训练数据集的每个句子中的汉字随机按照设定比例进行掩码,通过掩码位置对应的输出向量预测被掩码的汉字,采用损失函数衡量预测值和真实值之间的差异,使用预训练数据集对字粒度掩码语言模型预训练达到设定训练轮次后,在第一验证集上计算损失函数值,当损失函数值不再下降时,停止字粒度掩码语言模型预训练。8.根据权利要求3、4或7任一所述的基于改进BERT模型的电力审计文本分类方法,其特征在于,标示预训练语料库C中每个字对应的位置输入向量具体如下:采用字的向量、字的绝对位置编码和分段编码,标示每个字w对应的位置输入向量Vw,具体如下:式中,W
w
表示字的向量,即字的初始词向量,用来区分不同汉字;P
w
表示字的位置,使用绝对位置编码,来向输入数据中融入序列位置信息;S
w
表示分段编码。9.根据权利要求6...

【专利技术属性】
技术研发人员:孟庆霖穆健戴斐斐赵宝国王霞崔霞宋岩葛晓舰吕元旭赵战云唐厚燕王瑞许良徐业朝徐晓萱马剑李常春郭保伟李婧
申请(专利权)人:天津天源电力工程有限公司天津市城西广源电力工程有限公司天津市宁河区宁东盛源电力工程有限公司国网天津市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1