System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及电力文本信息分类,特别是涉及一种电力文本信息分类方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、电力系统的运行和维护过程中会需要获取运行数据、设备的监测数据以及外部环境数据等多种类型的数据,这些数据多以电力设备台账、操作票、巡检试验记录、检修计划及故障报告等载体等文本形式进行记载,因此,从电力系统产生的文本数据中提取有用信息并将这些信息应用于电力系统的运维过程中,已经成为了提升电力系统运维效率的重要手段。
2、随着需要处理的数据量的逐渐增加,现有技术中主要通过传统机器学习算法和深度学习算法来处理电力文本信息。其中,传统机器学习算法只能对文本进行分类,不能直接生成语义向量,对上下文语义理解不够准确;深度学习算法通常需要大量的标记数据对模型进行训练,预处理和计算过程均较为复杂,需要大量的样本和计算资源。因此,通过以上两种方法提取大量文本数据中的信息时,准确率和效率较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够高效、准确地判断电力设备运行状态的电力文本数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种电力文本数据处理方法,所述方法包括:
3、获取电力系统运行时的初始文本数据,初始文本数据用于表征电力系统中设备的运行状态;
4、获取预训练的目标文本分类模型,目标文本分类模型包括目标特征提取网络和目标分类网络;
5、通过目标特征提取
6、在其中一个实施例中,通过目标特征提取网络对初始文本数据进行特征提取,得到文本特征数据矩阵,包括:
7、获取初始文本数据的词向量,分别计算任意两个词向量之间的相似度值,并根据相似度值的大小确定与各相似度值对应的权重值;
8、将各相似度值和相似度对应的各权重值相乘,得到初始文本数据的注意力权重矩阵,注意力权重矩阵用于表征初始文本数据中各关键词的关联程度;
9、将注意力权重矩阵与各词向量相乘,得到文本特征数据矩阵。
10、在其中一个实施例中,所述方法还包括:
11、获取训练文本数据,对训练文本数据中的文本进行遮蔽处理,生成包含遮蔽词的文本数据;基于训练文本数据和包含遮蔽词的文本数据训练待训练特征提取网络,得到遮蔽词预测损失值;
12、根据训练文本数据中语义相关联的词语生成正样本集合,根据训练文本数据中语义不相关联的词语生成负样本集合,根据正样本集合和负样本集合训练待训练特征提取网络,得到关联预测损失值;
13、根据遮蔽词预测损失值和关联预测损失值计算待训练特征提取网络的总损失值,根据总损失值调整待训练特征提取网络的超参数,以总损失值小于第一预设损失阈值的待训练特征提取网络作为目标特征提取网络。
14、在其中一个实施例中,在通过目标特征提取网络对初始文本数据进行特征提取,得到文本特征数据矩阵之前,所述方法还包括:
15、分别训练多个待训练特征提取网络,得到多个目标特征提取网络;其中,多个目标特征提取网络的超参数不同,超参数包括网络层数、隐藏层大小或自注意力个数;
16、根据初始文本数据的数据量、各目标特征提取网络的计算资源需求和准确率从多个目标特征提取网络中确定用于提取特征的目标特征提取网络。
17、在其中一个实施例中,目标分类网络包括线性层,所述方法还包括:
18、将训练文本数据输入目标特征提取网络,得到目标特征提取网络输出的训练文本特征数据;
19、将文本特征作为线性层的输入,得到文本特征的分类结果和与分类结果对应的分类预测损失值;
20、根据分类预测损失值调整线性层的超参数,以分类预测损失值小于第二预设损失阈值的线性层作为目标线性层,得到目标分类网络。
21、在其中一个实施例中,所述方法还包括:
22、获取电力系统运行时的原始文本数据,去除原始文本数据中的符号和停用词,得到清洗后的文本数据;其中,原始文本数据为电力系统中设备的运行数据中的文本数据;
23、对清洗后的文本数据进行语句拼接、随机删除或近义词替换处理,得到增强后的文本数据;
24、对增强后的文本数据进行分词处理,得到初始文本数据。
25、第二方面,本申请还提供了一种电力文本数据处理装置,包括:
26、数据获取模块,用于获取电力系统运行时的初始文本数据,初始文本数据用于表征电力系统中设备的运行状态;
27、模型获取模块,用于获取预训练的目标文本分类模型,所述目标文本分类模型包括目标特征提取网络和目标分类网络;
28、数据处理模块,用于通过目标特征提取网络对初始文本数据进行特征提取,得到文本特征数据矩阵,并通过目标分类网络对文本特征数据矩阵进行线性整合,得到线性整合特征数据,线性整合特征数据用以确定初始文本数据的类别,得到分类结果,分类结果用于确定电力系统中各设备的运行状态是否正常。
29、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
30、获取电力系统运行时的初始文本数据,初始文本数据用于表征电力系统中设备的运行状态;
31、获取预训练的目标文本分类模型,目标文本分类模型包括目标特征提取网络和目标分类网络;
32、通过目标特征提取网络对初始文本数据进行特征提取,得到文本特征数据矩阵,并通过目标分类网络对文本特征数据矩阵进行线性整合,得到线性整合特征数据,线性整合特征数据用以确定初始文本数据的类别,得到分类结果,分类结果用于确定电力系统中设备的运行状态是否正常。
33、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
34、获取电力系统运行时的初始文本数据,初始文本数据用于表征电力系统中设备的运行状态;
35、获取预训练的目标文本分类模型,目标文本分类模型包括目标特征提取网络和目标分类网络;
36、通过目标特征提取网络对初始文本数据进行特征提取,得到文本特征数据矩阵,并通过目标分类网络对文本特征数据矩阵进行线性整合,得到线性整合特征数据,线性整合特征数据用以确定初始文本数据的类别,得到分类结果,分类结果用于确定电力系统中设备的运行状态是否正常。
37、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
38、获取电力系统运行时的初始文本数据,初始文本数据本文档来自技高网...
【技术保护点】
1.一种电力文本数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标特征提取网络对所述初始文本数据进行特征提取,得到文本特征数据矩阵,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,在所述通过所述目标特征提取网络对所述初始文本数据进行特征提取,得到文本特征数据矩阵之前,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述目标分类网络包括线性层,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.一种电力文本数据处理装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种电力文本数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标特征提取网络对所述初始文本数据进行特征提取,得到文本特征数据矩阵,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,在所述通过所述目标特征提取网络对所述初始文本数据进行特征提取,得到文本特征数据矩阵之前,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述目标分类网络包括线性层,所述方法还包括:
6.根据权利要求1...
【专利技术属性】
技术研发人员:谢志成,周海滨,潘志城,伍衡,邓军,王竣,崔彦捷,张良,陈伟,侯明春,庄池杰,
申请(专利权)人:中国南方电网有限责任公司超高压输电公司电力科研院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。