当前位置: 首页 > 专利查询>国网江苏省电力有限公司江苏省电力试验研究院有限公司专利>正文

一种基于深度学习的电力中文文本挖掘方法及装置制造方法及图纸

技术编号：39497413 阅读：10 留言：0更新日期：2023-11-24 11:26

本发明专利技术提出了一种基于深度学习的电力中文文本挖掘方法及装置，包括：对电力故障缺陷文本进行预处理，建立电网本体词典；利用中文文本扩增进行类别平衡化，得到数字化的故障文本，结合集成模型，以神经网络模型为元学习器，以随机森林模型为次级学习器，建立电力设备缺陷深度分析模型，将非结构化缺陷描述转化为缺陷部件

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的电力中文文本挖掘方法及装置

[0001]本专利技术涉及一种基于深度学习的电力中文文本挖掘方法及装置，属于电气工程故障诊断

。

技术介绍

[0002]电力文本挖掘应用需求场景很多，具有很高的研究价值，由于我国相关研究起步较晚，知识和技术相对匮乏，所以目前文本挖掘技术在我国电力行业应用较少，大部分研究内容还属于试验阶段，相较于自然语言处理在互联网
、
医学等领域成熟的应用相比，电力中文文本处理应用效益未曾显现
。
[0003]在现有技术中，电力海量信息的结构类型繁杂，其中中文文本信息常常因重要的事情才被记录下来，即被记录的信息可认为具有高价值，因此电力信息文本挖掘是从高价值信息蓝海中搜寻重要征兆，是电力设备健康状态预警与管控重点关注的技术，然而，对于文本信息的记录，大多没有固定的逻辑与格式，往往伴有个体主观性
、
书写随意
、
逻辑不清
、
口语化表达
、
错别字等，使得在处理文本信息数据时，不能很好地结构化管理，降低了文本信息数据的价值
。
[0004]因此，亟需提出一种文本挖掘技术帮助巡检人员结构化处理缺陷文本数据
、
自动化判断设备故障严重等级，其对及时发现设备缺陷及检修计划的安排具有重要意义
。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中的不足，提供一种基于深度学习的电力中文文本挖掘方法及装置，能够满足快速/>、
高效的结构化管理电力设备的文本数据和挖掘文本数据之间潜在关联关系的实际需求，提高了文本信息数据的价值
。
[0006]为达到上述目的，本专利技术是采用下述技术方案实现的：
[0007]第一方面，本专利技术提供了一种基于深度学习的电力中文文本挖掘方法，包括以下步骤：
[0008]S1
，获取电力故障缺陷文本，并对所述电力故障缺陷文本进行预处理，建立电网本体词典；
[0009]S2
，根据所述电网本体词典，利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化；
[0010]S3
，基于类别平衡化后的电力故障缺陷文本的数据集，得到数字化的故障文本；
[0011]S4
，结合集成模型，以神经网络模型为元学习器，以随机森林模型为次级学习器，建立电力设备缺陷深度分析模型；
[0012]S5
，基于数字化的故障文本，将非结构化缺陷描述转化为缺陷部件
、
缺陷属性的结构化信息，融合缺陷文本中附属结构化信息，对所述电力设备缺陷深度分析模型进行预训练，训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择；
[0013]S6
，根据所述电力设备缺陷深度分析模型，输入大批量电力设备缺陷文本，得到其
中的电力实体词以及这段文本反映的电力设备可能存在的故障类型及其部位以及故障发生的季节信息，对电力设备家族性缺陷和季节性故障进行挖掘分析
。
[0014]进一步的，所述步骤
S1
中，对电力故障缺陷文本进行预处理包括：去除无关用词
、
停用词
。
[0015]进一步的，所述步骤
S1
中，对电力故障缺陷文本进行预处理，建立电网本体词典，包括以下步骤：
[0016]S101
，采用基于通用字典的结巴分词模型对电力故障缺陷文本进行初始分词，对分词结果按照词频进行排序，专家对高频词语进行复查，形成初始词典；
[0017]S102
，将所述初始字典作为外部词典导入；
[0018]S103
，将人工甄选的词语加入到词典之中，重复步骤
S102
，直至分词效果达到满意为止
。
[0019]进一步的，所述步骤
S2
中，利用中文文本扩增的方法包括：
[0020]利用
EDA、Enhance_word2vec、RoFormer
‑
Sim
对所述电力故障缺陷文本中的中文文本进行扩增
。
[0021]EDA
在小文本数据集的应用表现较为良好，能很好提升文本分类的性能
。
主要包含以下4种方式
(1)
同义词替换：以一定概率
P
随机抽取1个词
(
不包括停用词
)
，然后从词典找出抽取词的近义词表达，并将其替换
。
这个方法一般不会改变原句的语义以及结构
。(2)
随机概率插入：以一定概率
P
随机抽取1个词
(
不包括停用词
)
，然后选择一个该词的同义词，插入原句子中的随机位置
。(3)
随机概率交换：以一定概率
P
随机交换两个词的位置
。(4)
随机概率删除：对于每一个单词，都有一定
P
的概率会被随机删除
。
[0022]进一步的，所述步骤
S3
，基于类别平衡化后的电力故障缺陷文本的数据集，得到数字化的故障文本，包括：
[0023]根据所述电网本体词典，通过手工构建以及结合正则表达式匹配的方式，对文本中的地名
、
变电站名进行去除，利用
Word2vec
模型的文本向量化表示，将所述电力故障缺陷文本中的中文文本的数据转化为计算机能处理的数字化数据
。
[0024]进一步的，所述步骤
S5
中，对所述电力设备缺陷深度分析模型进行训练，具体有以下步骤：
[0025]S501
，基于所述电网本体词典，建立训练集，将所述训练集以概率
P
通过
EDA
方法
、Enhance_Word2vec
方法
、RoFormer
‑
Sim
模型进行数据扩增，在所述类别平衡化后的电力故障缺陷文本的数据集层面增强模型的泛化能力，生成第一新数据集；
[0026]S502
，将所述第一新数据集依次进行五折交叉验证划分，对所述神经网络模型进行训练，将预测数据集进行组成，构成第二新数据集；
[0027]S503
，将所述第二新数据集在所述随机森林模型进行训练，最终得到预测结果
。
[0028]进一步的，所述步骤5中，将非结构化缺陷描述转化为缺陷部件
、
缺陷属性的结构化信息，包括：
[0029]统计电网中电力设备的故障类别
、
故障严重程度
、
故障时间以及故障次数
。
[0030]进一步的，所述电网中电力设备为变压器
。
[0031]第二方面，本专利技术提供一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习的电力中文文本挖掘方法，其特征在于，包括以下步骤：获取电力故障缺陷文本，并对所述电力故障缺陷文本进行预处理，建立电网本体词典；根据所述电网本体词典，利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化；基于类别平衡化后的电力故障缺陷文本的数据集，得到数字化的故障文本；结合集成模型，以神经网络模型为元学习器，以随机森林模型为次级学习器，建立电力设备缺陷深度分析模型；基于数字化的故障文本，将非结构化缺陷描述转化为缺陷部件
、
缺陷属性的结构化信息，融合缺陷文本中附属结构化信息，对所述电力设备缺陷深度分析模型进行预训练，训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择；根据参数优选后的电力设备缺陷深度分析模型，输入多组电力设备缺陷文本，得到其中的电力实体词以及这段文本反映的电力设备可能存在的故障类型及其部位以及故障发生的季节信息，对电力设备家族性缺陷和季节性故障进行挖掘分析
。2.
根据权利要求1所述的基于深度学习的电力中文文本挖掘方法，其特征在于，对电力故障缺陷文本进行预处理包括：去除无关用词
、
停用词
。3.
根据权利要求1所述的基于深度学习的电力中文文本挖掘方法，其特征在于，对电力故障缺陷文本进行预处理，建立电网本体词典，包括以下步骤：
SA
，采用基于通用字典的结巴分词模型对电力故障缺陷文本进行初始分词，对分词结果按照词频进行排序，专家对高频词语进行复查，形成初始词典；
SB
，将所述初始字典作为外部词典导入；
SC
，将人工甄选的词语加入到词典之中，重复步骤
SB
，直至分词效果达到满意为止
。4.
根据权利要求1所述的基于深度学习的电力中文文本挖掘方法，其特征在于，利用中文文本扩增的方法包括：利用
EDA
方法
、Enhance_Word2vec
方法
、RoFormer
‑
Sim
模型对所述电力故障缺陷文本中的中文文本进行扩增
。5.
根据权利要求1所述的基于深度学习的电力中文文本挖掘方法，其特征在于，基于类别平衡化后的电力故障缺陷文本的数据集，得到数字化的故障文本，具体包括：根据所述电网本体词典，通过手工构建以及结合正则表达式匹配的方式，对文本中的地名
、
变电站名进行去除，利用
Word2vec
模型的文本向量化表示，将所述电力故障缺陷文本中的中文文本的数据转化为...

【专利技术属性】
技术研发人员：王同磊，李群，杨景刚，谢天喜，蔚超，吴鹏，邵剑，许建刚，李建生，陆云才，石琦，梁家碧，李晓涵，
申请(专利权)人：国网江苏省电力有限公司江苏省电力试验研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人