基于深度学习的输变电设备缺陷文本分类方法及系统技术方案

技术编号:28215614 阅读:44 留言:0更新日期:2021-04-24 14:58
本发明专利技术提供一种基于深度学习的输变电设备缺陷文本分类方法及系统,方法包括步骤:S1:将获取的输变电设备缺陷文本预处理,然后进行词嵌入得到带电力语义特征的第一词向量;S2:通过双向长短时记忆网络获取输变电设备缺陷文本前向和后向特征信息,输出隐藏层状态向量;S3:利用自注意力机制对隐藏层状态向量进行加权变换,获取深层语义特征,得到最终的待分类句向量;S4:将待分类向量经过全连接层输出至Softmax分类器,获得输变电设备缺陷文本分类结果。该方法能解决现有的电力领域缺陷文本分类的人工成本高,分类结果易受分类技术人员经验影响及传统文本分类方法不适用于电力领域的技术性问题。领域的技术性问题。领域的技术性问题。

【技术实现步骤摘要】
基于深度学习的输变电设备缺陷文本分类方法及系统


[0001]本专利技术属于自然语言处理
,具体涉及一种基于深度学习的输变电设备缺陷文本分类方法及系统。

技术介绍

[0002]随着智能电网的不断发展,电网在日常运行和维护过程中,会产生大量的缺陷文本数据;而缺陷文本数据的分析汇总是电网设备缺陷故障处理并分析的原始依据。目前,电网输变电设备缺陷文本分析主要依靠人工完成,成本高,效率低,且易受人工经验差异的影响导致分类结果有偏差。人工智能和自然语言处理技术的发展为电力设备缺陷文本挖掘提供了可能。现有的文本分类技术有朴素贝叶斯、支持向量机、决策树等,但传统的基于机器学习相关算法的文本分类器难以挖掘出文本的深层特征,不利于文本数据的进一步分析研究和应用,同时电力领域的文本包含大量的专业用语和特殊符号,专业性强,深度学习中通用的分类模型难以得到直接的迁移应用,而目前电力文本挖掘尚处于起步阶段。

技术实现思路

[0003]有鉴于此,本专利技术的目的之一在于提供一种基于深度学习的输变电设备缺陷文本分类方法,该方法能适用于电力领域缺陷文本分类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的输变电设备缺陷文本分类方法,其特征在于,包括以下步骤:S1:将获取的输变电设备缺陷文本预处理,然后将预处理后的输变电设备缺陷文本进行词嵌入得到带电力语义特征的第一词向量;S2:通过双向长短时记忆网络获取输变电设备缺陷文本前向和后向特征信息,输出隐藏层状态向量;S3:利用自注意力机制对隐藏层状态向量进行加权变换,获取深层语义特征,得到最终的待分类句向量;S4:将所述待分类句向量经过全连接层输出至Softmax分类器,获得输变电设备缺陷文本分类结果。2.根据权利要求1所述的方法,其特征在于,所述预处理包括对所述输变电设备缺陷文本进行分词、去除停用词和统一化用语处理。3.根据权利要求1所述的方法,其特征在于,所述步骤S1中将预处理后的输变电设备缺陷文本进行词嵌入得到带电力语义特征的第一词向量的步骤具体包括:读取预处理后的输变电设备缺陷文本,统计词频信息;构建词典,并初始化哈夫曼树以及随机初始化词向量;以行为单位训练模型,获取当前行中一个输入样本;累积上下文词向量中每个维度的值并求平均得到投影层向量;遍历当前词到根节点经过的每个中间节点;计算中间节点对应梯度g*学习速率,刷新投影层到该中间节点的误差向量,刷新中间节点向量,刷新上下文词向量。4.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括以下步骤:定义前向LSTM结构和后向LSTM结构,采用动态RNN单元对网络输出的结果进行拼接,然后输入到下一层双向长短时记忆网络,将最后一层Bi

LSTM输出的结果通过split方法分割成前向和后向的输出;将前向和后向的输出相加得到最后的隐藏层状态。5.根据权利要求4所述的方法,其特征在于,所述LSTM结构中每一时间状态通过以下方式进行更新公式:其中,为LSTM状态和LSTM内部状态的激励函数,设置为双曲正切函数tanh,b为偏置常量,下标中i、f、o分别表示输入门、遗忘门和输出门;g为随时间步更新的控制门单元, 为当前t时刻状态, 为前一时间状态, 为当前时刻的输入, 为权重值, 为
输入门权重值, 为输出门权重值, 为遗忘门权重值, 为当前时刻的抽象化信息, 为前一时间步的抽象化信息, 为权重系数。6.根据权利要求1所述的方法,其特征在于,所述步骤S3中深层语义特征通过以下...

【专利技术属性】
技术研发人员:张葛祥朱明王茜杨强杨强
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1