一种基于组合算法的电力设备缺陷文本特征的分类方法技术

技术编号:33153623 阅读:13 留言:0更新日期:2022-04-22 14:09
本申请公开一种基于组合算法的电力设备缺陷文本特征的分类方法,包括:根据电力设备的缺陷描述建立词典和停用词表;对缺陷文本进行Jieba分词;根据词向量表示方法分布式表示分词后的文本;根据Attention机制进行权重分配,根据CNN算法进行特征的进一步提取,再根据Attention机制进行特征权重的分配,得到Attention

【技术实现步骤摘要】
一种基于组合算法的电力设备缺陷文本特征的分类方法


[0001]本申请实施例涉及电力设备缺陷文本的分类领域,特别涉及一种基于组合算法的电力设备缺陷文本特征的分类方法。

技术介绍

[0002]电力设备在长期运行过程中,会产生大量的缺陷文本数据。这些文本数据对电力设备的运行状态的评价十分重要,但是由于文本数据难以处理,大量的电力设备缺陷等级划分需要人工来完成,不仅限制了工作效率,而且由于工作人员知识水平以及经验的差异,难以准确的判断电力设备的缺陷等级。目前根据缺陷描述文本,将电力设备缺陷特征划分为一般、重大、紧急三个等级。
[0003]电力设备缺陷文本分类方法本质上是中文文本分类技术,将人工智能算法运用到中文文本分类,不仅提高了工作效率,减少人力的参与,而且提高了文本分类的准确性。
[0004]传统的人工智能算法有支持向量机、决策树、朴素贝叶斯等,这些算法在简单文本分类任务中都有不俗的表现,但是依然存在文本特征表达弱、无法学习特征之间的相互联系、需要人为提取特征等不足,而且传统的人工智能算法模型结构简单,缺少对大规模复杂问题的泛化能力,导致模型实用性差,分类效果不佳。

技术实现思路

[0005]本申请提供了一种基于组合算法的电力设备缺陷文本特征的分类方法,以解决现有技术中文本特征表达弱、传统算法模型分类准确性低的问题。
[0006]本申请提供了一种基于组合算法的电力设备缺陷文本特征的分类方法,所述分类方法包括:
[0007]根据电力设备的缺陷描述建立词典和停用词表;
[0008]根据所述词典,对缺陷文本进行分词,得到文本词语;
[0009]根据词向量表示方法对所述文本词语进行分布式表示,得到一级词向量;
[0010]根据Attention机制对所述一级词向量的表示结果进行初步的权重分配,得到初步带权重词向量;
[0011]根据CNN算法对所述初步带权重词向量进行特征的进一步提取,得到池化层提取特征;
[0012]通过全连接层,将所述池化层提取特征输入到Softmax分类器中,得到电力设备缺陷文本特征的划分。
[0013]进一步地,所述根据词向量表示方法对所述文本词语进行分布式表示前还包括:对所述文本词语预处理;根据Attention机制对预处理后的一级词向量的表示结果进行初步的权重分配,将得到的带权重的词向量输入到CNN算法进行特征的进一步提取。
[0014]进一步地,所述分类方法还包括:
[0015]根据Attention机制将所述池化层提取特征进行特征权重的再次分配,得到
Attention

CNN提取特征。
[0016]进一步地,所述根据Attention机制将所述池化层提取特征进行特征权重的再次分配,得到Attention

CNN提取特征的步骤包括:
[0017]在CNN算法中的池化层后定义Attention层,将所述池化层提取特征输入对应的所述Attention层再次进行特征权重分配,得到Attention

CNN提取特征。
[0018]进一步地,所述分类方法还包括:
[0019]使用SVM算法代替所述Softmax分类器,形成SVM分类器。
[0020]进一步地,所述分类方法还包括:
[0021]根据RNN算法提取所述一级词向量的表示结果的文本特征,得到RNN提取特征;
[0022]将所述Attention

CNN提取特征和所述RNN提取特征融合,得到融合特征;
[0023]将所述融合特征通过全连接层输入到SVM分类器中,得到电力设备缺陷文本特征的划分。
[0024]本申请提供的一种基于组合算法的电力设备缺陷文本特征的分类方法,通过将Attention机制、CNN和RNN算法相结合,首先结合自定义的词典和停用词表,借助jieba分词方法实现中文文本的准确分词,然后利用Word2vec词向量表示方法,学习特征词语之间的相关性,并将特征以词向量的形式表示;将词向量分别输入到Attention和RNN结构中;利用RNN提取文本特征;利用Attention机制赋予每个特征不同的权重;将带权重的特征输入到CNN中,在CNN的池化层之后再次使用Attention实现特征的进一步提取和权重的再次分配;最后将Attention

CNN提取到的特征和RNN提取到的特征融合,实现文本特征的全面提取;将结果输入到SVM分类器,输出文本的类别。本专利技术引入Attention机制,赋予每个特征不同的权重,同时有效结合RNN和CNN算法,将RNN算法输出的特征和Attention

CNN输出的特征融合,实现特征的全面提取,提高了电力设备缺陷文本分类的准确性。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本申请一种基于组合算法的电力设备缺陷文本特征的分类方法的流程图。
具体实施方式
[0027]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]随着深度学习算法的发展,中文文本分类方法进一步丰富。深度学习算法基于人工神经网络,模型结构复杂。使用分布式(嵌入式)词向量表示方法,相较于传统的one

hot、TF

idf等文本表示方法,能学习到文本特征之间得相互联系,而且深度学习算法自动提取
文本特征,减少了人为因素对模型效果的影响,提高了模型的泛化能力。
[0029]Jieba分词,是一个使用性很强的中文分词程序,具有高性能、准确率高、扩展性强的特点,Jieba分词提供精确模式、全模式等分词模式,本专利技术基于自主构建的词典和停用词表,采用精确模式实现缺陷文本描述的准确分词。
[0030]Word2vec是一种词向量表示方法,该模型是Google在2013年提出的,从大量的文本语料中以无监督方式获取词向量之间的语义特征,并以神经网络模型实现词语特征的分布式表示。分布式的表示方式,避免了one

hot方式的单词和向量的一一对应,加快了后续模型的运算效率。
[0031]Attention机制即注意力机制,基于人的视觉,通过快速扫描全局,获得重点关注的目标,同时抑制其他目标的权重。将Attention机制引入中文文本分类,提高了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于组合算法的电力设备缺陷文本特征的分类方法,其特征在于,所述分类方法包括:根据电力设备的缺陷描述建立词典和停用词表;根据所述词典,对缺陷文本进行分词,得到文本词语;根据词向量表示方法对所述文本词语进行分布式表示,得到一级词向量;根据Attention机制对所述一级词向量进行初步的权重分配,得到初步带权重词向量;根据CNN算法对所述初步带权重词向量进行特征的进一步提取,得到池化层提取特征;通过全连接层,将所述池化层提取特征输入到Softmax分类器中,得到电力设备缺陷文本特征的划分。2.根据权利要求1所述的一种基于组合算法的电力设备缺陷文本特征的分类方法,其特征在于,所述根据词向量表示方法对所述文本词语进行分布式表示前还包括:对所述文本词语预处理;根据Attention机制对预处理后的一级词向量进行初步的权重分配,将得到的带权重的词向量输入到CNN算法进行特征的进一步提取。3.根据权利要求2所述的一种基于组合算法的电力设备缺陷文本特征的分类方法,其特征在于,所述分类方法还包括:根据Attention机制将所述池化层提取特征进行特征权重的再次分配,得到Attention
‑<...

【专利技术属性】
技术研发人员:于虹王宣军平慧彦
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1