【技术实现步骤摘要】
基于卷积神经网络的二次设备故障短文本数据分类方法
本专利技术属于中文自然语言处理技术,具体涉及一种基于卷积神经网络的二次设备故障短文本数据分类方法。
技术介绍
在智能电网的建设运行过程中,电力大数据爆发式的出现,这些数据根据2013年中国电机工程学会信息化专委会编著的中国电力大数据发展白皮书大体可以分为两类,一类是以输出功率、设备及其环境温湿度、光模块光强等为代表时序化的结构化数据,另一类是以文本、图像、音频等为代表的难以使用关系型数据库表达的半结构化与非结构化数据。结构化数据挖掘工作已较为成熟,然而由于电网运行过程中往往出现的都是正常数据,只有极少量的故障数据,所带来的数据价值密度较低问题制约着非结构化数据的挖掘。其中,对于二次设备运行过程中出现的短文本故障信息也是泛在物联网建设过程中重点关注的信息。二次设备在运行过程中,积累了很多故障缺陷短文本数据,这些数据往往由运检人员手工纪录,完成对缺陷的等级分类工作,而由于运检人员的主观性与经验性的不同,难以做到准确分类,并且由于故障数据较多,需要大量人力参与,效率难以保证 ...
【技术保护点】
1.一种基于卷积神经网络的二次设备故障短文本数据分类方法,其特征在于:包括以下步骤:/n(1)建立样本数据集,采集电力系统中二次设备在运行过程中产生的故障短文本数据,所述故障短文本数据按成不同的缺陷等级进行标记,并将故障短文文本数据划分为训练集、验证集和测试集;/n(2)文本预处理,构建停用词词典和二次设备专有词典,所述的停用词词典用于过滤去除二次设备故障短文本信息中的噪声,噪声包括二次设备故障短文本数据中无实际物理意义的词汇及标点符号;所述二次设备专有词典用于识别二次设备的属性数据,属性数据包括二次设备的名称、型号、厂站名称和路线名称;/n(3)词向量建模,对预处理后的文 ...
【技术特征摘要】
1.一种基于卷积神经网络的二次设备故障短文本数据分类方法,其特征在于:包括以下步骤:
(1)建立样本数据集,采集电力系统中二次设备在运行过程中产生的故障短文本数据,所述故障短文本数据按成不同的缺陷等级进行标记,并将故障短文文本数据划分为训练集、验证集和测试集;
(2)文本预处理,构建停用词词典和二次设备专有词典,所述的停用词词典用于过滤去除二次设备故障短文本信息中的噪声,噪声包括二次设备故障短文本数据中无实际物理意义的词汇及标点符号;所述二次设备专有词典用于识别二次设备的属性数据,属性数据包括二次设备的名称、型号、厂站名称和路线名称;
(3)词向量建模,对预处理后的文本数据建立word2vec模型,获取样本数据集二次设备故障短文本数据进行词向量训练,挖掘词语之间上下文语义关系,建立词语与词向量映射关系;
(4)构建多尺寸卷积神经网络二次设备故障短文本数据分类模型,将步骤(3)训练完成的词向量作为卷积神经网络模型的输入矩阵,采用多尺寸卷积核将二次设备故障短文本数据矩阵按不同单词数量组合方式卷积运算得到多个词组序列,输出到池化层,经过池化层进行最大池化提取特征,降低特征维数,并筛选其中权重值最高的词组序列;
(5)预测分类结果,经过卷积层和池化层的结构后,设置一层全连接层,将不同池化层输出的向量进行特征提取、组合,将组合后的向量输出到之后的SoftMax层进行分类判别;获取属于每个故障等级类型的概率,在概率中获取最大的概率,并将最大的概率对应的文本类型作为待分类文本的类型进行输出。
2.根据权利要求1所述的基于卷积神经网络的二次设备故障短文本数据分类方法,其特征在于:步骤(1)所述的故障短文文本数据按照国家电网公司继电保护状态评价导则划分为“严重缺陷”、“危急缺陷”、“一般缺陷”三类故障缺陷特征标签,随机组合后按照7:2:1的比例划分训练集、验证集和测试集。
3.根据权利要求1所述的基于卷积神经网络的二次设备故障短文本数据分类方法,其特征在于:步骤(2)所述的文本预处理包括对于二次设备故障短文本数据中出现的噪声过滤、词干特征提取、词性还原、实体名词以及专有名词识别;通过对原始语料库文本进行特征排序,构建停用词词典以及二次设备专有词典,依据词典内容对语料库进行遍历,过滤数据噪声以及对数据特征提取。
4.根据权利要求1所述的基于卷积神经网络的二次设备故障短文本数据分类方法,其特征在于:步骤(3)中Word2vec词向量模型的构建过程如下:
(31)根据词语之间上下文的关系将中文文本表示成结构化词向量,采用WordEmbedding构建向量映射,使映射之后产生的词向量不丢失词语上下文语义信息,降低文本向量维数;
(32)构建三层结构,分别为输入层、隐含层以及输出层,通过将输入层得到的离散型数值进入到隐含层线性单元训练,最后在输出层使用SoftMax回归;
(33)根据步骤(31)和步骤(32)构建得到两种...
【专利技术属性】
技术研发人员:王开科,南东亮,孙永辉,吴杰,于同伟,卜强生,庞福滨,杨毅,杨飞,钱海,赵启,张路,王利超,卢盛阳,
申请(专利权)人:国网新疆电力有限公司电力科学研究院,国家电网有限公司,河海大学,国网四川省电力公司电力科学研究院,国网江苏省电力有限公司电力科学研究院,国网辽宁省电力有限公司电力科学研究院,
类型:发明
国别省市:新疆;65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。