基于深度神经网络的设备量测数据处理方法、系统及终端技术方案

技术编号:29873181 阅读:13 留言:0更新日期:2021-08-31 23:48
本发明专利技术公开了基于深度神经网络的设备量测数据处理方法、系统及终端,涉及电站设备数据处理技术领域,其技术方案要点是:通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。本发明专利技术能够对不同设备进行统一、标准化自动编码处理。

【技术实现步骤摘要】
基于深度神经网络的设备量测数据处理方法、系统及终端
本专利技术涉及电站设备数据处理
,更具体地说,它涉及基于深度神经网络的设备量测数据处理方法、系统及终端。
技术介绍
电站安全监测过程中涉及到多种不同类型的传感器设备、运行设备,且各个电站之间管理也存在一定的差异,从而使得数据共享时存在一定的困难。目前,各站的核心基础平台如监控系统、状态监测系统中设备量测数据的定义仅考虑各自系统实现,彼时尚无统一的设备量测数据定义标准。各站工作人员对设备量测数据主观性强,导致文本语言表述简单,包含词汇少,且描述多种多样,相较于PPIS数据规则用词相对不规范,从而导致执行标准和力度不一,各站设备量测数据难以融通。因此,如何研究设计一种基于深度神经网络的设备量测数据处理方法、系统及终端是我们目前急需解决的问题。
技术实现思路
为解决现有技术中的不足,本专利技术的目的是提供基于深度神经网络的设备量测数据处理方法、系统及终端。本专利技术的上述技术目的是通过以下技术方案得以实现的:第一方面,提供了基于深度神经网络的设备量测数据处理方法,包括以下步骤:通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。进一步的,所述识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层;输入层,用于采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列;双向长短期记忆网络层,用于将字符嵌入序列作为双向长短期记忆网络各个时间步的输入,并将正向长短期记忆网络输出的状态序列和反向长短期记忆网络在各个位置输出的状态序列进行拼接,得到由字符向量组成的字符向量序列;向量表示层,用于通过预构建的词典对目标设备量测数据进行分词,并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练,得到由笔画信息的词嵌入向量组成的词向量序列;注意力层,用于将词嵌入向量与相应的字符向量进行关注计算,并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵,以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列;条件随机场层,用于采用条件随机场对量测数据序列进行标注,并以过去的标签和将来的标签来预测当前的标签,得到标签标注后的短文本序列。进一步的,所述聚类设备量测数据的获得过程具体为:利用行业标准术语库扩充短文本序列中的短文本数据;采用word2vec模型对扩充后的文本数据进行训练,得到以字符向量进行文本表示的扩充后的短文本序列;将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征,得到短文本深层语义;采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。进一步的,所述新量测数据预测编码标签的获得过程具体为:获取历史设备量测数据与标准编码,并对历史设备量测数据进行数据清洗以过滤冗余数据;提取清洗后的历史设备量测数据中的词嵌入特征,并以词嵌入特征和标准编码组成训练集后输入到训练模型,训练得到历史设备量测数据与标准编码之间的映射关系;提取目标设备量测数据中的词嵌入特征,并将词嵌入特征输入到训练模型后结合映射关系训练得到新量测数据预测编码标签。进一步的,所述训练模型为卷积神经网络模型,包括:卷积层,用于将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征;词向量矩阵的维度为;表示每个设备量测数据描述含有词的个数;表示每个词的词向量维数;池化层,用于对窗口生成特征降维处理后得到保留最重要特征的简化特征;全连接层,用于依据简化特征输出新量测数据预测编码标签。进一步的,所述卷积层采用尺寸为3的卷积核,表示以3个词为一个窗口进行计算,卷积核的数量为64,卷积之后得到64个向量;池化层采用max-pooling对每个向量降维,只保留每个特征中最大的特征项,并将最大的特征项拼接成整个设备数据描述的表示;全连接层包括两层:第一层先采用Relu激活函数,将向量中小于0的值赋值为0,大于0的值不变;第二层采用Softmax函数得到设备数据描述于最终编码之间的映射关系的概率,且映射关系的概率排列输出新量测数据预测编码标签。进一步的,所述窗口生成特征的计算公式具体为:其中,表示窗口生成特征;表示第i个词到第i+h-1个词;表示偏置顶;表示非线性函数;表示卷积核;h表示卷积核的高度,也表示词数量。进一步的,该方法还包括对新量测数据预测编码标签进行合理性判断;若不合理,则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。第二方面,提供了基于深度神经网络的设备量测数据处理系统,包括:实体识别模块,用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;数据处理模块,用于将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;自动编码模块,用于通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的基于深度神经网络的设备量测数据处理方法。与现有技术相比,本专利技术具有以下有益效果:1、本专利技术对设备量测数据进行预处理,确定实验的训练集和测试集,并对数据进行标注;由于中文无明显的边界,本专利技术采用字符嵌入而不是词嵌入,从而避免分词结果影响识别结果,通过基本字符向量的双向长短期记忆神经网络(Bi-LSTM)得到字符向量表示;然而单个中文字符和由该字符组成的词语代表不同的含义,如果将字符视为原子单位,会忽略不同字符之间的形态相似性,因此采用中文汉字的笔画信息训练词向量(cw2vec),然后通过注意力机制融合向量表示;最后通过条件随机场(CRF)约束预测标签,确保预测的标签是合理的。2、本专利技术通过扩充文本数据并结合深度学习和机器学习方法实现短文本聚类,不仅从数据本身改变文本长度避免数据稀疏造成的结果不理想,而且通过结合深度学习和聚类模型来提高聚类准确率;3、本专利技术利用深度学习的方法来实现设备量测数据描述的自本文档来自技高网...

【技术保护点】
1.基于深度神经网络的设备量测数据处理方法,其特征是,包括以下步骤:/n通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;/n将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;/n通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。/n

【技术特征摘要】
1.基于深度神经网络的设备量测数据处理方法,其特征是,包括以下步骤:
通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;
将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;
通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。


2.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层;
输入层,用于采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列;
双向长短期记忆网络层,用于将字符嵌入序列作为双向长短期记忆网络各个时间步的输入,并将正向长短期记忆网络输出的状态序列和反向长短期记忆网络在各个位置输出的状态序列进行拼接,得到由字符向量组成的字符向量序列;
向量表示层,用于通过预构建的词典对目标设备量测数据进行分词,并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练,得到由笔画信息的词嵌入向量组成的词向量序列;
注意力层,用于将词嵌入向量与相应的字符向量进行关注计算,并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵,以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列;
条件随机场层,用于采用条件随机场对量测数据序列进行标注,并以过去的标签和将来的标签来预测当前的标签,得到标签标注后的短文本序列。


3.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述聚类设备量测数据的获得过程具体为:
利用行业标准术语库扩充短文本序列中的短文本数据;
采用word2vec模型对扩充后的文本数据进行训练,得到以字符向量进行文本表示的扩充后的短文本序列;
将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征,得到短文本深层语义;
采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。


4.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述新量测数据预测编码标签的获得过程具体为:
获取历史设备量测数据与标准编码,并对历史设备量测数据进行数据清洗以过滤冗余数据;
提取清洗后的历史设备量测数据中的词嵌入特征,并以词嵌入特征和标准编码组成训练集后输入到训练模型,训练得到历史设备量测数据与标准编码之间的映射关系;
提取目标设备量测数据...

【专利技术属性】
技术研发人员:罗玮刘金全杨庚鑫许剑
申请(专利权)人:国能大渡河大数据服务有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1