一种基于无监督生成网络的多编码体系互迁移方法技术

技术编号:30898214 阅读:18 留言:0更新日期:2021-11-22 23:41
本发明专利技术涉及一种基于无监督生成网络的多编码体系互迁移方法,包括步骤:通过采集设备获取编码规则A下的编码与语义描述的数据集;由两种规则编码数据集分别进行等量的随机采样。本发明专利技术的有益效果是:本发明专利技术采用无监督多编码体系互迁移模型,通过采集设备获取数据集,对数据集中数据进行随机采样,并划分为训练集和测试集,用于训练无监督多编码体系互迁移模型,绕开人工标注的流程,工作量小、求证简单、出错率低;本发明专利技术通过无数据标注方法实现无监督的多编码体系互相迁移,克服了传统底层数据治理标准化、统一化方法仅用于设备编码,尚未提出解决方案破解不同编码体系下的自动映射问题。映射问题。映射问题。

【技术实现步骤摘要】
一种基于无监督生成网络的多编码体系互迁移方法


[0001]本专利技术属于电厂信息
,尤其涉及一种基于无监督生成网络的多编码体系互迁移方法。

技术介绍

[0002]目前主流的编码体系包括德国主导的电厂标识系统(KKS)、英国主导的通用核心编码(CCC)、美国主导的标准文档编码(SDN)。这些编码规则在理念上均实现了生产过程的标准化管理,但在细节上仍有较大的区别。由于KKS编码涵盖范围广,包括工艺、系统、设备、部件、位置等属性,符合国内各大电厂的建设要求,因此KKS编码在国内更为流行。目前KKS编码编制工作主要由电力设计院与设备厂家完成,在实际运行过程中会出现编码新增或修改往往会出现不符合标准编码的情况。同时,由于KKS标准编码规则也会更新升级,历史较长的发电企业不仅需要大量人力物力保证机组的正常运行,还要更新现有的系统功能,这给KKS编码工作带来了不小的挑战。经过对现有技术检索,专利技术专利CN201911292634.8提出一种基于改进型KKS编码规则的电厂数据辅助编码系统,该技术方案对原有KKS编码规则进行了改进,能够减少同类型电厂重复编码工作量以及同电厂不同机组之间重复编码工作量,提高编码的效率。另外,专利技术专利CN201410175730.5提出一种电厂设备元件KKS编码自动生成方法,该方法通过建立动态目录树读取设备元件的位置、编码及数量并进行自动编码。上述两种方法仅用于设备编码,尚未提出解决方案破解不同编码体系下的自动映射问题。另外,选择有监督的模型训练方法仍无法绕开人工标注的流程,存在工作量大、求证繁琐、出错率高等问题。综合上述情况,多编码体系下的自动映射任务在集团级发电企业信息化智能化进程中,依旧是一项亟待解决的难题。

技术实现思路

[0003]本专利技术的目的是克服现有技术中的不足,提供一种基于无监督生成网络的多编码体系互迁移方法。
[0004]这种基于无监督生成网络的多编码体系互迁移方法,包括以下步骤:步骤1、通过采集设备获取编码规则A下的编码与语义描述的数据集:,其中为编码,为语义描述,m为编码规则A下的数据集总量;通过采集设备获取编码规则B下的编码与语义描述的数据集:,其中为编码,为语义描述,n为编码规则B下的数据集总量;步骤2、由步骤1获得的两种规则编码数据集和分别进行等量k的随机采样,得到编码规则A下的训练集、编码规则B下的训练集
、编码规则A下的测试集和编码规则B下的测试集, 其中指实数空间,为编码规则A下的编码与语义描述的数据集的采样总数,为训练集采样数量,为编码规则A下的训练集采样数量,为编码规则B下的编码与语义描述的数据集的采样总数,为编码规则B下的训练集采样总数,将数据集、、、保存在存储装置的存储单元内;步骤3、根据步骤2得到的数据集、、、,对编码和语义描述进行分词,建立编码实体字典,其中q为编码实体编号,为编码实体词;对语义描述建立语义描述实体字典,其中p为描述实体编号,为描述实体词;步骤4、根据步骤2得到的数据集、、、,步骤3获得的编码实体字典、语义描述实体字典,对编码与语义描述进行文本向量化表征,得到编码向量和描述向量;步骤5、通过由步骤2获得的编码规则A下的训练集和编码规则B下的训练集,训练无监督多编码体系互迁移模型,无监督多编码体系互迁移模型由编码网络与解码网络组成;步骤6、将无监督多编码体系互迁移模型部署计算模块,并将编码规则A下的编码与语义描述进行输入,得到编码规则B下的编码与语义描述;或将编码规则B下的编码与语义描述进行输入,得到编码规则A下的编码与语义描述。
[0005]作为优选,步骤1中编码由英文字母与数字组成,语义描述由中文组成,编码与语义描述一一对应;编码规则A与编码规则B下的编码与语义描述的数据集的数据总量比例为1:1;编码规则A下的编码与语义描述的数据集中,训练集与测试集的比例为3:2;编码规则B下的编码与语义描述的数据集中,训练集与测试集的比例为7:3。
[0006]作为优选,步骤2中随机采样方法为服从正态分布的随机采样方法。
[0007]作为优选,步骤3采用哈工大LTP方法对编码和语义描述进行分词,并将编码实体字典保存在存储装置的存储单元内。
[0008]作为优选,步骤4具体包括以下步骤:步骤4.1、通过编码实体字典对编码进行分词并向量化,根据最长
编码长度进行占位符填充,得到同长度编码向量;步骤4.2、通过语义描述实体字典对语义描述进行分词并向量化,根据最长语义描述长度进行占位符填充,得到同长度描述向量。
[0009]作为优选,步骤5具体包括以下步骤:步骤5.1、将编码规则A下的训练集进行随机采样并分组拆分构成批次数据,批次数据由编码和编码语义描述(中文描述)组成,将该批次数据作为编码规则A下无监督多编码体系互迁移模型的输入;将编码规则B下的训练集进行随机采样并分组拆分构成批次数据,批次数据由编码和编码语义描述(中文描述)组成,将该批次数据作为编码规则B下的无监督多编码体系互迁移模型的输入;步骤5.2、构建基于门控循环单元(GRU)的编码网络,基于门控循环单元的编码网络由嵌入层与GRU编码层组成,嵌入层将无监督多编码体系互迁移模型的输入值转换为固定尺寸的特征向量,对固定尺寸的特征向量通过GRU编码层计算编码特征:上式中,将编码、 编码语义描述(中文描述)作为编码规则A下嵌入层的输入,得到编码特征向量和编码描述特征向量;将编码特征向量和编码描述特征向量作为编码规则A下门控循环单元的输入,得到隐含编码特征和隐含编码描述特征;将编码、 编码语义描述(中文描述)作为编码规则B下嵌入层的输入,得到编码特征向量和编码描述特征向量;将编码特征向量和编码描述特征向量作为编码规则B下门控循环单元的输入,得到隐含编码特征和隐含编码描述特征;步骤5.3、构建基于门控循环单元(GRU)的解码网络,基于门控循环单元的解码网络由GRU层和全连接层组成:
上式中,将编码规则A下的隐含编码特征和隐含编码描述特征输入到编码规则A下的门控循环单元,解码得到隐含编码解码特征和隐含编码描述解码特征,并将、作为编码规则A下全连接层的输入,得到重构编码特征和重构编码描述特征;将编码规则B下的隐含编码特征和隐含编码描述特征输入到编码规则B下的门控循环单元,解码得到隐含编码解码特征和隐含编码描述解码特征,并将、作为编码规则B下全连接层的输入,得到重构编码特征和重构编码描述特征;将编码规则A下的隐含编码特征和隐含编码描述特征输入编码规则A至编码规则B下的门控循环单元,解码得到隐含编码解码特征和隐含编码描述解码特征,并将、作为编码规则A至编码规则B下全连接层的输入,得到重构编码特征和重构编码描述特征;将编码规则B下的隐含编码特征和隐含编码描述特征输入到编码规则B至编码规则A下的门控循环单元,解码得到隐含编码解码特征和隐含编码描述解码特征,并将、作为编码规则B至编码规则A下全连接层的输入,得到重构编码特征和重构编码描述特征;步骤5.4、由步骤5.3得到的重构结果、、、与步骤5.1中编码规则A下无监督多编码体系互迁移模型的输入、编码规则B下的无监督多编码体系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督生成网络的多编码体系互迁移方法,其特征在于,包括以下步骤:步骤1、通过采集设备获取编码规则A下的编码与语义描述的数据集:,其中为编码,为语义描述,m为编码规则A下的数据集总量;通过采集设备获取编码规则B下的编码与语义描述的数据集:,其中为编码,为语义描述,n为编码规则B下的数据集总量;步骤2、由步骤1获得的编码数据集和分别进行等量k的随机采样,得到编码规则A下的训练集、编码规则B下的训练集、编码规则A下的测试集和编码规则B下的测试集, 其中指实数空间,为编码规则A下的编码与语义描述的数据集的采样总数,为训练集采样数量,为编码规则A下的训练集采样数量,为编码规则B下的编码与语义描述的数据集的采样总数,为编码规则B下的训练集采样总数,将数据集、、、保存在存储装置的存储单元内;步骤3、根据步骤2得到的数据集、、、,对编码和语义描述进行分词,建立编码实体字典,其中q为编码实体编号,为编码实体词;对语义描述建立语义描述实体字典,其中p为描述实体编号,为描述实体词;步骤4、根据步骤2得到的数据集、、、,步骤3获得的编码实体字典、语义描述实体字典,对编码与语义描述进行文本向量化表征,得到编码向量和描述向量;步骤5、通过由步骤2获得的编码规则A下的训练集和编码规则B下的训练集,训练无监督多编码体系互迁移模型,无监督多编码体系互迁移模型由编码网络与解码网络组成;步骤6、将无监督多编码体系互迁移模型部署计算模块,并将编码规则A下的编码与语义描述进行输入,得到编码规则B下的编码与语义描述;或将编码规则B下的编码与语义描述进行输入,得到编码规则A下的编码与语义描述。
2.根据权利要求1所述基于无监督生成网络的多编码体系互迁移方法,其特征在于:步骤1中编码由英文字母与数字组成,语义描述由中文组成,编码与语义描述一一对应;编码规则A与编码规则B下的编码与语义描述的数据集的数据总量比例为1:1;编码规则A下的编码与语义描述的数据集中,训练集与测试集的比例为3:2;编码规则B下的编码与语义描述的数据集中,训练集与测试集的比例为7:3。3.根据权利要求1所述基于无监督生成网络的多编码体系互迁移方法,其特征在于:步骤2中随机采样方法为服从正态分布的随机采样方法。4.根据权利要求1所述基于无监督生成网络的多编码体系互迁移方法,其特征在于:步骤3采用哈工大LTP方法对编码和语义描述进行分词,并将编码实体字典保存在存储装置的存储单元内。5.根据权利要求1所述基于无监督生成网络的多编码体系互迁移方法,其特征在于,步骤4具体包括以下步骤:步骤4.1、通过编码实体字典对编码进行分词并向量化,根据最长编码长度进行占位符填充,得到同长度编码向量;步骤4.2、通过语义描述实体字典对语义描述进行分词并向量化,根据最长语义描述长度进行占位符填充,得到同长度描述向量。6.根据权利要求1或5所述基于无监督生成网络的多编码体系互迁移方法,其特征在于,步骤5具体包括以下步骤:步骤5.1、将编码规则A下的训练集进行随机采样并分组拆分构成批次数据,批次数据由编码和编码语义描述组成,将该批次数据作为编码规则A下无监督多编码体系互迁移模型的输入;将编码规则B下的训练集进行随机采样并分组拆分构成批次数据,批次数据由编码和编码语义描述组成,将该批次数据作为编码规则B下的无监督多编码体系互迁移模型的输入;步骤5.2、构建基于门控循环单元的编码网络,基于门控循环单元的编码网络由嵌入层与GRU编码层组成,嵌入层将无监督多编码体系互迁移模型的输入值转换为固定尺寸的特征向量,对固定尺寸的特征向量通过GRU编码层计算编码特征:上式中,将编码、 编码语义描述作为...

【专利技术属性】
技术研发人员:傅骏伟王豆郭鼎姜志锋孙永平吴林峰郑必君刘凯锐吴业成俞荣栋
申请(专利权)人:浙江浙能技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1