【技术实现步骤摘要】
用于工业系统控制的神经网络训练方法及装置
[0001]本公开涉及工业控制领域,更具体地,涉及一种用于工业系统控制的神经网络训练方法、装置、计算机程序产品和存储介质,以及一种工业系统控制策略制定方法、装置、计算机程序产品和存储介质。
技术介绍
[0002]随着工业发展进程的不断推进,新一轮的工业革命下,信息化技术再一次促进产业变革,人工智能等新技术新理念在各行业兴起。同时,各行业也逐步向数字化、智能化、自动化转型,进入现代化工业新阶段。
[0003]由于工业系统的复杂程度越来越高,其控制难度也越来越大。一些学者提出使用基于人工智能的方法来对工业系统状态进行分析,从而制定出合适的控制策略对工业系统进行控制,以满足越来越丰富的系统需求。例如,可以利用基于人工智能的方法来帮助人们针对自动化设备控制、工业资源调度、电网调度等应用场景制定合适的控制策略。
[0004]目前基于人工智能的工业系统控制往往采用利用历史专家数据来对神经网络进行训练,以使训练好的神经网络模型能够模仿专家的策略来解决工业系统控制问题。然而,专家数据 ...
【技术保护点】
【技术特征摘要】
1.一种用于工业系统控制的神经网络训练方法,包括:获取源域中的专家数据;利用控制策略预测网络来获取目标域中的测试数据;基于所述专家数据和所述测试数据生成训练样本数据;利用数据分类网络来预测第一概率,并基于所述第一概率来确定针对所述训练样本数据的奖励系数,其中,所述第一概率指示所述训练样本数据为专家数据的概率;利用域分类网络来预测第二概率,并基于所述第二概率来确定针对所述奖励系数的奖励系数修正量,其中,所述第二概率指示所述训练样本来自源域的概率;基于所述奖励系数及所述奖励系数修正量来确定修正后的奖励系数;以及基于所述修正后的奖励系数,对所述控制策略预测网络、所述数据分类网络和所述域分类网络进行联合训练。2.如权利要求1所述的神经网络训练方法,其中,所述训练样本数据包括样本序列,其中,所述样本序列中的每个元素包括:所述工业系统的状态信息,和与所述状态信息对应的、工业系统的控制信息,并且所述样本序列中的相邻元素所对应的所述状态信息是相关联的。3.如权利要求2所述的神经网络训练方法,其中,利用控制策略预测网络来获取目标域中的测试数据还包括:通过对工业系统进行测试来确定所述状态信息,并且利用所述控制策略预测网络来预测所述控制信息。4.如权利要求3所述的神经网络训练方法,其中,通过对工业系统进行测试来确定所述状态信息还包括:基于所述状态信息,以及利用所述控制策略预测网络预测得到的所述控制信息,通过对所述工业系统进行测试来确定下一状态信息。5.如权利要求2所述的神经网络训练方法,其中,所述域分类网络包括:第一域分类网络和第二域分类网络,所述第二概率包括第三概率和第四概率,其中,所述第一域分类网络用于基于所述样本序列中的状态信息、控制信息,以及根据所述状态信息和所述控制信息所确定的下一状态信息来计算所述第三概率,所述第二域分类网络用于基于所述样本序列中的所述状态信息和所述控制信息来计算所述第四概率,对所述控制策略预测网络、所述数据分类网络和所述域分类网络进行联合训练,包括:对所述控制策略预测网络、所述数据分类网络、所述第一域分类网络和所述第二域分类网络进行联合训练。6.如权利要求5所述的神经网络训练方法,其中,确定针对所述奖励系数的奖励系数修正量,包括:基于所述第三概率确定第一概率似然比,基于所述第四概率确定第二概率似然比;以及基于所述第一概率似然比和所述第二概率似然比来确定所述奖励系数修正量。7.如权利要求5所述的神经网络训练方法,其中,对所述控制策略预测网络、所述数据
分类网络、所述第一域分类网络和所述第二域分类网络进行联合训练还包括:利用交叉熵损失函数,对所述控制策略预测网络、所述数据分类网络、所述第一域分类网络和所述第二域分类网络进行联合训练,其中,所述交叉熵损失函数包括:所述第一域分类网络对应的交叉熵损失函数,以及所述第二域分类网络对应的交叉熵损失函数。8.如权利要求1所述的神经网络训练方法,其中,对所述控制策略预测网络、所述数据分类网络和所述域分类网络进行联合训练,包括:利用所述数据分类网络对应的交叉熵损失函数,对所述控制策略预测网络、所述数据分类网络和所述域分类网络进行联合训练。9.如权利要求1所述的神经网络训练方法,其中,对所述控制策略预测网络、所述数据分类网络和所述域分类网络进行联合训练包括:基于所述修正后的奖励系数和所述训练样本数据,训练所述控制策略预测网络,以利用所述控制策略预测网络获取使所述修正后的奖励系数收敛的所述测试数据;基于所述训练样本数据,训练所述数据分类网络和所述域分类网络,使得在所述训练样本数据为所述专家数据的情况下,所述数据分类网络预测的所述第一概率接近1,所述域分类网络预测的所述第二概率接近1;在所述训练样本数据为所述测试数据的情况下,所述数据分类网络...
【专利技术属性】
技术研发人员:刘浏,赵沛霖,刘子轩,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。