训练神经网络的方法与装置制造方法及图纸

技术编号:28038599 阅读:14 留言:0更新日期:2021-04-09 23:21
本申请提供一种训练神经网络的方法与装置。涉及人工智能领域,具体涉及神经网络训练领域。该方法包括:根据第一智能体与环境交互获得的第一数据,与第二智能体与环境交互获得的第二数据,确定第一智能体的训练数据,该环境为无线资源调度任务对应的环境;利用第一智能体的训练数据,对第一智能体进行强化学习的训练。由于第一智能体的训练数据既考虑了第一智能体与环境交互的数据,还考虑了第二智能体与该环境交互的数据,有利于提高第一智能体的训练数据的稳定性与准确性,因此,可以提高强化学习训练的收敛能力,从而有利于缓减或者避免将强化学习应用于非稳定环境时,其训练过程进入局部最优点的问题。

【技术实现步骤摘要】
训练神经网络的方法与装置
本申请涉及人工智能领域,并且更具体地,涉及一种训练神经网络的方法和装置。
技术介绍
人工智能(artificialintelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。机器学习是人工智能的核心。机器学习的方法包括监督学习与强化学习。监督学习的目标是给定一个训练数据集,学习训练数据集中输入和输出的映射关系,同时,希望其映射关系还能应用于训练数据集之外的数据,即当新的数据到来时,可以根据该映射关系预测结果。其中,训练数据集为正确的输入输出对的集合。监督学习需要获取带标注的训练数据集,一般来说,对于决策问题,较难获得带标记的训练数据。针对较难获得带标记的训练数据集的问题,例如,决策问题,强化学习被提出来。强化学习是智能体(agent)以“试错”的方式进行学习,通过动作(action)与环境进行交互获得的奖赏(reward)指导行为,目标是使智能体获得最大的奖赏。强化学习不同于监督学习,主要表现在无需训练数据集。强化学习通过“试错”的方式进行学习,其收敛能力与收敛速度远远低于监督学习。尤其,当强化学习应用于环境是非稳定性的任务,例如,应用于通信领域中的无线资源调度任务时,会导致强化学习的训练过程的收敛速度非常缓慢,甚至不收敛,例如,进入局部最优点。因此,提高强化学习的收敛能力是亟待解决的问题。
技术实现思路
本申请提供一种训练神经网络的方法与装置,可以提高强化学习的收敛能力。第一方面,提供一种训练神经网络的方法,该方法包括:根据第一智能体与环境交互获得的第一数据,与第二智能体与环境交互获得的第二数据,确定第一智能体的训练数据,其中,环境为无线资源调度任务对应的环境;利用第一智能体的训练数据,对第一智能体进行强化学习的训练。第一数据表示,通过使第一智能体与环境进行交互所获得的数据。第二数据表示,通过使第二智能体与环境进行交互所获得的数据。第一数据包括第一智能体与环境交互得到的状态与动作。可选地,该第一数据中还可以包括第一智能体与环境交互得到的性能指标。可选地,该第一数据中还可以包括第一智能体与环境交互得到的状态与动作所对应的奖赏。该奖赏可以根据第一智能体与环境交互得到的性能指标获得。第二数据包括第二智能体与环境交互得到的状态与动作。可选地,该第二数据中还可以包括第二智能体与环境交互得到的性能指标。可选地,该第二数据中还可以包括第二智能体与环境交互得到的状态与动作所对应的奖赏。该奖赏可以根据第二智能体与环境交互得到的性能指标获得。应理解,由于第一智能体的训练数据不仅考虑了第一智能体与环境交互的数据,还考虑了第二智能体与该环境交互的数据,这可以提高第一智能体的训练数据的稳定性与准确性,因此,可以在一定程度上提高第一智能体的强化学习训练的收敛能力,从而提高收敛速度。因此,本申请提供的方案,可以提高强化学习算法的收敛能力,从而有利于缓减或者避免将强化学习应用于非稳定环境时,其训练过程进入局部最优点的问题。结合第一方面,在第一方面的一种可能的实现方式中,根据第一智能体与环境交互获得的第一数据,与第二智能体与环境交互获得的第二数据,确定第一智能体的训练数据,包括:将第一数据对应的训练数据,与第二数据对应的训练数据,作为第一智能体的训练数据。第一数据对应的训练数据,表示,由第一数据获得的训练数据。第二数据对应的训练数据,表示,由第二数据获得的训练数据。若第一数据中包括第一智能体与环境交互得到的状态与动作,不包括奖赏,则第一数据对应的训练数据的获取方式为:根据第一智能体与环境交互得到的性能指标获得对应的奖赏;根据所获得的奖赏与该第一数据,获得第一数据对应的训练数据。若第一数据中包括第一智能体与环境交互得到的状态与动作,也包括对应的奖赏,则第一数据对应的训练数据就是第一数据本身。若第一数据中包括第一智能体与环境交互得到的状态与动作,也包括对应的奖赏,还包括第一智能体与环境交互得到的性能指标,则第一数据对应的训练数据为第一数据中包括的状态、动作与奖赏。上述对第一数据对应的训练数据的解释,也适用于解释第二数据对应的训练数据,为了简洁,不再赘述。应理解,通过将第二智能体的训练数据扩充为第一智能体的训练数据,可以提高第一智能体的训练数据的丰富度,从而可以提高第一智能体的训练数据的稳定性与准确性,因此,可以在一定程度上提高第一智能体的强化学习训练的收敛能力,从而提高收敛速度。此外,通过将第二智能体的训练数据扩充为第一智能体的训练数据,可以视为是第一智能体对第二智能体的学习,有利于将非平稳问题转化为准平稳问题,从而有利于提高强化学习算法的收敛能力。结合第一方面,在第一方面的一种可能的实现方式中,第一数据中包括第一智能体与环境交互得到的性能指标,第二数据中包括第二智能体与环境交互得到的性能指标;第一智能体的训练数据中的奖赏根据第一数据中的性能指标与第二数据中的性能指标获得。作为一种可选的实现方式,第一智能体的训练数据中的奖赏通过对第一数据中的性能指标与第二数据中的性能指标的差值进行线性加权获得。作为另一种可选的实现方式,第一智能体的训练数据中的奖赏通过对第一数据中的性能指标与第二数据中的性能指标的差值进行归一化处理获得。应理解,根据第一智能体与环境交互得到的性能指标以及第二智能体与环境交互得到的性能指标,确定第一智能体的训练数据中的奖赏,这样可以提高第一智能体的训练数据中的奖赏的稳定性与准确度,因此,可以在一定程度上提高第一智能体的强化学习训练的收敛能力,从而提高收敛速度。此外,根据第一智能体与环境交互得到的性能指标以及第二智能体与环境交互得到的性能指标,确定第一智能体的训练数据中的奖赏,可以视为建立了非平稳环境的性能指标的基,有利于将非平稳问题转化为准平稳问题,从而有利于提高强化学习算法的收敛能力。结合第一方面,在第一方面的一种可能的实现方式中,第二数据的采集时间靠近第一数据的采集时间。应理解,第二数据的采集时间靠近第一数据的采集时间,可以有利于提供第一智能体的训练数据的准确性。结合第一方面,在第一方面的一种可能的实现方式中,该方法还包括:根据第一数据与第二数据,确定第二智能体的训练数据;利用第二智能体的训练数据对第二智能体进行强化学习的训练。作为一种可选实现方式,利用第二智能体的训练数据对第二智能体进行强化学习的训练,包括:在第一智能体的训练过程中的全部训练轮次中,利用第二智能体的训练数据对第二智能体进行强化学习的训练。例如,第二智能体的训练与第一智能体的训练交替进行。应理解,在本实施例中,通过第一智能体与第二智能体交替与环境进行交互,且第一智能体与第二智能体交替进行训练,可以实现第一智能体与第二智能体之间的互相学习,从而有利于将非平稳问题转化为准平稳问题,从而有利于提高强化学习算法的收敛能力。作为另一种可选本文档来自技高网...

【技术保护点】
1.一种训练神经网络的方法,其特征在于,包括:/n根据第一智能体与环境交互获得的第一数据,与第二智能体与所述环境交互获得的第二数据,确定所述第一智能体的训练数据,其中,所述环境为无线资源调度任务对应的环境;/n利用所述第一智能体的训练数据,对所述第一智能体进行强化学习的训练。/n

【技术特征摘要】
1.一种训练神经网络的方法,其特征在于,包括:
根据第一智能体与环境交互获得的第一数据,与第二智能体与所述环境交互获得的第二数据,确定所述第一智能体的训练数据,其中,所述环境为无线资源调度任务对应的环境;
利用所述第一智能体的训练数据,对所述第一智能体进行强化学习的训练。


2.根据权利要求1所述的方法,其特征在于,所述根据第一智能体与环境交互获得的第一数据,与第二智能体与所述环境交互获得的第二数据,确定所述第一智能体的训练数据,包括:
将所述第一数据对应的训练数据,与所述第二数据对应的训练数据,作为所述第一智能体的训练数据。


3.根据权利要求1所述的方法,其特征在于,所述第一数据中包括所述第一智能体与所述环境交互得到的性能指标,所述第二数据中包括所述第二智能体与所述环境交互得到的性能指标;
所述第一智能体的训练数据中的奖赏根据所述第一数据中的性能指标与所述第二数据中的性能指标获得。


4.根据权利要求3所述的方法,其特征在于,所述第一智能体的训练数据中的奖赏通过对所述第一数据中的性能指标与所述第二数据中的性能指标的差值进行线性加权获得。


5.根据权利要求3所述的方法,其特征在于,所述第一智能体的训练数据中的奖赏通过对所述第一数据中的性能指标与所述第二数据中的性能指标的差值进行归一化处理获得。


6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第二数据的采集时间靠近所述第一数据的采集时间。


7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
根据所述第一数据与所述第二数据,确定所述第二智能体的训练数据;
利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练。


8.根据权利要求7所述的方法,其特征在于,所述利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练,包括:
在所述第一智能体的训练过程中的全部训练轮次中,利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练。


9.根据权利要求7所述的方法,其特征在于,所述利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练,包括:
在所述第一智能体的训练过程中的间隔训练轮次中,利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练。


10.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
根据训练后的所述第一智能体,获取所述环境的资源调度决策。


11.根据权利要求7至9中任一项所述的方法,其特征在于,所述方法还包括:
根据训练后的所述第一智能体与训练后的所述第二智能体,获取所述环境的资源调度决策。


12.一种训练神经网络的装置,其特征在于,包括:
处理单元,用于根据第一智能体与环境交互获得的第一数据,与第二智能体与所述环境交互获得的第二数据,确定所述第一智能体的训练数据,其中,所述环境为无线资源调度任务对应的环境;
训练单元,用于利用所述第一智能体的训练数据,对所述第一智能体进行强化学习的训...

【专利技术属性】
技术研发人员:徐晨王坚皇甫幼睿李榕王俊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1