训练神经网络的方法与装置制造方法及图纸

技术编号：28038599 阅读：14 留言：0更新日期：2021-04-09 23:21

本申请提供一种训练神经网络的方法与装置。涉及人工智能领域，具体涉及神经网络训练领域。该方法包括：根据第一智能体与环境交互获得的第一数据，与第二智能体与环境交互获得的第二数据，确定第一智能体的训练数据，该环境为无线资源调度任务对应的环境；利用第一智能体的训练数据，对第一智能体进行强化学习的训练。由于第一智能体的训练数据既考虑了第一智能体与环境交互的数据，还考虑了第二智能体与该环境交互的数据，有利于提高第一智能体的训练数据的稳定性与准确性，因此，可以提高强化学习训练的收敛能力，从而有利于缓减或者避免将强化学习应用于非稳定环境时，其训练过程进入局部最优点的问题。

全部详细技术资料下载

【技术实现步骤摘要】
训练神经网络的方法与装置
本申请涉及人工智能领域，并且更具体地，涉及一种训练神经网络的方法和装置。
技术介绍
人工智能(artificialintelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。机器学习是人工智能的核心。机器学习的方法包括监督学习与强化学习。监督学习的目标是给定一个训练数据集，学习训练数据集中输入和输出的映射关系，同时，希望其映射关系还能应用于训练数据集之外的数据，即当新的数据到来时，可以根据该映射关系预测结果。其中，训练数据集为正确的输入输出对的集合。监督学习需要获取带标注的训练数据集，一般来说，对于决策问题，较难获得带标记的训练数据。针对较难获得带标记的训练数据集的问题，例如，决策问题，强化学习被提出来。强化学习是智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖赏(reward)指导行为，目标是使智能体获得最大的奖赏。强化学习不同于监督学习，主要表现在无需训练数据集。强化学习通过“试错”的方式进行学习，其收敛能力与收敛速度远远低于监督学习。尤其，当强化学习应用于环境是非稳定性的任务，例如，应用于通信领域中的无线资源调度任务时，会导致强化学习的训练过程的收敛速度非常缓慢，甚至不收敛，例如，进入局部最优点。因此，提高强化学习的收敛能力是亟待解决的问题。
技术实现思路
本申请提供一种训练神经网络的方法与装置，可以提高强化学习的收敛能力。...

【技术保护点】
1.一种训练神经网络的方法，其特征在于，包括：/n根据第一智能体与环境交互获得的第一数据，与第二智能体与所述环境交互获得的第二数据，确定所述第一智能体的训练数据，其中，所述环境为无线资源调度任务对应的环境；/n利用所述第一智能体的训练数据，对所述第一智能体进行强化学习的训练。/n

【技术特征摘要】
1.一种训练神经网络的方法，其特征在于，包括：
根据第一智能体与环境交互获得的第一数据，与第二智能体与所述环境交互获得的第二数据，确定所述第一智能体的训练数据，其中，所述环境为无线资源调度任务对应的环境；
利用所述第一智能体的训练数据，对所述第一智能体进行强化学习的训练。

2.根据权利要求1所述的方法，其特征在于，所述根据第一智能体与环境交互获得的第一数据，与第二智能体与所述环境交互获得的第二数据，确定所述第一智能体的训练数据，包括：
将所述第一数据对应的训练数据，与所述第二数据对应的训练数据，作为所述第一智能体的训练数据。

3.根据权利要求1所述的方法，其特征在于，所述第一数据中包括所述第一智能体与所述环境交互得到的性能指标，所述第二数据中包括所述第二智能体与所述环境交互得到的性能指标；
所述第一智能体的训练数据中的奖赏根据所述第一数据中的性能指标与所述第二数据中的性能指标获得。

4.根据权利要求3所述的方法，其特征在于，所述第一智能体的训练数据中的奖赏通过对所述第一数据中的性能指标与所述第二数据中的性能指标的差值进行线性加权获得。

5.根据权利要求3所述的方法，其特征在于，所述第一智能体的训练数据中的奖赏通过对所述第一数据中的性能指标与所述第二数据中的性能指标的差值进行归一化处理获得。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第二数据的采集时间靠近所述第一数据的采集时间。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：
根据所述第一数据与所述第二数据，确定所述第二智能体的训练数据；
利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练。

8.根据权利要求7所述的方法，其特征在于，所述利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练，包括：
在所述第一智能体的训练过程中的全部训练轮次中，利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练。

9.根据权利要求7所述的方法，其特征在于，所述利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练，包括：
在所述第一智能体的训练过程中的间隔训练轮次中，利用所述第二智能体的训练数据对所述第二智能体进行强化学习的训练。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：
根据训练后的所述第一智能体，获取所述环境的资源调度决策。

11.根据权利要求7至9中任一项所述的方法，其特征在于，所述方法还包括：
根据训练后的所述第一智能体与训练后的所述第二智能体，获取所述环境的资源调度决策。

12.一种训练神经网络的装置，其特征在于，包括：
处理单元，用于根据第一智能体与环境交互获得的第一数据，与第二智能体与所述环境交互获得的第二数据，确定所述第一智能体的训练数据，其中，所述环境为无线资源调度任务对应的环境；
训练单元，用于利用所述第一智能体的训练数据，对所述第一智能体进行强化学习的训...

【专利技术属性】
技术研发人员：徐晨，王坚，皇甫幼睿，李榕，王俊，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人