一种神经网络的获取方法以及相关设备技术

技术编号：27880198 阅读：17 留言：0更新日期：2021-03-31 01:14

本申请实施例公开一种神经网络的获取方法以及相关设备，该方法可用于对人工智能AI领域的神经网络进行强化学习的场景中，服务器在获取到第一任务之后，获取第一神经网络用于完成第一任务的第一成功率，在第一成功率小于预设阈值的情况下，生成第二神经网络以及新技能，基于第一任务对应的仿真环境，利用强化学习算法，对第二神经网络进行训练，直到第二神经网络用于完成第一任务的第二成功率大于或等于预设阈值,存储下来，通过增量式学习新技能来扩充技能库，降低了预训练阶段获得的技能库的依赖性，也即降低了对预训练阶段的训练环境的要求；且实现了技能库中技能的可扩展性，克服了目前的技能学习方法中的局限性。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络的获取方法以及相关设备
本申请涉及人工智能领域，尤其涉及一种神经网络的获取方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是通过数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。强化学习(ReinforcementLearning，RL)是人工智能领域一种重要的机器学习方法，在自动驾驶、智能控制机器人及分析预测等领域有许多应用。具体的，通过强化学习要解决的主要问题是，智能设备如何直接与环境进行交互来学习执行特定任务时采用的技能，以实现针对特定任务的长期奖励最大。目前用于技能学习的方法中，利用随机神经网络和信息理论正则化器训练获得一系列的大跨度技能，从而获得一个包含了很多技能的技能库，在确定了特定任务之后，再针对特定任务训练对应的神经网络，神经网络用于从上述技能库中选择合适的技能来执行该特定任务，从而实现针对任务的长期奖励最大。但目前这种技能学习方法中，是完全依赖包括一系列大跨度技能的技能库来执行特定任务的，则预训练阶段获取的技能库中的技能需要尽量的全面，这就对...

【技术保护点】
1.一种神经网络的获取方法，其特征在于，所述方法包括：/n获取第一神经网络用于完成第一任务的第一成功率，所述第一神经网络用于从技能库中选取用于完成所述第一任务的技能；/n在所述第一成功率小于预设阈值的情况下，获取第二神经网络和新技能，并将所述新技能添加至所述技能库中以更新所述技能库，所述第二神经网络用于从更新后的所述技能库中选取用于完成所述第一任务的技能；/n基于所述第一任务对应的仿真环境，利用强化学习算法，对所述第二神经网络进行训练，直至所述第二神经网络用于完成所述第一任务的第二成功率大于或等于所述预设阈值；/n存储经过训练的所述第二神经网络和更新后的所述技能库。/n

【技术特征摘要】
1.一种神经网络的获取方法，其特征在于，所述方法包括：
获取第一神经网络用于完成第一任务的第一成功率，所述第一神经网络用于从技能库中选取用于完成所述第一任务的技能；
在所述第一成功率小于预设阈值的情况下，获取第二神经网络和新技能，并将所述新技能添加至所述技能库中以更新所述技能库，所述第二神经网络用于从更新后的所述技能库中选取用于完成所述第一任务的技能；
基于所述第一任务对应的仿真环境，利用强化学习算法，对所述第二神经网络进行训练，直至所述第二神经网络用于完成所述第一任务的第二成功率大于或等于所述预设阈值；
存储经过训练的所述第二神经网络和更新后的所述技能库。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一任务对应的仿真环境，利用强化学习算法，对所述第二神经网络进行训练，包括：
将环境状态信息输入所述第二神经网络，获取所述第二神经网络选取的技能，所述环境状态信息包括所述第一任务对应的仿真环境中智能设备周围的环境信息和所述智能设备的自身状态信息；
通过所述第二神经网络选取的技能获取控制指令以控制所述智能设备执行所述第一任务，并获取所述智能设备执行所述第一任务的数据；
根据获取的所述智能设备执行所述第一任务的数据，利用强化学习算法，更新所述第二神经网络的参数。

3.根据权利要求2所述的方法，其特征在于，所述将环境状态信息输入所述第二神经网络，获取所述第二神经网络选取的技能之后，所述方法还包括：
在所述第二神经网络选取的技能为所述新技能的情况下，根据所述获取的所述智能设备执行所述第一任务的数据，利用强化学习算法，更新所述新技能的参数。

4.根据权利要求2所述的方法，其特征在于，所述利用强化学习算法，更新所述第二神经网络的参数，包括：
利用第一强化学习算法，更新所述第二神经网络的参数，其中，所述第一强化学习算法为近端策略优化PPO算法、信任域策略优化TRPO算法或时间差分TD算法。

5.根据权利要求3所述的方法，其特征在于，所述利用强化学习算法，更新所述新技能的参数，包括：
利用第二强化学习算法，更新所述新技能的参数，其中，所述第二强化学习算法为深度确定性策略梯度DDPG算法、深度Q网络DQN算法、PPO算法或柔性致动评价SAC算法。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：
利用所述第一神经网络的参数，初始化所述第二神经网络的参数，其中，所述第一神经网络为基于第二任务对应的仿真环境，利用强化学习算法进行训练得到的，所述第二任务的语义信息与所述第一任务的语义信息相似。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述第一神经网络和所述技能库为基于第二任务对应的仿真环境，利用强化学习算法进行训练得到的，所述第二任务的语义信息与所述第一任务的语义信息相似，所述方法还包括：
在所述第一成功率大于或等于所述预设阈值的情况下，将所述第一神经网络确定为用于完成所述第一任务的神经网络；
存储所述第一神经网络和所述技能库。

8.根据权利要求1至5任一项所述的方法，其特征在于，所述获取第一神经网络用于完成第一任务的第一成功率，包括：
将环境状态信息输入所述第一神经网络，得到所述第一神经网络选取的技能，其中，所述环境状态信息包括所述第一任务对应的仿真环境中智能设备周围的环境信息和所述智能设备的自身状态信息；
通过所述第一神经网络选取的技能获取控制指令以控制所述智能设备执行所述第一任务；
重复上述步骤，直至通过所述第一神经网络完成所述第一任务的次数达到第一次数；
对所述第一次数中完成所述第一任务的结果为成功的次数进行统计，得到第二次数；
根据所述第一次数和所述第二次数，计算所述第一成功率。

9.根据权利要求8所述的方法，其特征在于，所述将环境状态信息输入所述第一神经网络之前，所述方法还包括：
通过所述第一神经网络选取的技能获取控制指令以控制所述智能设备执行所述第一任务，以确定在所述第一任务对应的仿真环境中，所述第一神经网络的损失函数是否收敛，其中，所述第一神经网络为基于第二任务所对应的仿真环境，利用强化学习算法进行训练得到的，所述第二任务的语义信息与所述第一任务的语义信息相似；
在所述第一神经网络的损失函数未收敛的情况下，基于所述第一任务对应的仿真环境，利用强化学习算法，对所述第一神经网络进行训练，直至达到所述第一神经网络的损失函数的收敛条件，得到成熟的所述第一神经网络；
所述获取第一神经网络用于完成第一任务的第一成功率，包括：
获取成熟的所述第一神经网络用于完成所述第一任务的成功率作为所述第一成功率。

10.根据权利要求1至5任一项所述的方法，其特征在于，所述获取第一神经网络用于完成第一任务的第一成功率，包括：
获取所述第一任务的语义信息，以及，获取第二任务的语义信息，其中，所述第二任务的语义信息与所述第一任务的语义信息相似，所述第一神经网络为基于所述第二任务对应的仿真环境，利用强化学习算法进行训练得到的；
根据所述第一任务的语义信息与所述第二任务的语义信息之间的相似度，得到所述第一成功率，其中，所述相似度越高，所述第一成功率越高。

11.根据权利要求1至5任一项所述的方法，其特征在于，
所述技能库中的技能为驾驶技能；或者，
所述技能库中的技能为搬运技能；或者，
所述技能库中的技能为抓取技能。

12.一种神经网络的获取方法，其特征在于，所述方法包括：
获取第一神经网络用于完成第一驾驶任务的第一成功率，所述第一神经网络用于从技能库中选取用于完成所述第一驾驶任务的驾驶技能；
在所述第一成功率小于预设阈值的情况下，获取第二神经网络和新驾驶技能，并将所述新驾驶技能添加至所述技能库中以更新所述技能库，所述第二神经网络用于从更新后的所述技能库中选取用于完成所述第一驾驶任务的驾驶技能；
基于所述第一驾驶任务对应的仿真环境，利用强化学习算法，对所述第二神经网络进行训练，直至所述第二神经网络用于完成所述第一驾驶任务的第二成功率大于或等于所述预设阈值；
存储经过训练的所述第二神经网络和更新后的所述技能库。

13.根据权利要求12所述的方法，其特征在于，所述基于所述第一驾驶任务对应的仿真环境，利用强化学习算法，对所述第二神经网络进行训练，包括：
将环境状态信息输入所述第二神经网络，获取所述第二神经网络选取的驾驶技能，所述环境状态信息包括所述第一驾驶任务对应的仿真环境中汽车周围的环境信息和所述汽车的自身状态信息；
通过所述第二神经网络选取的驾驶技能获取控制指令以控制所述汽车执行所述第一驾驶任务，并获取所述汽车执行所述第一驾驶任务的数据；
根据获取的所述汽车执行所述第一驾驶任务的数据，利用强化学习算法，更新所述第二神经网络的参数。

14.根据权利要求13所述的方法，其特征在于，所述将环境状态信息输入所述第二神经网络，获取所述第二神经网络选取的驾驶技能之后，所述方法还包括：
在所述第二神经网络选取的驾驶技能为所述新驾驶技能的情况下，根据所述获取的所述汽车执行所述第一驾驶任务的数据，利用强化学习算法，更新所述新驾驶技能的参数。

15.根据权利要求13所述的方法，其特征在于，所述利用强化学习算法，更新所述第二神经网络的参数，包括：
利用第一强化学习算法，更新所述第二神经网络的参数，其中，所述第一强化学习算法为近端策略优化PPO算法、信任域策略优化TRPO算法或时间差分TD算法。

16.根据权利要求14所述的方法，其特征在于，所述利用强化学习算法，更新所述新驾驶技能的参数，包括：
利用第二强化学习算法，更新所述新驾驶技能的参数，其中，所述第二强化学习算法为深度确定性策略梯度DDPG算法、深度Q网络DQN算法、PPO算法或柔性致动评价SAC算法。

17.根据权利要求12至16任一项所述的方法，其特征在于，所述方法还包括：
利用所述第一神经网络的参数，初始化所述第二神经网络的参数，其中，所述第一神经网络为基于第二驾驶任务对应的仿真环境，利用强化学习算法进行训练得到的，所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似。

18.根据权利要求12至16任一项所述的方法，其特征在于，所述第一神经网络和所述技能库为基于第二驾驶任务对应的仿真环境，利用强化学习算法进行训练得到的，所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似，所述方法还包括：
在所述第一成功率大于或等于所述预设阈值的情况下，将所述第一神经网络确定为用于完成所述第一驾驶任务的神经网络；
存储所述第一神经网络和所述技能库。

19.根据权利要求12至16任一项所述的方法，其特征在于，所述获取第一神经网络用于完成第一驾驶任务的第一成功率，包括：
将环境状态信息输入所述第一神经网络，得到所述第一神经网络选取的驾驶技能，其中，所述环境状态信息包括所述第一驾驶任务对应的仿真环境中汽车周围的环境信息和所述汽车的自身状态信息；
通过所述第一神经网络选取的驾驶技能获取控制指令以控制所述汽车执行所述第一驾驶任务；
重复上述步骤，直至通过所述第一神经网络完成所述第一驾驶任务的次数达到第一次数；
对所述第一次数中完成所述第一驾驶任务的结果为成功的次数进行统计，得到第二次数；
根据所述第一次数和所述第二次数，计算所述第一成功率。

20.根据权利要求19所述的方法，其特征在于，所述将环境状态信息输入所述第一神经网络之前，所述方法还包括：
通过所述第一神经网络选取的驾驶技能获取控制指令以控制所述汽车执行所述第一驾驶任务，以确定在所述第一驾驶任务对应的仿真环境中，所述第一神经网络的损失函数是否收敛，其中，所述第一神经网络为基于第二驾驶任务所对应的仿真环境，利用强化学习算法进行训练得到的，所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似；
在所述第一神经网络的损失函数未收敛的情况下，基于所述第一驾驶任务对应的仿真环境，利用强化学习算法，对所述第一神经网络进行训练，直至达到所述第一神经网络的损失函数的收敛条件，得到成熟的所述第一神经网络；
所述获取第一神经网络用于完成第一驾驶任务的第一成功率，包括：
获取成熟的所述第一神经网络用于完成所述第一驾驶任务的成功率作为所述第一成功率。

21.根据权利要求12至16任一项所述的方法，其特征在于，所述获取第一神经网络用于完成第一驾驶任务的第一成功率，包括：
获取所述第一驾驶任务的语义信息，以及，获取第二驾驶任务的语义信息，其中，所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似，所述第一神经网络为基于所述第二驾驶任务对应的仿真环境，利用强化学习算法进行训练得到的；
根据所述第一驾驶任务的语义信息与所述第二驾驶任务的语义信息之间的相似度，得到所述第一成功率，其中，所述相似度越高，所述第一成功率越高。

22.一种神经网络的获取装置，其特征在于，所述装置包括：
获取单元，用于获取第一神经网络用于完成第一任务的第一成功率...

【专利技术属性】
技术研发人员：庄雨铮，李斯源，王芮，刘武龙，张崇洁，
申请(专利权)人：华为技术有限公司，清华大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人