一种神经网络的获取方法以及相关设备技术

技术编号:27880198 阅读:17 留言:0更新日期:2021-03-31 01:14
本申请实施例公开一种神经网络的获取方法以及相关设备,该方法可用于对人工智能AI领域的神经网络进行强化学习的场景中,服务器在获取到第一任务之后,获取第一神经网络用于完成第一任务的第一成功率,在第一成功率小于预设阈值的情况下,生成第二神经网络以及新技能,基于第一任务对应的仿真环境,利用强化学习算法,对第二神经网络进行训练,直到第二神经网络用于完成第一任务的第二成功率大于或等于预设阈值,存储下来,通过增量式学习新技能来扩充技能库,降低了预训练阶段获得的技能库的依赖性,也即降低了对预训练阶段的训练环境的要求;且实现了技能库中技能的可扩展性,克服了目前的技能学习方法中的局限性。

【技术实现步骤摘要】
一种神经网络的获取方法以及相关设备
本申请涉及人工智能领域,尤其涉及一种神经网络的获取方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是通过数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。强化学习(ReinforcementLearning,RL)是人工智能领域一种重要的机器学习方法,在自动驾驶、智能控制机器人及分析预测等领域有许多应用。具体的,通过强化学习要解决的主要问题是,智能设备如何直接与环境进行交互来学习执行特定任务时采用的技能,以实现针对特定任务的长期奖励最大。目前用于技能学习的方法中,利用随机神经网络和信息理论正则化器训练获得一系列的大跨度技能,从而获得一个包含了很多技能的技能库,在确定了特定任务之后,再针对特定任务训练对应的神经网络,神经网络用于从上述技能库中选择合适的技能来执行该特定任务,从而实现针对任务的长期奖励最大。但目前这种技能学习方法中,是完全依赖包括一系列大跨度技能的技能库来执行特定任务的,则预训练阶段获取的技能库中的技能需要尽量的全面,这就对预训练阶段的训练环境的要求极高,且即使技能库中包含的技能再多,也存在完成不了某些特定任务的可能性,从而导致目前的技能学习方法具有一定的局限性。
技术实现思路
本申请实施例提供了一种神经网络的获取方法以及相关设备,用于增量式学习技能以扩充技能库,降低了对预训练阶段的训练环境的要求;且实现了技能库中技能的可扩展性,克服了目前的技能学习方法中的局限性。为解决上述技术问题,本申请实施例提供以下技术方案:第一方面,本申请实施例提供一种神经网络的获取方法,可应用于对人工智能领域的神经网络进行强化学习的场景中,服务器获取第一任务,具体的,可以为服务器从预先训练好的至少一个神经网络中获取一个成熟的第一神经网络作为第一神经网络,也即第一神经网络为基于第二任务对应的仿真环境进行训练得到的神经网络,第二任务的语义信息与第一任务的语义信息相似,也可以为服务器在确定第一任务之后,初始化一个第一神经网络,其中,第一神经网络用于从技能库中选取用于完成第一任务的技能,技能库中的技能可以表现为神经网络或操作规则,第二任务的语义信息与第一任务的语义信息相似可以为利用神经网络获取第一任务和第二任务的语义信息并进行对比以确定第一任务的语义信息和第二任务的语义信息相似,或者分解第一任务和第二任务得到的约束条件相似,或者第一任务和第二任务的运行环境相似;之后服务器获取第一神经网络用于完成第一任务的第一成功率,在第一成功率小于预设阈值的情况下,获取第二神经网络和新技能,将新技能加入技能库,得到更新后的技能库,其中,第二神经网络用于从更新后的技能库中选取用于完成第一任务的技能,新技能具体可以表现为神经网络;进而服务器基于第一任务对应的仿真环境,利用强化学习算法,对第二神经网络和新技能进行训练,直至第二神经网络用于完成第一任务的第二成功率大于或等于预设阈值,具体的,服务器在初始化第二神经网络和新技能之后,基于第一任务对应的仿真环境,利用强化学习算法,对第二神经网络和新技能进行训练,直至第二神经网络的损失函数和新技能的损失函数均满足收敛条件,之后获取第二神经网络用于完成第一任务的第二成功率,判断第二成功率是否大于或等于预设阈值,若第二成功率大于或等于预设阈值,则存储经过训练的第二神经网络和更新后的技能库;若第二成功率小于预设阈值,则重复执行生成新的新技能和新的第二神经网络,将新的新技能加入到更新后的技能库中,得到新的更新后的技能库,对新的第二神经网络和新的新技能进行训练,直至损失函数均满足收敛条件,判断第二成功率是否大于或等于预设阈值的操作,直至通过第二神经网络执行第二任务的第二成功率大于或等于预设阈值,存储最终的经过训练的第二神经网络和更新后的技能库。本实现方式中,在获取到第一任务之后,可以获取第一神经网络用于完成第一任务的第一成功率,在第一成功率小于预设阈值的情况下,可以获取第二神经网络以及新技能,将新技能加入到技能库中得到更新后的技能库,进而基于第一任务对应的仿真环境,对第二神经网络进行训练,直到第二神经网络用于完成第一任务的第二成功率大于或等于预设阈值,然后存储下来,由于在学习如何完成任务的过程中可以增量式学习新技能来扩充技能库,所以对预训练阶段获得的技能库的依赖性大大降低,也即降低了对预训练阶段的训练环境的要求;且增量式学习新技能实现了技能库中技能的可扩展性,从而可以获得完成新任务的能力,克服了目前的技能学习方法中的局限性。在第一方面的一种可能实现方式中,服务器对第二神经网络进行训练,可以包括:服务器利用第二神经网络从更新后的技能库中选取用于完成第一任务的技能,具体的,服务器可以预先为更新后的技能库中的每个技能配置有一个序列号,第二神经网络的输出可以为序列号,从而可以根据第二神经网络输出的序列号查找到对应的第二神经网络选取的技能;之后服务器可以利用第二神经网络选取的技能生成控制指令,进而通过智能设备执行与第二神经网络选取的技能对应的控制指令,在智能设备执行与第二神经网络选取的技能对应的控制指令过程中,每隔预设时长,服务器会执行一次第二神经网络选取的技能的执行状态获取操作,直至第二神经网络选取的技能的执行状态为执行结束,服务器还会获取智能设备执行第一任务的数据,也即服务器执行与第二神经网络选取的技能对应的控制指令过程中产生的数据,所述数据可以包括智能设备的操作路径、操作速度或操作目的地中的任一项或多项信息,在服务器执行完一次第二神经网络选取的技能之后,会根据智能设备执行第一任务的数据,更新第二神经网络的参数。本实现方式中,提供了服务器对第二神经网络进行训练的具体实现方式,提高了本方案的可执行性;此外,服务器通过每隔预设时长获取一次第二神经网络选取的技能的执行状态的方式来确定第二神经网络选取的技能是否执行结束,从而服务器可以及时根据智能设备的操作行为信息来迭代更新新技能策略和新技能的参数,有利于提高训练过程的准确性。在第一方面的一种可能实现方式中,服务器在将环境状态信息输入第二神经网络,获取第二神经网络选取的技能之后,可以判断通过第二神经网络选取的技能是否为新技能,在第二神经网络选取的技能为新技能的情况下,服务器根据智能设备执行第一任务的数据,更新新技能的参数;在第二神经网络选取的技能不是新技能的情况下,不更新第二神经网络选取的技能的参数。本实现方式中,可以使得更新后的技能库中不同的技能之间的保持较大的区分度,从而降低更新后的技能库的存储冗余;此外,如果对不是新生成的技能的参数也进行更新,则更新后的技能库中的技能的进化方向本文档来自技高网
...

【技术保护点】
1.一种神经网络的获取方法,其特征在于,所述方法包括:/n获取第一神经网络用于完成第一任务的第一成功率,所述第一神经网络用于从技能库中选取用于完成所述第一任务的技能;/n在所述第一成功率小于预设阈值的情况下,获取第二神经网络和新技能,并将所述新技能添加至所述技能库中以更新所述技能库,所述第二神经网络用于从更新后的所述技能库中选取用于完成所述第一任务的技能;/n基于所述第一任务对应的仿真环境,利用强化学习算法,对所述第二神经网络进行训练,直至所述第二神经网络用于完成所述第一任务的第二成功率大于或等于所述预设阈值;/n存储经过训练的所述第二神经网络和更新后的所述技能库。/n

【技术特征摘要】
1.一种神经网络的获取方法,其特征在于,所述方法包括:
获取第一神经网络用于完成第一任务的第一成功率,所述第一神经网络用于从技能库中选取用于完成所述第一任务的技能;
在所述第一成功率小于预设阈值的情况下,获取第二神经网络和新技能,并将所述新技能添加至所述技能库中以更新所述技能库,所述第二神经网络用于从更新后的所述技能库中选取用于完成所述第一任务的技能;
基于所述第一任务对应的仿真环境,利用强化学习算法,对所述第二神经网络进行训练,直至所述第二神经网络用于完成所述第一任务的第二成功率大于或等于所述预设阈值;
存储经过训练的所述第二神经网络和更新后的所述技能库。


2.根据权利要求1所述的方法,其特征在于,所述基于所述第一任务对应的仿真环境,利用强化学习算法,对所述第二神经网络进行训练,包括:
将环境状态信息输入所述第二神经网络,获取所述第二神经网络选取的技能,所述环境状态信息包括所述第一任务对应的仿真环境中智能设备周围的环境信息和所述智能设备的自身状态信息;
通过所述第二神经网络选取的技能获取控制指令以控制所述智能设备执行所述第一任务,并获取所述智能设备执行所述第一任务的数据;
根据获取的所述智能设备执行所述第一任务的数据,利用强化学习算法,更新所述第二神经网络的参数。


3.根据权利要求2所述的方法,其特征在于,所述将环境状态信息输入所述第二神经网络,获取所述第二神经网络选取的技能之后,所述方法还包括:
在所述第二神经网络选取的技能为所述新技能的情况下,根据所述获取的所述智能设备执行所述第一任务的数据,利用强化学习算法,更新所述新技能的参数。


4.根据权利要求2所述的方法,其特征在于,所述利用强化学习算法,更新所述第二神经网络的参数,包括:
利用第一强化学习算法,更新所述第二神经网络的参数,其中,所述第一强化学习算法为近端策略优化PPO算法、信任域策略优化TRPO算法或时间差分TD算法。


5.根据权利要求3所述的方法,其特征在于,所述利用强化学习算法,更新所述新技能的参数,包括:
利用第二强化学习算法,更新所述新技能的参数,其中,所述第二强化学习算法为深度确定性策略梯度DDPG算法、深度Q网络DQN算法、PPO算法或柔性致动评价SAC算法。


6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
利用所述第一神经网络的参数,初始化所述第二神经网络的参数,其中,所述第一神经网络为基于第二任务对应的仿真环境,利用强化学习算法进行训练得到的,所述第二任务的语义信息与所述第一任务的语义信息相似。


7.根据权利要求1至5任一项所述的方法,其特征在于,所述第一神经网络和所述技能库为基于第二任务对应的仿真环境,利用强化学习算法进行训练得到的,所述第二任务的语义信息与所述第一任务的语义信息相似,所述方法还包括:
在所述第一成功率大于或等于所述预设阈值的情况下,将所述第一神经网络确定为用于完成所述第一任务的神经网络;
存储所述第一神经网络和所述技能库。


8.根据权利要求1至5任一项所述的方法,其特征在于,所述获取第一神经网络用于完成第一任务的第一成功率,包括:
将环境状态信息输入所述第一神经网络,得到所述第一神经网络选取的技能,其中,所述环境状态信息包括所述第一任务对应的仿真环境中智能设备周围的环境信息和所述智能设备的自身状态信息;
通过所述第一神经网络选取的技能获取控制指令以控制所述智能设备执行所述第一任务;
重复上述步骤,直至通过所述第一神经网络完成所述第一任务的次数达到第一次数;
对所述第一次数中完成所述第一任务的结果为成功的次数进行统计,得到第二次数;
根据所述第一次数和所述第二次数,计算所述第一成功率。


9.根据权利要求8所述的方法,其特征在于,所述将环境状态信息输入所述第一神经网络之前,所述方法还包括:
通过所述第一神经网络选取的技能获取控制指令以控制所述智能设备执行所述第一任务,以确定在所述第一任务对应的仿真环境中,所述第一神经网络的损失函数是否收敛,其中,所述第一神经网络为基于第二任务所对应的仿真环境,利用强化学习算法进行训练得到的,所述第二任务的语义信息与所述第一任务的语义信息相似;
在所述第一神经网络的损失函数未收敛的情况下,基于所述第一任务对应的仿真环境,利用强化学习算法,对所述第一神经网络进行训练,直至达到所述第一神经网络的损失函数的收敛条件,得到成熟的所述第一神经网络;
所述获取第一神经网络用于完成第一任务的第一成功率,包括:
获取成熟的所述第一神经网络用于完成所述第一任务的成功率作为所述第一成功率。


10.根据权利要求1至5任一项所述的方法,其特征在于,所述获取第一神经网络用于完成第一任务的第一成功率,包括:
获取所述第一任务的语义信息,以及,获取第二任务的语义信息,其中,所述第二任务的语义信息与所述第一任务的语义信息相似,所述第一神经网络为基于所述第二任务对应的仿真环境,利用强化学习算法进行训练得到的;
根据所述第一任务的语义信息与所述第二任务的语义信息之间的相似度,得到所述第一成功率,其中,所述相似度越高,所述第一成功率越高。


11.根据权利要求1至5任一项所述的方法,其特征在于,
所述技能库中的技能为驾驶技能;或者,
所述技能库中的技能为搬运技能;或者,
所述技能库中的技能为抓取技能。


12.一种神经网络的获取方法,其特征在于,所述方法包括:
获取第一神经网络用于完成第一驾驶任务的第一成功率,所述第一神经网络用于从技能库中选取用于完成所述第一驾驶任务的驾驶技能;
在所述第一成功率小于预设阈值的情况下,获取第二神经网络和新驾驶技能,并将所述新驾驶技能添加至所述技能库中以更新所述技能库,所述第二神经网络用于从更新后的所述技能库中选取用于完成所述第一驾驶任务的驾驶技能;
基于所述第一驾驶任务对应的仿真环境,利用强化学习算法,对所述第二神经网络进行训练,直至所述第二神经网络用于完成所述第一驾驶任务的第二成功率大于或等于所述预设阈值;
存储经过训练的所述第二神经网络和更新后的所述技能库。


13.根据权利要求12所述的方法,其特征在于,所述基于所述第一驾驶任务对应的仿真环境,利用强化学习算法,对所述第二神经网络进行训练,包括:
将环境状态信息输入所述第二神经网络,获取所述第二神经网络选取的驾驶技能,所述环境状态信息包括所述第一驾驶任务对应的仿真环境中汽车周围的环境信息和所述汽车的自身状态信息;
通过所述第二神经网络选取的驾驶技能获取控制指令以控制所述汽车执行所述第一驾驶任务,并获取所述汽车执行所述第一驾驶任务的数据;
根据获取的所述汽车执行所述第一驾驶任务的数据,利用强化学习算法,更新所述第二神经网络的参数。


14.根据权利要求13所述的方法,其特征在于,所述将环境状态信息输入所述第二神经网络,获取所述第二神经网络选取的驾驶技能之后,所述方法还包括:
在所述第二神经网络选取的驾驶技能为所述新驾驶技能的情况下,根据所述获取的所述汽车执行所述第一驾驶任务的数据,利用强化学习算法,更新所述新驾驶技能的参数。


15.根据权利要求13所述的方法,其特征在于,所述利用强化学习算法,更新所述第二神经网络的参数,包括:
利用第一强化学习算法,更新所述第二神经网络的参数,其中,所述第一强化学习算法为近端策略优化PPO算法、信任域策略优化TRPO算法或时间差分TD算法。


16.根据权利要求14所述的方法,其特征在于,所述利用强化学习算法,更新所述新驾驶技能的参数,包括:
利用第二强化学习算法,更新所述新驾驶技能的参数,其中,所述第二强化学习算法为深度确定性策略梯度DDPG算法、深度Q网络DQN算法、PPO算法或柔性致动评价SAC算法。


17.根据权利要求12至16任一项所述的方法,其特征在于,所述方法还包括:
利用所述第一神经网络的参数,初始化所述第二神经网络的参数,其中,所述第一神经网络为基于第二驾驶任务对应的仿真环境,利用强化学习算法进行训练得到的,所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似。


18.根据权利要求12至16任一项所述的方法,其特征在于,所述第一神经网络和所述技能库为基于第二驾驶任务对应的仿真环境,利用强化学习算法进行训练得到的,所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似,所述方法还包括:
在所述第一成功率大于或等于所述预设阈值的情况下,将所述第一神经网络确定为用于完成所述第一驾驶任务的神经网络;
存储所述第一神经网络和所述技能库。


19.根据权利要求12至16任一项所述的方法,其特征在于,所述获取第一神经网络用于完成第一驾驶任务的第一成功率,包括:
将环境状态信息输入所述第一神经网络,得到所述第一神经网络选取的驾驶技能,其中,所述环境状态信息包括所述第一驾驶任务对应的仿真环境中汽车周围的环境信息和所述汽车的自身状态信息;
通过所述第一神经网络选取的驾驶技能获取控制指令以控制所述汽车执行所述第一驾驶任务;
重复上述步骤,直至通过所述第一神经网络完成所述第一驾驶任务的次数达到第一次数;
对所述第一次数中完成所述第一驾驶任务的结果为成功的次数进行统计,得到第二次数;
根据所述第一次数和所述第二次数,计算所述第一成功率。


20.根据权利要求19所述的方法,其特征在于,所述将环境状态信息输入所述第一神经网络之前,所述方法还包括:
通过所述第一神经网络选取的驾驶技能获取控制指令以控制所述汽车执行所述第一驾驶任务,以确定在所述第一驾驶任务对应的仿真环境中,所述第一神经网络的损失函数是否收敛,其中,所述第一神经网络为基于第二驾驶任务所对应的仿真环境,利用强化学习算法进行训练得到的,所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似;
在所述第一神经网络的损失函数未收敛的情况下,基于所述第一驾驶任务对应的仿真环境,利用强化学习算法,对所述第一神经网络进行训练,直至达到所述第一神经网络的损失函数的收敛条件,得到成熟的所述第一神经网络;
所述获取第一神经网络用于完成第一驾驶任务的第一成功率,包括:
获取成熟的所述第一神经网络用于完成所述第一驾驶任务的成功率作为所述第一成功率。


21.根据权利要求12至16任一项所述的方法,其特征在于,所述获取第一神经网络用于完成第一驾驶任务的第一成功率,包括:
获取所述第一驾驶任务的语义信息,以及,获取第二驾驶任务的语义信息,其中,所述第二驾驶任务的语义信息与所述第一驾驶任务的语义信息相似,所述第一神经网络为基于所述第二驾驶任务对应的仿真环境,利用强化学习算法进行训练得到的;
根据所述第一驾驶任务的语义信息与所述第二驾驶任务的语义信息之间的相似度,得到所述第一成功率,其中,所述相似度越高,所述第一成功率越高。


22.一种神经网络的获取装置,其特征在于,所述装置包括:
获取单元,用于获取第一神经网络用于完成第一任务的第一成功率...

【专利技术属性】
技术研发人员:庄雨铮李斯源王芮刘武龙张崇洁
申请(专利权)人:华为技术有限公司清华大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1