【技术实现步骤摘要】
智能体训练方法及系统、计算机设备、可读存储介质
本专利技术涉及人工智能
更具体地,涉及一种智能体训练方法及系统、计算机设备、可读存储介质。
技术介绍
近年来,随着人工智能技术的快速发展,数据驱动的手段已逐渐显现出它的威力。通过数据驱动的计算智能手段,计算机已逐渐在多个领域实现性能的飞跃式提升,甚至在一些领域已远超人类水平。借助深度学习技术,计算机在海量数据中进行训练,已经在图像识别、目标检测、机器翻译、词句预测等领域,甚至诸如诗词创作、绘画创作、封面设计等创造性设计领域达到非常高的水平。特别是图像识别、目标检测与机器翻译等领域技术已经成功实现产品化、商业化。同时,基于深度强化学习,计算机与给定环境及规则程序的海量交互式训练,也已经分别在Atari游戏、MuJoCo、Gym等简单交互游戏、围棋、象棋、国际象棋、将棋、德州扑克等回合类游戏、以及Dota2、星际争霸2等复杂即时策略游戏中战胜顶级人类玩家。然而随着学习技术应用领域的不断扩展,一些工程应用的实际问题开始显现,在一定程度上制约了学习技术在一些领域的应用。 ...
【技术保护点】
1.一种智能体训练方法,其特征在于,包括以下步骤:/nS1、构建简化环境,在所述简化环境下进行智能体的初步训练;/nS2、构建保真环境,在所述保真环境下进行智能体的补充训练;/nS3、构建半实物仿真环境,在所述半实物仿真环境下进行智能体的性能验证。/n
【技术特征摘要】
1.一种智能体训练方法,其特征在于,包括以下步骤:
S1、构建简化环境,在所述简化环境下进行智能体的初步训练;
S2、构建保真环境,在所述保真环境下进行智能体的补充训练;
S3、构建半实物仿真环境,在所述半实物仿真环境下进行智能体的性能验证。
2.根据权利要求1所述的训练方法,其特征在于,所述S1包括:
S11、构建多个简化环境模型;
S12、对多个所述简化环境模型的原理进行正确性验证;
S13、根据经过正确性验证后的多个所述简化环境模型来构建所述简化环境;
S14、在所述简化环境下对智能体进行初步训练;
S15、对经过初步训练后的智能体进行保存。
3.根据权利要求2所述的训练方法,其特征在于,所述S11包括:
获取多个真实物理系统的核心原理以及相对应的机理行为;
根据多个核心原理以及相对应的机理行为来构建多个所述简化环境模型。
4.根据权利要求2所述的训练方法,其特征在于,所述S12包括:
将多个所述简化环境模型的原理与多个真实物理系统的核心原理分别进行对比,根据对比结果来对多个所述简化环境模型的原理进行正确性验证。
5.根据权利要求1所述的训练方法,其特征在于,
所述S2包括:
S21、构建多个保真环境模型;
S22、对多个所述保真环境模型进行校验;
S23、根据经过校验后的多个所述保真环境模型来构建所述保真环境;
S24、将经过初步训练后的智能体在所述保真环境下进行补充训练;
S25、对经过补充训练后的智...
【专利技术属性】
技术研发人员:贾政轩,林廷宇,肖莹莹,施国强,李伯虎,张迎曦,
申请(专利权)人:北京仿真中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。