当前位置: 首页 > 专利查询>中国人民解放军军事科学院国防科技创新研究院专利>正文

一种任务执行方法及装置、电子设备和存储介质制造方法及图纸

技术编号：28707434 阅读：36 留言：0更新日期：2021-06-05 23:14

本发明专利技术提供一种任务执行方法及装置、电子设备和存储介质。其中，任务执行方法包括：获取现实环境感知数据；将现实环境感知数据输入至任务执行模型中，得到决策行动数据；根据决策行动数据执行相应的任务；其中，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。在本发明专利技术中，通过利用获取的多种数据样本训练任务执行模型，并根据将获取的现实环境感知数据输入至训练好的任务执行模型所得到的决策行动数据执行相应的任务，极大的缩小了仿真环境与现实环境之间存在的差距，提高了任务执行模型由仿真环境迁移至现实环境的迁移效果。境的迁移效果。境的迁移效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种任务执行方法及装置、电子设备和存储介质

[0001]本专利技术涉及深度强化学习模型虚实迁移
，尤其涉及一种任务执行方法及装置、电子设备和存储介质。

技术介绍

[0002]强化学习是机器学习的一个分支，它与有监督学习或无监督学习不同，它主要基于环境和模型进行互动。具体而言，强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。随着“深度学习”方法的兴起，“深度学习”与强化学习结合形成了深度强化学习；进一步的，将深度强化学习与神经网络建模相结合，便形成了深度强化学习模型。深度强化学习模型，已经成为了人工智能研究中竞争最激烈的领域之一。
[0003]深度强化学习模型大多应用于仿真、视频游戏等非真实物理环境，并且已经取得了极大的成功。然而，强化学习在真实物理系统上的复杂策略仍存在很大的挑战。强化学习需要智能体与环境进行大量的交互，但是实物机器人强化学习从现实环境中在线试错获取样本的代价极高，完全通过在线强化学习来实现强化学习在实际物理空间中的应用是不切实际的；然而，又由于...

【技术保护点】

【技术特征摘要】
1.一种任务执行方法，其特征在于，包括：获取现实环境感知数据；将所述现实环境感知数据输入至任务执行模型中，得到决策行动数据；根据所述决策行动数据执行相应的任务；其中，所述任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。2.根据权利要求1所述的任务执行方法，其特征在于，所述任务执行模型的训练方法包括：基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，其中，所述深度网络模型包括图像编码层和决策层；基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的所述现实环境编码网络，其中，所述生成对抗网络包括：仿真环境编码层、现实环境编码层和判别层；将所述决策层与所述现实环境编码层进行组合，得到所述任务执行模型。3.根据权利要求2所述的任务执行方法，其特征在于，所述基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，包括：将所述仿真环境感知数据样本输入至所述仿真环境编码层，得到第一编码特征样本；将所述第一编码特征样本输入至决策层，得到所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本；根据所述仿真环境感知数据样本、所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本调整所述仿真环境编码层和所述决策层的参数，以得到训练好的所述深度网络模型。4.根据权利要求2所述的任务执行方法，其特征在于，所述基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的现实环境编码网络，包括：将所述仿真环境感知数据样本输入至所述仿真环境编码层，生成第二编码样本特征；将所述现实环境感知数据样本输入至所述现实环境编码层，生成第三编码样本特征；其中，所述现实环境编码层由仿真环境编码层初始化生成；将所述第二编码样本特征和所述第三编码样本特征输入至判别层进行训练生成第一损失函数，并根据所述第一损失函数调整所述判别层的参数；将所述第三编码样本特征输入...

【专利技术属性】
技术研发人员：沈天龙，张啸川，
申请(专利权)人：中国人民解放军军事科学院国防科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人