【技术实现步骤摘要】
本申请涉及人工智能,特别涉及一种基于扩散模型的多样化模仿学习方法、装置及智能体。
技术介绍
1、dm(diffusion model,扩散模型)在如图像生成、音频生成和视频生成等领域展示出了巨大潜力,其可以通过在大规模多样化数据集上进行训练,生成高保真度和多样性的数据,因此扩散模型可以应用于训练策略模型,以描述多样化的人类行为。
2、相关技术中可以将扩散模型引入决策问题领域,在行为数据集上以未来一段时间的动作序列或状态序列作为训练目标,然后通过值评估或以目标状态作为条件的方式来筛选次优的动作,从而推导出期望的最优动作。
3、然而,相关技术中的扩散模型尽管在与数据集相似的状态下能够生成高保真度的动作,但当所处状态在数据集状态分布之外时,扩散模型生成的动作可能导致无法准确估计的结果,在应对多样性的人类行为时表现不佳;且相关技术中的模型在面对环境动态变化或具有不确定性的情况下表现不稳定,限制了在实际应用中的可行性;同时,相关技术的方法依赖于手动设计的特征工程,人工工作量大。
技术实现思路
1本文档来自技高网...
【技术保护点】
1.一种基于扩散模型的多样化模仿学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述根据所述参考动作和所述当前状态选择目标模型,包括:
3.根据权利要求2所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述获取所述扩散模型的目标行为数据集,包括:
4.根据权利要求2或3所述的基于扩散模型的多样化模仿学习方法,其特征在于,在利用扩散模型生成所述当前状态的参考动作前,包括:
5.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,在根据所述参考动作
...【技术特征摘要】
1.一种基于扩散模型的多样化模仿学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述根据所述参考动作和所述当前状态选择目标模型,包括:
3.根据权利要求2所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述获取所述扩散模型的目标行为数据集,包括:
4.根据权利要求2或3所述的基于扩散模型的多样化模仿学习方法,其特征在于,在利用扩散模型生成所述当前状态的参考动作前,包括:
5.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,在根据所述参考动作和所述当前状态选择目标模型之前,还包括:
6.一种基于扩散模型的多样化模仿学习装置,其特征在于,包括:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。