当前位置: 首页 > 专利查询>清华大学专利>正文

基于扩散模型的多样化模仿学习方法、装置及智能体制造方法及图纸

技术编号:40282021 阅读:18 留言:0更新日期:2024-02-07 20:36
本申请涉及人工智能技术领域,特别涉及一种基于扩散模型的多样化模仿学习方法、装置及智能体,其中,方法包括:检测智能体的当前状态;利用扩散模型生成当前状态的参考动作,并根据参考动作和当前状态选择目标模型,其中,目标模型包括扩散模型或常规策略模型;若目标模型为扩散模型,则控制智能体执行参考动作,若目标模型为常规策略模型,则控制智能体执行常规策略模型生成的动作。由此,解决了相关技术中智能体策略单一,从而难以处理多样性人类行为数据,且智能体对于环境变化的适应性较差,使得在不同环境状态下稳定性较低等问题。

【技术实现步骤摘要】

本申请涉及人工智能,特别涉及一种基于扩散模型的多样化模仿学习方法、装置及智能体


技术介绍

1、dm(diffusion model,扩散模型)在如图像生成、音频生成和视频生成等领域展示出了巨大潜力,其可以通过在大规模多样化数据集上进行训练,生成高保真度和多样性的数据,因此扩散模型可以应用于训练策略模型,以描述多样化的人类行为。

2、相关技术中可以将扩散模型引入决策问题领域,在行为数据集上以未来一段时间的动作序列或状态序列作为训练目标,然后通过值评估或以目标状态作为条件的方式来筛选次优的动作,从而推导出期望的最优动作。

3、然而,相关技术中的扩散模型尽管在与数据集相似的状态下能够生成高保真度的动作,但当所处状态在数据集状态分布之外时,扩散模型生成的动作可能导致无法准确估计的结果,在应对多样性的人类行为时表现不佳;且相关技术中的模型在面对环境动态变化或具有不确定性的情况下表现不稳定,限制了在实际应用中的可行性;同时,相关技术的方法依赖于手动设计的特征工程,人工工作量大。


技术实现思路b>

1本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的多样化模仿学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述根据所述参考动作和所述当前状态选择目标模型,包括:

3.根据权利要求2所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述获取所述扩散模型的目标行为数据集,包括:

4.根据权利要求2或3所述的基于扩散模型的多样化模仿学习方法,其特征在于,在利用扩散模型生成所述当前状态的参考动作前,包括:

5.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,在根据所述参考动作和所述当前状态选择目...

【技术特征摘要】

1.一种基于扩散模型的多样化模仿学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述根据所述参考动作和所述当前状态选择目标模型,包括:

3.根据权利要求2所述的基于扩散模型的多样化模仿学习方法,其特征在于,所述获取所述扩散模型的目标行为数据集,包括:

4.根据权利要求2或3所述的基于扩散模型的多样化模仿学习方法,其特征在于,在利用扩散模型生成所述当前状态的参考动作前,包括:

5.根据权利要求1所述的基于扩散模型的多样化模仿学习方法,其特征在于,在根据所述参考动作和所述当前状态选择目标模型之前,还包括:

6.一种基于扩散模型的多样化模仿学习装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:吴翼高嘉煊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1