基于扩散模型的多样化模仿学习方法、装置及智能体制造方法及图纸

技术编号：40282021 阅读：18 留言：0更新日期：2024-02-07 20:36

本申请涉及人工智能技术领域，特别涉及一种基于扩散模型的多样化模仿学习方法、装置及智能体，其中，方法包括：检测智能体的当前状态；利用扩散模型生成当前状态的参考动作，并根据参考动作和当前状态选择目标模型，其中，目标模型包括扩散模型或常规策略模型；若目标模型为扩散模型，则控制智能体执行参考动作，若目标模型为常规策略模型，则控制智能体执行常规策略模型生成的动作。由此，解决了相关技术中智能体策略单一，从而难以处理多样性人类行为数据，且智能体对于环境变化的适应性较差，使得在不同环境状态下稳定性较低等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种基于扩散模型的多样化模仿学习方法、装置及智能体。

技术介绍

1、dm(diffusion model，扩散模型)在如图像生成、音频生成和视频生成等领域展示出了巨大潜力，其可以通过在大规模多样化数据集上进行训练，生成高保真度和多样性的数据，因此扩散模型可以应用于训练策略模型，以描述多样化的人类行为。

2、相关技术中可以将扩散模型引入决策问题领域，在行为数据集上以未来一段时间的动作序列或状态序列作为训练目标，然后通过值评估或以目标状态作为条件的方式来筛选次优的动作，从而推导出期望的最优动作。

3、然而，相关技术中的扩散模型尽管在与数据集相似的状态下能够生成高保真度的动作，但当所处状态在数据集状态分布之外时，扩散模型生成的动作可能导致无法准确估计的结果，在应对多样性的人类行为时表现不佳；且相关技术中的模型在面对环境动态变化或具有不确定性的情况下表现不稳定，限制了在实际应用中的可行性；同时，相关技术的方法依赖于手动设计的特征工程，人工工作量大。

技术实现思路b>

1本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的多样化模仿学习方法，其特征在于，包括以下步骤：
2.根据权利要求1所述的基于扩散模型的多样化模仿学习方法，其特征在于，所述根据所述参考动作和所述当前状态选择目标模型，包括：
3.根据权利要求2所述的基于扩散模型的多样化模仿学习方法，其特征在于，所述获取所述扩散模型的目标行为数据集，包括：
4.根据权利要求2或3所述的基于扩散模型的多样化模仿学习方法，其特征在于，在利用扩散模型生成所述当前状态的参考动作前，包括：
5.根据权利要求1所述的基于扩散模型的多样化模仿学习方法，其特征在于，在根据所述参考动作和所述当前状态选择目...

【技术特征摘要】

1.一种基于扩散模型的多样化模仿学习方法，其特征在于，包括以下步骤：
2.根据权利要求1所述的基于扩散模型的多样化模仿学习方法，其特征在于，所述根据所述参考动作和所述当前状态选择目标模型，包括：
3.根据权利要求2所述的基于扩散模型的多样化模仿学习方法，其特征在于，所述获取所述扩散模型的目标行为数据集，包括：
4.根据权利要求2或3所述的基于扩散模型的多样化模仿学习方法，其特征在于，在利用扩散模型生成所述当前状态的参考动作前，包括：
5.根据权利要求1所述的基于扩散模型的多样化模仿学习方法，其特征在于，在根据所述参考动作和所述当前状态选择目标模型之前，还包括：
6.一种基于扩散模型的多样化模仿学习装置，其特征在于，包括：...

【专利技术属性】
技术研发人员：吴翼，高嘉煊，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：一种防倾覆建筑结构制造技术
下一篇：一种小型高压反应釜制造技术

相关技术

一种加里东副伯克霍尔德菌及其用途制造...

光催化剂及其制备方法、测试光催化二氧...

用于开展研究堆辐照生产同位素试验的靶...

一种神经网络算子在晶圆芯片上的张量切...

神经血管偶联监测参数处理方法、装置及...

燃料电池结构参数的确定方法、装置、设...

一种基于令牌的语义通信方法、电子设备...

一种基于生成式AI大模型的语义通信方...

一种可控径向加厚T型叶顶设计方法及叶...

一种椎骨检测方法及相关装置制造方法及...

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

一种基于数字信号处理的径流预测方法技...

一种区域生态辐射作用的评估方法和系统...

赛事数据处理方法及装置制造方法及图纸

一种混合水质污染源筛选方法及系统技术...

业务处理方法、装置、电子设备和存储介...

充电场站的噪声预测方法、噪声预测装置...

一种物料出口含水率预测模型建立方法、...

异常商户识别方法、装置、设备、介质及...