训练方法、视频生成方法和装置、电子设备、程序产品制造方法及图纸

技术编号：46509969 阅读：4 留言：0更新日期：2025-09-26 19:28

本公开实施例公开了一种训练方法、视频生成方法和装置、电子设备、程序产品，此方法将输入数据输入至仿真器，输出第一预测值；将输入数据输入至待训练的神经网络，经神经网络输出第二预测值；根据第二预测值与第一预测值，计算第一损失函数的值；根据第一损失函数的值，更新神经网络中的可训练参数，直至神经网络收敛，得到目标神经网络；保持目标神经网络中的可训练参数不变；将输入数据输入至目标神经网络，经目标神经网络输出第三预测值；根据第三预测值与观测值，计算第二损失函数的值，计算梯度；根据梯度，对物理参数进行更新，得到目标物理参数；将目标物理参数配置到仿真器中，得到目标仿真器。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能技术，尤其是一种训练方法、视频生成方法和装置、电子设备、程序产品。

技术介绍

1、策略模型（policy）是指机器人等智能体（agent）在特定状态下选择动作的规则‌。policy是用来驱动机器人的核心组成部分，其输入是各种感知信息，如相机拍到的视频、机器人各个关节的位置等，输出是机器人要执行的动作‌。

2、对policy进行训练需要大量的训练数据，然而，在现实世界中收集此类数据一般是昂贵、耗时的，并且在可扩展性和可重复性方面往往有限。在仿真环境下获取训练数据，可以降低成本，但可能存在其他方面的问题，例如，在仿真环境下获得的训练数据的质量不高，与现实世界观测得到的训练数据的质量之间存在差异，不具备训练价值。

技术实现思路

1、为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种训练方法、视频生成方法和装置、电子设备、程序产品。

2、根据本公开实施例的第一方面，提供了一种训练方法，包括：将输入数据输入至仿真器，经仿真器，输出智能体在第t个时间...

【技术保护点】

1.一种训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络为多层感知机或包括注意力机制的神经网络。

3.根据权利要求1-2任一所述的方法，其特征在于，所述第一损失函数和/或所述第二损失函数，为均方误差损失函数或交叉熵损失函数。

4.一种训练方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，获取所述参考图像对应的图像序列，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述视频生成模型为视频扩散模型，所述视频扩散模型包括用于输入条件的至少一个第一通道和至少一...

【技术特征摘要】

1.一种训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络为多层感知机或包括注意力机制的神经网络。

3.根据权利要求1-2任一所述的方法，其特征在于，所述第一损失函数和/或所述第二损失函数，为均方误差损失函数或交叉熵损失函数。

4.一种训练方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，获取所述参考图像对应的图像序列，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述视频生成模型为视频扩散模型，所述视频扩散模型包括用于输入条件的至少一个第一通道和至少一个第二通道；

7.根据权利要求6所述的方法，其特征在于，所述视频扩散模型包括时空注意力机制。

8.一种视频生成方法，其特征...

【专利技术属性】
技术研发人员：朱政，王泊远，黄冠，
申请(专利权)人：北京极佳视界科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人