生成驾驶场景视频的处理方法、模型的训练方法和装置制造方法及图纸

技术编号:44501536 阅读:20 留言:0更新日期:2025-03-07 13:01
本公开实施例公开了一种生成驾驶场景视频的处理方法、模型的训练方法和装置,其中,方法包括:获取多模态场景数据;基于多模态场景数据,生成各视角分别对应的场景二维特征及未来预设帧数的场景环境预测信息;基于各视角分别对应的场景二维特征和场景环境预测信息,利用视频生成模型,生成驾驶场景视频。本公开实施例通过将场景环境预测信息作为条件信号,用于约束生成的驾驶场景视频,使得生成的驾驶场景视频更加符合驾驶场景的道路类型、交通规则、车辆行为等条件,从而有助于提升驾驶场景视频的准确性和可靠性。

【技术实现步骤摘要】

本公开涉及人工智能,尤其是一种生成驾驶场景视频的处理方法、模型的训练方法和装置


技术介绍

1、随着人工智能(artificial intelligence,简称:ai)技术的持续发展,ai生成技术取得了长足的进步,从最初的文本生成,到现在的文本至图像(text-to-image)、文本至视频(text-to-video)以及文本至三维(text-to-3d)等的生成技术,ai的生成能力不断拓展,为实现人与计算机之间更自然、更直观的交互奠定了坚实的基础。相比于传统的ai生成工作,自动驾驶数据生成面临更为复杂的挑战。在自动驾驶领域,生成数据不仅需要满足文本到图像、视频或3d场景的转换,同时还要符合严格的驾驶场景模拟要求。驾驶场景模拟要求例如可以包括各种天气条件、道路类型、交通规则、车辆行为等复杂条件,以便提供高质量的训练数据,用于优化自动驾驶系统的性能。

2、相关技术中,通常基于video-ldm(video-latent diffusion models,视频潜在扩散模型)生成驾驶场景视频,即以扩散模型(diffusion model)为基础,本文档来自技高网...

【技术保护点】

1.一种生成驾驶场景视频的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多模态场景数据,生成各所述视角分别对应的场景二维特征,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述三维空间特征,预测所述场景环境预测信息,包括:

5.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:

6.根据权利要求2-5任一所述的方法,其...

【技术特征摘要】

1.一种生成驾驶场景视频的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多模态场景数据,生成各所述视角分别对应的场景二维特征,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述三维空间特征,预测所述场景环境预测信息,包括:

5.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:

6.根据权利要求2-5任一所述的方法,其特征在于,所述多模态场景数据包括所述至少一帧场景图像数据、所述场景环境描述文本数据和所述车辆控制信号;

7.一种用于生成驾驶场景视频的生成模型的训练方法,其特征在于,包括:

8.根据权利要求7所述的方法,其特征在于,每个所述第一训练样本包括训练多模态场景数据、及未来预设帧数的训练场景环境真值信息;训练多模态场景数据包括至少一帧训练场景图像数据,以及训练场景鸟瞰图、训练场景环境描述文本数据、训练车辆控制信号中的至少一者;每帧...

【专利技术属性】
技术研发人员:王啸峰朱政黄冠
申请(专利权)人:北京极佳视界科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1