【技术实现步骤摘要】
本公开涉及人工智能,尤其是一种生成驾驶场景视频的处理方法、模型的训练方法和装置。
技术介绍
1、随着人工智能(artificial intelligence,简称:ai)技术的持续发展,ai生成技术取得了长足的进步,从最初的文本生成,到现在的文本至图像(text-to-image)、文本至视频(text-to-video)以及文本至三维(text-to-3d)等的生成技术,ai的生成能力不断拓展,为实现人与计算机之间更自然、更直观的交互奠定了坚实的基础。相比于传统的ai生成工作,自动驾驶数据生成面临更为复杂的挑战。在自动驾驶领域,生成数据不仅需要满足文本到图像、视频或3d场景的转换,同时还要符合严格的驾驶场景模拟要求。驾驶场景模拟要求例如可以包括各种天气条件、道路类型、交通规则、车辆行为等复杂条件,以便提供高质量的训练数据,用于优化自动驾驶系统的性能。
2、相关技术中,通常基于video-ldm(video-latent diffusion models,视频潜在扩散模型)生成驾驶场景视频,即以扩散模型(diffusion
...【技术保护点】
1.一种生成驾驶场景视频的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述多模态场景数据,生成各所述视角分别对应的场景二维特征,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述三维空间特征,预测所述场景环境预测信息,包括:
5.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:
6.根据权利要求2-
...【技术特征摘要】
1.一种生成驾驶场景视频的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述多模态场景数据,生成各所述视角分别对应的场景二维特征,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述三维空间特征,预测所述场景环境预测信息,包括:
5.根据权利要求2所述的方法,其特征在于,基于所述多模态场景数据,生成未来预设帧数的场景环境预测信息,包括:
6.根据权利要求2-5任一所述的方法,其特征在于,所述多模态场景数据包括所述至少一帧场景图像数据、所述场景环境描述文本数据和所述车辆控制信号;
7.一种用于生成驾驶场景视频的生成模型的训练方法,其特征在于,包括:
8.根据权利要求7所述的方法,其特征在于,每个所述第一训练样本包括训练多模态场景数据、及未来预设帧数的训练场景环境真值信息;训练多模态场景数据包括至少一帧训练场景图像数据,以及训练场景鸟瞰图、训练场景环境描述文本数据、训练车辆控制信号中的至少一者;每帧...
【专利技术属性】
技术研发人员:王啸峰,朱政,黄冠,
申请(专利权)人:北京极佳视界科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。