4D内容生成方法、装置、设备、介质及计算机程序产品制造方法及图纸

技术编号:42233783 阅读:16 留言:0更新日期:2024-08-02 13:48
本发明专利技术公开了一种4D内容生成方法、装置、设备、介质及计算机程序产品,涉及4D技术领域,包括:利用预训练语言模型对4D内容的文本描述进行文本描述抽取,得到若干关键状态的文本描述;根据关键状态的文本描述,采用文本驱动的3D生成算法生成相应的3D表示以及关键帧;3D表示用于描述三维空间中物体形状、结构以及属性;对关键帧进行插值,得到插值帧以及对应的3D表示;对关键帧对应的3D表示与插值帧对应的3D表示进行优化,得到4D内容。该方法借助预训练语言模型获取动态内容关键状态的文本描述,不仅丰富了单一信息输入,而且通过将长时间4D内容生成拆解为多个子段的生成简化了问题的难度,提升了4D内容生成的质量及时长。

【技术实现步骤摘要】

本专利技术涉及4d,特别涉及一种4d内容生成方法、装置、设备、介质及计算机程序产品。


技术介绍

1、4d(dimensions,维)是指3d添加了时间维度,4d内容生成即是指动态3d内容生成。4d内容生成允许在任意时刻从任意角度渲染3d内容。与图像、视频等生成任务不同,4d内容生成缺少相关数据集,因而不能采用常规的监督学习方法训练4d内容生成模型。目前针对4d内容生成大致分为两类:一类是基于视频生成模型得到的显式视频结果,进行非刚性4d重建。然而,从动态视频中重建出3d目标物体本身是一个极具挑战的难题。一类是隐式借助视频生成模型,通过渲染大量随机相机视角下的视频,使渲染得到的视频能够被视频生成模型所识别,从而拟合得到4d内容表示。这类方法通过迭代优化的方式,相比于前一类单次重建的方式,极大降低了4d内容的生成难度。但是,基于视频生成模型的隐式生成方法,仅依靠视频生成模型的整体判别能力,全局地评判生成的视频是否符合文本输入描述,从而细节控制能力弱。而且,当生成较长时间的4d内容时,由于常常会带来细节的遗漏,效果往往较差,无法保证能够生成与文本描述条件输入符合本文档来自技高网...

【技术保护点】

1.一种4D内容生成方法,其特征在于,包括:

2.根据权利要求1所述的4D内容生成方法,其特征在于,利用预训练语言模型对4D内容的文本描述进行文本描述抽取,得到若干个关键状态的文本描述包括:

3.根据权利要求1所述的4D内容生成方法,其特征在于,根据所述关键状态的文本描述,采用文本驱动的3D生成算法生成相应的3D表示以及关键帧包括:

4.根据权利要求3所述的4D内容生成方法,其特征在于,根据首个关键状态的文本描述,得到对应的初始3D表示包括:

5.根据权利要求4所述的4D内容生成方法,其特征在于,根据预测的噪声与第一预设损失函数优化所述3D...

【技术特征摘要】

1.一种4d内容生成方法,其特征在于,包括:

2.根据权利要求1所述的4d内容生成方法,其特征在于,利用预训练语言模型对4d内容的文本描述进行文本描述抽取,得到若干个关键状态的文本描述包括:

3.根据权利要求1所述的4d内容生成方法,其特征在于,根据所述关键状态的文本描述,采用文本驱动的3d生成算法生成相应的3d表示以及关键帧包括:

4.根据权利要求3所述的4d内容生成方法,其特征在于,根据首个关键状态的文本描述,得到对应的初始3d表示包括:

5.根据权利要求4所述的4d内容生成方法,其特征在于,根据预测的噪声与第一预设损失函数优化所述3d高斯表示包括:

6.根据权利要求5所述的4d内容生成方法,其特征在于,所述值蒸馏采样损失函数为;表示预测的噪声,表示加噪后图像,表示扩散时刻,表示关键状态的文本描述编码得到的向量,表示随机噪声,表示渲染得到的2d图像,表示待优化的3d表示,表示随机相机视角。

7.根据权利要求3所述的4d内容生成方法,其特征在于,根据其他关键状态的文本描述,得到其他关键状态对应的3d偏移量包括:

8.根据权利要求7所述的4d内容生成方法,其特征在于,根据预测的噪声与第二预设损失函数优化所述3d高斯表示中的3d高斯偏移量包括:

9.根据权利要求8所述的4d内容生成方法,其特征在于,所述主体一致性损失函数为;表示首个关键帧,表示3d表示渲染得到的关键帧,表示网络第i层的特征表示。

10.根据权利要求1所述的4d内容生成方法...

【专利技术属性】
技术研发人员:杜国光范宝余赵雅倩王丽郭振华鲁璐李仁刚
申请(专利权)人:山东海量信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1