当前位置: 首页 > 专利查询>山东海量信息技术研究院专利>正文

4D内容生成方法、装置、设备、介质及计算机程序产品制造方法及图纸

技术编号：42233783 阅读：16 留言：0更新日期：2024-08-02 13:48

本发明专利技术公开了一种4D内容生成方法、装置、设备、介质及计算机程序产品，涉及4D技术领域，包括：利用预训练语言模型对4D内容的文本描述进行文本描述抽取，得到若干关键状态的文本描述；根据关键状态的文本描述，采用文本驱动的3D生成算法生成相应的3D表示以及关键帧；3D表示用于描述三维空间中物体形状、结构以及属性；对关键帧进行插值，得到插值帧以及对应的3D表示；对关键帧对应的3D表示与插值帧对应的3D表示进行优化，得到4D内容。该方法借助预训练语言模型获取动态内容关键状态的文本描述，不仅丰富了单一信息输入，而且通过将长时间4D内容生成拆解为多个子段的生成简化了问题的难度，提升了4D内容生成的质量及时长。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及4d，特别涉及一种4d内容生成方法、装置、设备、介质及计算机程序产品。

技术介绍

1、4d（dimensions，维）是指3d添加了时间维度，4d内容生成即是指动态3d内容生成。4d内容生成允许在任意时刻从任意角度渲染3d内容。与图像、视频等生成任务不同，4d内容生成缺少相关数据集，因而不能采用常规的监督学习方法训练4d内容生成模型。目前针对4d内容生成大致分为两类：一类是基于视频生成模型得到的显式视频结果，进行非刚性4d重建。然而，从动态视频中重建出3d目标物体本身是一个极具挑战的难题。一类是隐式借助视频生成模型，通过渲染大量随机相机视角下的视频，使渲染得到的视频能够被视频生成模型所识别，从而拟合得到4d内容表示。这类方法通过迭代优化的方式，相比于前一类单次重建的方式，极大降低了4d内容的生成难度。但是，基于视频生成模型的隐式生成方法，仅依靠视频生成模型的整体判别能力，全局地评判生成的视频是否符合文本输入描述，从而细节控制能力弱。而且，当生成较长时间的4d内容时，由于常常会带来细节的遗漏，效果往往较差，无法保证能够生成与...

【技术保护点】

1.一种4D内容生成方法，其特征在于，包括：

2.根据权利要求1所述的4D内容生成方法，其特征在于，利用预训练语言模型对4D内容的文本描述进行文本描述抽取，得到若干个关键状态的文本描述包括：

3.根据权利要求1所述的4D内容生成方法，其特征在于，根据所述关键状态的文本描述，采用文本驱动的3D生成算法生成相应的3D表示以及关键帧包括：

4.根据权利要求3所述的4D内容生成方法，其特征在于，根据首个关键状态的文本描述，得到对应的初始3D表示包括：

5.根据权利要求4所述的4D内容生成方法，其特征在于，根据预测的噪声与第一预设损失函数优化所述3D...

【技术特征摘要】

1.一种4d内容生成方法，其特征在于，包括：

2.根据权利要求1所述的4d内容生成方法，其特征在于，利用预训练语言模型对4d内容的文本描述进行文本描述抽取，得到若干个关键状态的文本描述包括：

3.根据权利要求1所述的4d内容生成方法，其特征在于，根据所述关键状态的文本描述，采用文本驱动的3d生成算法生成相应的3d表示以及关键帧包括：

4.根据权利要求3所述的4d内容生成方法，其特征在于，根据首个关键状态的文本描述，得到对应的初始3d表示包括：

5.根据权利要求4所述的4d内容生成方法，其特征在于，根据预测的噪声与第一预设损失函数优化所述3d高斯表示包括：

6.根据权利要求5所述的4d内容生成方法，其特征在于，所述值蒸馏采样损失函数为；表示预测的噪声，表示加噪后图像，表示扩散时刻，表示关键状态的文本描述编码得到的向量，表示随机噪声，表示渲染得到的2d图像，表示待优化的3d表示，表示随机相机视角。

7.根据权利要求3所述的4d内容生成方法，其特征在于，根据其他关键状态的文本描述，得到其他关键状态对应的3d偏移量包括：

8.根据权利要求7所述的4d内容生成方法，其特征在于，根据预测的噪声与第二预设损失函数优化所述3d高斯表示中的3d高斯偏移量包括：

9.根据权利要求8所述的4d内容生成方法，其特征在于，所述主体一致性损失函数为；表示首个关键帧，表示3d表示渲染得到的关键帧，表示网络第i层的特征表示。

10.根据权利要求1所述的4d内容生成方法...

【专利技术属性】
技术研发人员：杜国光，范宝余，赵雅倩，王丽，郭振华，鲁璐，李仁刚，
申请(专利权)人：山东海量信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术