基于多模态预训练模型的三维内容生成方法及相关组件技术

技术编号：40209302 阅读：7 留言：0更新日期：2024-02-02 22:19

本申请公开了一种基于多模态预训练模型的三维内容生成方法及相关组件，涉及数据处理领域，用于解决生成三维内容速度慢的问题。该方案获取用户输入的目标文本描述；基于目标文本描述及多模态预训练模型在三维内容数据库中检索，确定第一三维内容并确定对应的第三文本描述；确定目标文本描述与第三文本描述间的文本描述差异；基于文本描述差异驱动第一三维内容变形，得到目标三维内容。本申请利用多模态预训练模型在三维内容数据库中进行检索，能够更快速地确定第一三维内容，再基于目标文本描述对其进行变形，得到与目标文本描述对应的目标三维内容，相比于从零生成三维内容，能够更快地生成符合要求的目标三维内容，提高了生成的效率和速度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理领域，特别涉及一种基于多模态预训练模型的三维内容生成方法及相关组件。

技术介绍

1、人工智能内容生成（aigc，artificial intelligence generated content）是利用人工智能技术自动生成包括文本、音频、图像等形式的数字化内容，它在影视、娱乐、传媒等行业中发挥着重要作用，提高了内容创作者的工作效率和质量，推动了企业的数字化和智能化进程。

2、其中，3d（three dimensional，三维）内容智能生成技术是aigc的重要应用之一，通过生成式ai技术和图文多模态预训练模型的发展，现在可以通过文本描述来指导生成高质量、多样化的3d内容。文本描述经过多模态预训练模型编码后，可以通过生成前控制或生成后引导的方式，指导生成模型生成目标3d内容，取得较好的结果。

3、然而，现有的基于文本描述生成3d内容方法存在一些问题，通常情况下，它们需要从零开始生成3d内容，导致生成速度慢、效率低。例如，一种常用的方法是通过去噪扩散概率生成模型，从完全噪声出发，经过大量的去噪过程才能得到最终的3d内容，这需要耗费大量时间。

技术实现思路

1、本申请的目的是提供一种基于多模态预训练模型的三维内容生成方法及相关组件，利用多模态预训练模型在三维内容数据库中进行检索，能够更快速地确定第一三维内容，然后再基于目标文本描述对其进行变形，从而得到与目标文本描述对应的目标三维内容，相比于从零生成三维内容，能够更快地生成符合要求的目标三维内容，提高了生成的效率和速度。

2、为解决上述技术问题，本申请提供了一种基于多模态预训练模型的三维内容生成方法，包括：

3、获取用户输入的目标文本描述；

4、基于所述目标文本描述及多模态预训练模型在三维内容数据库中进行检索，确定第一三维内容；

5、获取所述第一三维内容对应的第三文本描述；

6、确定所述目标文本描述与所述第三文本描述之间的文本描述差异；

7、基于所述文本描述差异驱动所述第一三维内容进行变形，得到所述目标三维内容。

8、在一种实施例中，基于所述目标文本描述及多模态预训练模型在三维内容数据库中进行检索，确定第一三维内容，包括：

9、基于所述目标文本描述及多模态预训练模型在三维内容数据库中进行检索，确定与所述目标文本描述对应的目标类别；

10、从与所述目标类别对应的各个三维内容中确定所述第一三维内容。

11、在一种实施例中，基于所述目标文本描述及多模态预训练模型在三维内容数据库中进行检索，确定与所述目标文本描述对应的目标类别，包括：

12、获取所述目标文本描述的第一描述子，以及获取所述三维内容数据中各个类别名称对应的第二描述子；

13、根据所述第一描述子和各个所述第二描述子确定与所述第一描述子的余弦距离最小的第二描述子为第一目标描述子；

14、将所述第一目标描述子对应的类别确定为所述目标类别。

15、在一种实施例中，获取所述目标文本描述的第一描述子，以及获取所述三维内容数据中各个类别名称对应的第二描述子，包括：

16、通过图文对比预训练模型获取所述目标文本描述对应的第三描述子以及各个所述类别名称对应的第四描述子；

17、通过预训练语言模型获取所述目标文本描述对应的第五描述子以及各个所述类别名称对应的第六描述子；

18、将所述第三描述子和所述第五描述子进行叠加，得到所述第一描述子；

19、将所述第四描述子和所述第六描述子进行叠加，得到所述第二描述子。

20、在一种实施例中，从与所述目标类别对应的各个三维内容中确定所述第一三维内容，包括：

21、获取所述目标类别中各个三维内容的第七描述子；

22、根据所述第一描述子和所述第七描述子确定与所述第一描述子的余弦距离最小的第七描述子为第二目标描述子；

23、将所述第二目标描述子对应的三维内容确定为所述第一三维内容。

24、在一种实施例中，获取所述目标类别中各个三维内容的第七描述子，包括：

25、对所述目标类别中的各个所述三维内容进行多视角的渲染，得到多个视角的第一二维图像；

26、基于自举图文预训练模型对各个所述第一二维图像进行处理，得到对应的第一文本描述；

27、获取各个所述第一文本描述对应的第一描述子，并将所述第一描述子作为所述第七描述子。

28、在一种实施例中，获取各个所述第一文本描述对应的第一描述子，并将所述第一描述子作为所述第七描述子，包括：

29、获取所述第一文本描述对应的第一文本描述子，以及获取各个所述第一二维图像对应的第一图像描述子；

30、将所述第一文本描述子和所述第一图像描述子进行叠加，得到第一混合描述子并作为所述第七描述子。

31、在一种实施例中，根据所述第一描述子和所述第七描述子确定与所述第一描述子的余弦距离最小的第七描述子为第二目标描述子之前，还包括：

32、基于所述目标文本描述得到与所述目标文本描述对应的第二二维图像；

33、获取与所述第二二维图像对应的第二图像描述子；

34、将所述第一描述子与所述第二图像描述子进行叠加，得到第二混合描述子；

35、根据所述第一描述子和所述第七描述子确定与所述第一描述子的余弦距离最小的第七描述子为第二目标描述子，包括：

36、根据所述第二混合描述子和各个所述第一混合描述子确定与所述第二混合描述子的余弦距离最小的第一混合描述子为所述第二目标描述子。

37、在一种实施例中，还包括：

38、构建混合描述子提取网络模型，并利用对比损失函数对所述混合描述子提取网络模型进行优化；

39、将所述对比损失函数的输出值小于第一阈值的混合描述子提取网络模型判定为满足第一迭代结束条件的混合描述子提取网络模型，并将所述满足第一迭代结束条件的混合描述子提取网络模型作为最终混合描述子提取网络模型；

40、获取所述第一文本描述对应的第一文本描述子，以及获取各个所述第一二维图像对应的第一图像描述子；将所述第一文本描述子和所述第一图像描述子进行叠加，得到第一混合描述子并作为所述第七描述子，包括：

41、将所述第一文本描述和各所述第一二维图像输入至所述最终混合描述子提取网络模型得到所述第一混合描述子；

42、获取与所述第二二维图像对应的第二图像描述子，将所述第一描述子与所述第二图像描述子进行叠加，得到第二混合描述子，包括：

43、将所述目标文本描述和所述第二二维图像输入至所述最终混合描述子提取网络模型得到第二混合描述子。

44、在一种实施例中，利用对比损失函数对所述混合描述子提取网络模型进行优化，包括：

45、将预设三维内容在预设视角下渲染得到的第本文档来自技高网...

【技术保护点】

1.一种基于多模态预训练模型的三维内容生成方法，其特征在于，包括：

2.如权利要求1所述的基于多模态预训练模型的三维内容生成方法，其特征在于，基于所述目标文本描述及多模态预训练模型在三维内容数据库中进行检索，确定第一三维内容，包括：

3.如权利要求2所述的基于多模态预训练模型的三维内容生成方法，其特征在于，基于所述目标文本描述及多模态预训练模型在三维内容数据库中进行检索，确定与所述目标文本描述对应的目标类别，包括：

4.如权利要求3所述的基于多模态预训练模型的三维内容生成方法，其特征在于，获取所述目标文本描述的第一描述子，以及获取所述三维内容数据中各个类别名称对应的第二描述子，包括：

5.如权利要求3所述的基于多模态预训练模型的三维内容生成方法，其特征在于，从与所述目标类别对应的各个三维内容中确定所述第一三维内容，包括：

6.如权利要求5所述的基于多模态预训练模型的三维内容生成方法，其特征在于，获取所述目标类别中各个三维内容的第七描述子，包括：

7.如权利要求6所述的基于多模态预训练模型的三维内容生成方法，其

8.如权利要求7所述的基于多模态预训练模型的三维内容生成方法，其特征在于，根据所述第一描述子和所述第七描述子确定与所述第一描述子的余弦距离最小的第七描述子为第二目标描述子之前，还包括：

9.如权利要求8所述的基于多模态预训练模型的三维内容生成方法，其特征在于，还包括：

10.如权利要求9所述的基于多模态预训练模型的三维内容生成方法，其特征在于，利用对比损失函数对所述混合描述子提取网络模型进行优化，包括：

11.如权利要求10所述的基于多模态预训练模型的三维内容生成方法，其特征在于，还包括：

12.如权利要求1-11任一项所述的基于多模态预训练模型的三维内容生成方法，其特征在于，获取所述第一三维内容对应的第三文本描述，包括：

13.如权利要求1所述的基于多模态预训练模型的三维内容生成方法，其特征在于，确定所述目标文本描述与所述第三文本描述之间的文本描述差异，包括：

14.如权利要求13所述的基于多模态预训练模型的三维内容生成方法，其特征在于，基于所述差异描述子驱动所述第一三维内容进行变形，得到所述目标三维内容，包括：

15.如权利要求14所述的基于多模态预训练模型的三维内容生成方法，其特征在于，还包括：

16.如权利要求15所述的基于多模态预训练模型的三维内容生成方法，其特征在于，对所述变形网络模型进行优化，将满足第二预设迭代结束条件的变形网络模型作为最终变形网络模型，包括：

17.如权利要求16所述的基于多模态预训练模型的三维内容生成方法，其特征在于，计算所述实际三维内容与目标三维内容之间的总损失函数的输出值，包括：

18.一种基于多模态预训练模型的三维内容生成系统，其特征在于，包括：

19.一种基于多模态预训练模型的三维内容生成装置，其特征在于，包括：

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-17任一项所述的基于多模态预训练模型的三维内容生成方法的步骤。

...

【技术特征摘要】

1.一种基于多模态预训练模型的三维内容生成方法，其特征在于，包括：

6.如权利要求5所述的基于多模态预训练模型的三维内容生成方法，其特征在于，获取所述目标类别中各个三维内容的第七描述子，包括：

7.如权利要求6所述的基于多模态预训练模型的三维内容生成方法，其特征在于，获取各个所述第一文本描述对应的第一描述子，并将所述第一描述子作为所述第七描述子，包括：

9.如权利要求8所述的基于多模态预训练模型的三维内容生成方法，其特征在于，还包括：

10.如权利要求9所述的基于多模态预训练模型的三维内容生成方法...

【专利技术属性】
技术研发人员：杜国光，范宝余，赵雅倩，王丽，郭振华，李仁刚，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人