基于多模态的三维内容生成方法、装置、设备及存储介质制造方法及图纸

技术编号：38761983 阅读：15 留言：0更新日期：2023-09-10 10:35

本发明专利技术公开了一种基于多模态的三维内容生成方法、装置、设备及存储介质，属于三维内容生成领域，用于实现基于多模态的数据生成三维内容，解决了只能基于文本数据生成三维内容的技术问题。本发明专利技术预先获取若干文本数据以及与文本数据一一对应的描述同一对象的目标模态数据，作为训练数据集，然后基于训练数据集、文本数据编码器以及目标模态数据编码器，对目标模态数据编码器进行训练，使得目标模态数据编码器提取出的目标模态数据的数据特征与文本数据提取出的文本数据的数据特征位于同一目标语义空间，如此一来，便可以将目标模态数据位于目标语义空间的数据特征转换为三维内容，满足了用户将多模态数据转换为三维内容的需求，提升了用户体验。提升了用户体验。提升了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态的三维内容生成方法、装置、设备及存储介质

[0001]本专利技术涉及三维内容生成领域，特别是涉及一种基于多模态的三维内容生成方法，本专利技术还涉及一种基于多模态的三维内容生成装置、设备、服务器、服务器集群及计算机可读存储介质。

技术介绍

[0002]三维内容的生成技术已经应用于多个领域，例如零件、汽车、飞机以及建筑设计等领域，相关技术中在生成三维内容时，需要基于用户提供的文本数据生成对应的三维内容，但是也仅仅能够将文本数据转换为三维内容，也就是说，用户无法将除文本数据之外的其他模态的数据转换为三维内容，难以满足用户多样化的需求，降低了用户体验。
[0003]因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

技术实现思路

[0004]本专利技术的目的是提供一种基于多模态的三维内容生成方法，可以将目标模态数据位于目标语义空间的数据特征转换为三维内容，满足了用户将多模态数据转换为三维内容的需求，提升了用户体验；本专利技术的另一目的是提供一种基于多模态的三维内容生成装置、设备、服务器、服务器集群及计算机可读存储介质，可以将目标模态数据位于目标语义空间的数据特征转换为三维内容，满足了用户将多模态数据转换为三维内容的需求，提升了用户体验。
[0005]为解决上述技术问题，本专利技术提供了一种基于多模态的三维内容生成方法，包括：获取若干文本数据以及与所述文本数据一一对应的描述同一对象的目标模态数据，作为训练数据集；基于所述训练数据集、文本数据编码器以及目标模态数...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的三维内容生成方法，其特征在于，包括：获取若干文本数据以及与所述文本数据一一对应的描述同一对象的目标模态数据，作为训练数据集；基于所述训练数据集、文本数据编码器以及目标模态数据编码器，对所述目标模态数据编码器进行训练，以便所述目标模态数据编码器提取出的目标模态数据的数据特征与所述文本数据提取出的文本数据的数据特征位于同一目标语义空间；通过训练后的所述目标模态数据编码器对目标模态的待处理数据进行编码，得到待处理数据特征；根据所述待处理数据特征生成与所述待处理数据对应的三维内容；其中，所述目标模态数据包括语音数据以及点云数据，所述目标模态数据编码器包括语音数据编码器以及点云数据编码器。2.根据权利要求1所述的基于多模态的三维内容生成方法，其特征在于，当所述目标模态数据为语音数据时，所述基于所述训练数据集、文本数据编码器以及目标模态数据编码器，对所述目标模态数据编码器进行训练具体为：基于所述训练数据集、文本数据编码器以及语音数据编码器以及文本与语音模态的第一对比损失函数，对所述语音数据编码器进行训练；当所述目标模态数据为点云数据时，所述基于所述训练数据集、文本数据编码器以及目标模态数据编码器，对所述目标模态数据编码器进行训练具体为：将所述训练数据集中的目标文本数据输入文本编码器，得到所述文本数据对应的文本数据特征；将所述训练数据集中与所述目标文本数据对应的目标点云数据输入点云数据编码器，得到所述目标点云数据对应的点云数据特征；基于文本与点云模态的第二对比损失函数，通过所述目标点云数据对应的点云数据特征的自身内部对比，以及所述目标点云数据对应的点云数据特征与所述文本数据特征间的外部对比，对所述点云数据编码器进行训练。3.根据权利要求2所述的基于多模态的三维内容生成方法，其特征在于，所述基于文本与点云模态的第二对比损失函数，通过所述目标点云数据对应的点云数据特征的自身内部对比，以及所述目标点云数据对应的点云数据特征与所述文本数据特征间的外部对比，对所述点云数据编码器进行训练包括：通过多层感知器对所述目标点云数据对应的点云数据特征进行多次不同的信息丢弃，得到多个所述目标点云数据对应的经过不同信息丢弃的多个点云数据特征；基于文本与点云模态的第二对比损失函数，通过所述目标点云数据对应的点云数据特征的自身内部对比，以及所述目标点云数据对应的点云数据特征与所述文本数据特征间的外部对比，对所述点云数据编码器进行训练；其中，所述内部对比为：将同一所述目标点云数据对应的经过不同信息丢弃的多个点云数据特征作为正样本，将不同所述目标点云数据对应的所述点云数据特征作为负样本，对所述目标点云数据对应的点云数据特征的自身内部对比。4.根据权利要求2所述的基于多模态的三维内容生成方法，其特征在于，所述第一对比损失函数包括：
；其中，S表示文本模态，A表示语音模态，为文本模态与语音模态的数据对比损失，表示为文本模态的第i个样本提取的特征，表示语音模态的第j个样本提取的特征，Sim表示两个向量的cosine相似度，N为单一批次内的样本数量，τ为预定义的超参数，为语音模态的第i个样本提取的特征。5.根据权利要求3所述的基于多模态的三维内容生成方法，其特征在于，所述第二对比损失函数包括：；；；其中，P代表点云模态，为文本模态与点云模态的对比损失，为所述目标点云数据对应的点云数据特征的自身内部对比的对比损失，为所述目标点云数据对应的点云数据特征与所述文本数据特征间的外部对比的对比损失，和是点云样本i经过两次不同的信息丢弃得到的特征向量，和是点云样本j经过两次不同的信息丢弃得到的特征向量，表示为文本模态的第i个样本提取的特征，λ为预设系数，N为单一批次内的样本数量，τ为预定义的超参数。6.根据权利要求1所述的基于多模态的三维内容生成方法，其特征在于，所述文本数据编码器包括基于对比文本
‑
图像对的预训练模型。7.根据权利要求2所述的基于多模态的三维内容生成方法，其特征在于，所述语音数据编码器包括预训练的音频神经网络模型。8.根据权利要求2所述的基于多模态的三维内容生成方法，其特征在于，所述通过训练后的所述目标模态数据编码器对目标模态的待处理数据进行编码，得到待处理数据特征之后，所述根据所述待处理数据特征生成与所述待处理数据对应的三维内容之前，该基于多
模态的三维内容生成方法还包括：将指定模态的待编码数据位于所述目标语义空间的数据特征作为输入，将与所述待编码数据描述同一对象的点云数据特征作为输出，通过指定模态特征与点云特征之间的第一损失函数，对第一目标扩散模型进行训练，以便将所述目标语义空间的数据特征直接映射至点云数据特征；将所述待处理数据特征输入经过训练的所述第一目标扩散模型，得到位于所述目标语义空间的与所述待处理数据对应的目标点云特征；所述根据所述待处理数据特征生成与所述待处理数据对应的三维内容包括：根据所述目标点云特征生成与所述待处理数据对应的三维内容。9.根据权利要求8所述的基于多模态的三维内容生成方法，其特征在于，所述将指定模态的待编码数据位于所述目标语义空间的数据特征作为输入，将与所述待编码数据描述同一对象的点云数据特征作为输出，通过指定模态特征与点云特征之间的第一损失函数，对第一目标扩散模型进行训练，以便将所述目标语义空间的数据特征直接映射至点云数据特征包括：获取指定模态的待编码数据位于所述目标语义空间的数据特征、与所述待编码数据描述同一对象的点云数据特征以及与所述待编码数据描述同一对象的图像数据；判断随机生成的随机概率是否大于预设阈值；若大于，将所述指定模态的待编码数据位于所述目标语义空间的数据特征作为输入，将与所述待编码数据描述同一对象的点云数据特征作为输出；若不...

【专利技术属性】
技术研发人员：张润泽，李仁刚，赵雅倩，郭振华，范宝余，王丽，王立，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人