一种基于音频和图像融合的三维模型生成方法及设备技术

技术编号：42785812 阅读：25 留言：0更新日期：2024-09-21 00:44

本发明专利技术涉及计算机视觉技术领域，公开了一种基于音频和图像融合的三维模型生成方法及设备，方法包括获取音频数据；对所述音频数据进行特征提取，得到音频特征向量；将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像；初始化一个三维模型，并利用所述音频特征向量从若干个随机角度渲染所述三维模型，生成若干个视角的第二二维图像；根据所述音频特征向量、所述第一二维图像和所述第二二维图像，对所述三维模型进行迭代优化，生成最终的三维模型。本发明专利技术能够学习音频和图像之间的复杂映射关系，保证了三维模型从多个视角学习三维场景的特性，不需要大规模三维标注数据集，实现了高质量和多样性兼具的三维模型生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，更具体地，涉及一种基于音频和图像融合的三维模型生成方法及设备。

技术介绍

1、在人工智能领域，将音频和图片转换为三维模型的技术正逐渐成熟，这对增强现实、虚拟现实和游戏开发等行业具有重要意义。该技术能够提供更加丰富和互动的用户体验。

2、现有的方法通常依赖于大量的三维训练数据，并结合深度学习和计算机视觉技术。这些方法通过提取音频和图像中的特征，将其映射到三维空间中，从而生成三维模型。然而，这些技术在数据处理过程中会面临较大的计算量，并且生成的模型常常与输入数据的同步性不足，表情和动作的自然性难以保证，生成的三维模型往往缺乏细节和逼真度，存在质量低和多样性低的缺陷。

技术实现思路

1、本专利技术为克服现有技术存在的生成的三维模型质量低和多样性低的缺陷，提出如下技术方案：

2、第一个方面，本专利技术提出一种基于音频和图像融合的三维模型生成方法，包括：

3、获取音频数据。

4、对所述音频数据进行特征提取，得到音频特征向量。</p>

5、将所本文档来自技高网...

【技术保护点】

1.一种基于音频和图像融合的三维模型生成方法，其特征在于，包括：

2.根据权利要求1所述的基于音频和图像融合的三维模型生成方法，其特征在于，将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像之前，所述方法还包括训练一个对抗扩散生成模型；所述对抗扩散生成模型包括图像编码器、UNet解码器和判别器，对所述对抗扩散生成模型进行训练，包括：

3.根据权利要求2所述的基于音频和图像融合的三维模型生成方法，其特征在于，所述判别器根据所述生成二维图像和输入的真实二维图像进行分类处理，输出生成二维图像为真实二维图像的概率值，包括：

<...

【技术特征摘要】

1.一种基于音频和图像融合的三维模型生成方法，其特征在于，包括：

2.根据权利要求1所述的基于音频和图像融合的三维模型生成方法，其特征在于，将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像之前，所述方法还包括训练一个对抗扩散生成模型；所述对抗扩散生成模型包括图像编码器、unet解码器和判别器，对所述对抗扩散生成模型进行训练，包括：

4.根据权利要求2所述的基于音频和图像融合的三维模型生成方法，其特征在于，根据所述生成二维图像、输入的真实二维图像以及所述概率值对所述判别器和所述unet解码器进行迭代优化，包括：

5.根据权利要求1所述的基于音频和图像融合的三维模型生成方法，其特征在于，对所述音频数据进行特征提取，得到音...

【专利技术属性】
技术研发人员：徐亚波，牟昊，李旭日，何宇轩，黄于晏，
申请(专利权)人：广东横琴数说故事信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人