一种基于扩散模型的三维形状描述方法技术

技术编号：46052543 阅读：12 留言：0更新日期：2025-08-11 15:40

本发明专利技术公开了一种基于扩散模型的三维形状描述方法，涉及计算机视觉与自然语言处理领域，包括以下步骤：对三维模型进行多视角二维渲染，生成多张二维投影图像；利用预训练的视觉语言模型提取所述二维投影图像的图像嵌入表示以及文本嵌入表示，并生成联合嵌入表示；基于所述联合嵌入表示，通过扩散模型进行正向加噪以及反向去噪，生成多视角下的描述文本；对多视角下的描述文本进行整合，获得对应的三维形状描述结果。该方法通过多视角渲染和ViLT模型提取联合嵌入表示，结合扩散模型生成多样化高质量描述文本，并采用最大池化聚合策略优化整体描述一致性，显著提升了三维形状描述的准确性和自然度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与自然语言处理领域，更具体的说是涉及一种基于扩散模型的三维形状描述方法。

技术介绍

1、三维形状描述是计算机视觉与自然语言处理融合的关键任务，旨在通过自然语言精准描述三维物体的几何结构、材质属性及功能特征。该技术在虚拟现实、智能辅助设计、机器人感知等领域具有重要应用，但传统方法依赖人工标注或单视角分析，难以实现自动化、高精度的描述生成。

2、然而，现有方法多基于单一或少量二维投影视图生成描述，导致对三维模型的多维度几何细节(如曲面变化、遮挡部分)捕捉不足。例如，传统模型因视角限制易忽略物体背面或侧面的关键特征，生成描述缺乏空间完整性和细节准确性，且简单池化策略难以有效聚合跨视角信息。

3、同时，现有技术常采用级联式结构分离视觉特征提取与文本生成，导致视觉-文本语义关联弱化。自回归模型(如rnn)需逐词生成，效率低下；而gan等并行生成模型受限于模式坍缩，输出多样性不足，难以平衡生成速度与语义连贯性。

4、此外，传统扩散模型采用固定的加噪机制(如线性/余弦)，未适配三维形状描述的...

【技术保护点】

1.一种基于扩散模型的三维形状描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于扩散模型的三维形状描述方法，其特征在于，所述S1包括：

3.根据权利要求1所述的一种基于扩散模型的三维形状描述方法，其特征在于，所述S2中，预训练的视觉语言模型为ViLT模型，所述生成联合嵌入表示包括：

4.根据权利要求1所述的一种基于扩散模型的三维形状描述方法，其特征在于，所述S3中，正向加噪包括：

5.根据权利要求4所述的一种基于扩散模型的三维形状描述方法，其特征在于，所述平方根加噪机制中，βt的取值满足：