【技术实现步骤摘要】
本专利技术涉及计算机视觉与自然语言处理领域,更具体的说是涉及一种基于扩散模型的三维形状描述方法。
技术介绍
1、三维形状描述是计算机视觉与自然语言处理融合的关键任务,旨在通过自然语言精准描述三维物体的几何结构、材质属性及功能特征。该技术在虚拟现实、智能辅助设计、机器人感知等领域具有重要应用,但传统方法依赖人工标注或单视角分析,难以实现自动化、高精度的描述生成。
2、然而,现有方法多基于单一或少量二维投影视图生成描述,导致对三维模型的多维度几何细节(如曲面变化、遮挡部分)捕捉不足。例如,传统模型因视角限制易忽略物体背面或侧面的关键特征,生成描述缺乏空间完整性和细节准确性,且简单池化策略难以有效聚合跨视角信息。
3、同时,现有技术常采用级联式结构分离视觉特征提取与文本生成,导致视觉-文本语义关联弱化。自回归模型(如rnn)需逐词生成,效率低下;而gan等并行生成模型受限于模式坍缩,输出多样性不足,难以平衡生成速度与语义连贯性。
4、此外,传统扩散模型采用固定的加噪机制(如线性/余弦),未适配三维形状描述的
...【技术保护点】
1.一种基于扩散模型的三维形状描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述S1包括:
3.根据权利要求1所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述S2中,预训练的视觉语言模型为ViLT模型,所述生成联合嵌入表示包括:
4.根据权利要求1所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述S3中,正向加噪包括:
5.根据权利要求4所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述平方根加噪机制中,βt的取值满足:
【技术特征摘要】
1.一种基于扩散模型的三维形状描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述s1包括:
3.根据权利要求1所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述s2中,预训练的视觉语言模型为vilt模型,所述生成联合嵌入表示包括:
4.根据权利要求1所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述s3中,正向加噪包括:
5.根据权利要求4所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述平方根加噪机制中,βt的取值满足:
6.根据权利要求4所述的一种基于扩散模型的三维形状描述方法,其特征在于,所述s3中,...
【专利技术属性】
技术研发人员:舒振宇,文佳伟,李世阳,辛士庆,刘利刚,
申请(专利权)人:浙大宁波理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。