基于词性引导扩散网络的可控图像描述生成方法技术

技术编号：44818074 阅读：17 留言：0更新日期：2025-03-28 20:06

本发明专利技术提供了一种基于词性引导扩散网络(POSCD‑Net)的可控图像描述生成方法，包括：采用预训练的CLIP模型获取图像特征，并经过训练的映射网络MapNet将图像特征投影到潜在的嵌入空间中；基于扩散的词序列生成器获取对标签序列进行处理获取词向量、预测噪声，根据预测的噪声重构标签序列；基于扩散的描述性生成器对词向量、重构标签序列、图像特征进行处理获得图像的描述。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种图像描述生成技术，特别是一种基于词性引导扩散网络的可控图像描述生成方法。

技术介绍

1、图像描述生成是视觉和语言领域的一项基础任务，旨在用自然语言句子描述图像的相关语义。凭借先进的基于transformer的编码器-解码器架构，当前的自回归描述生成模型在大多数基于准确性的评估指标上取得了显著进展。扩散模型以非自回归的方式提高了图像描述生成的准确性。然而，这些以准确性为导向的模型往往倾向于学习训练语料库中频繁出现的模式，即所谓的模型崩溃问题。为了应对模型崩溃问题，研究人员主要集中在两个方面：(1)多样化的图像描述生成(dic)，即提高生成描述的多样性；(2)可控的图像描述生成(cic)，即增强图像描述的可控性。在dic方面，已形成如生成对抗网络(gans)、变分自编码器(vaes)和扩散模型(dms)，这些基于扩散的dic方法仍然面临两个限制：(1)与传统扩散模型一样，生成样本的质量起伏不定；(2)对生成句子属性的控制有限。在cic领域，已经提出了各种方法来主动操控生成句子的内容或结构，但仍然受到两方面的限制：(1)现有...

【技术保护点】

1.一种基于词性引导扩散网络(POSCD-Net)的可控图像描述生成方法，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S100中采用预训练的CLIP模型获取图像特征I，并经过训练的映射网络MapNet将图像特征I投影到潜在的嵌入空间中得到V

3.根据权利要求2所述的方法，其特征在于，步骤S200包括：

4.根据权利要求3所述的方法，其特征在于，步骤S300包括：

5.根据权利要求4所述的方法，其特征在于，步骤S306中，在Syntactic ControlModule模块中条件输入u通过下采样后映射为键(K)和值(V)，映射为查询...

【技术特征摘要】

1.一种基于词性引导扩散网络(poscd-net)的可控图像描述生成方法，包括：

2.根据权利要求1所述的方法，其特征在于，步骤s100中采用预训练的clip模型获取图像特征i，并经过训练的映射网络mapnet将图像特征i投影到潜在的嵌入空间中得到v

3.根据权利要求2所述的方法，其特征在于，步骤s200...

【专利技术属性】
技术研发人员：刘兵，杨文杰，夏同强，刘鹏，刘浩，刘明明，
申请(专利权)人：徐州安创矿视智能科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人