【技术实现步骤摘要】
本专利技术涉及一种图像描述生成技术,特别是一种基于词性引导扩散网络的可控图像描述生成方法。
技术介绍
1、图像描述生成是视觉和语言领域的一项基础任务,旨在用自然语言句子描述图像的相关语义。凭借先进的基于transformer的编码器-解码器架构,当前的自回归描述生成模型在大多数基于准确性的评估指标上取得了显著进展。扩散模型以非自回归的方式提高了图像描述生成的准确性。然而,这些以准确性为导向的模型往往倾向于学习训练语料库中频繁出现的模式,即所谓的模型崩溃问题。为了应对模型崩溃问题,研究人员主要集中在两个方面:(1)多样化的图像描述生成(dic),即提高生成描述的多样性;(2)可控的图像描述生成(cic),即增强图像描述的可控性。在dic方面,已形成如生成对抗网络(gans)、变分自编码器(vaes)和扩散模型(dms),这些基于扩散的dic方法仍然面临两个限制:(1)与传统扩散模型一样,生成样本的质量起伏不定;(2)对生成句子属性的控制有限。在cic领域,已经提出了各种方法来主动操控生成句子的内容或结构,但仍然受到两方面的限制:(1)现有
...【技术保护点】
1.一种基于词性引导扩散网络(POSCD-Net)的可控图像描述生成方法,包括:
2.根据权利要求1所述的方法,其特征在于,步骤S100中采用预训练的CLIP模型获取图像特征I,并经过训练的映射网络MapNet将图像特征I投影到潜在的嵌入空间中得到V
3.根据权利要求2所述的方法,其特征在于,步骤S200包括:
4.根据权利要求3所述的方法,其特征在于,步骤S300包括:
5.根据权利要求4所述的方法,其特征在于,步骤S306中,在Syntactic ControlModule模块中条件输入u通过下采样后映射为键(K)和
...【技术特征摘要】
1.一种基于词性引导扩散网络(poscd-net)的可控图像描述生成方法,包括:
2.根据权利要求1所述的方法,其特征在于,步骤s100中采用预训练的clip模型获取图像特征i,并经过训练的映射网络mapnet将图像特征i投影到潜在的嵌入空间中得到v
3.根据权利要求2所述的方法,其特征在于,步骤s200...
【专利技术属性】
技术研发人员:刘兵,杨文杰,夏同强,刘鹏,刘浩,刘明明,
申请(专利权)人:徐州安创矿视智能科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。