【技术实现步骤摘要】
本专利技术涉及一种图像数据处理技术,特别是一种基于混合条件变分自编码的多样化图像描述生成方法。
技术介绍
1、图像描述生成,旨在生成语法正确且与图像语义匹配的描述语句,在图像理解领域引起了极大的关注。随着近年来深度学习技术的兴起,受神经机器翻译启发的编解码(encoder-decoder)框架在图像描述领域中被广泛采用。其中卷积神经网络(convolutional neural networks,cnn)作为编码器提取图像特征,解码器则采用循环神经网络(recurrent neural network models,rnn)将图像特征解码成对应的描述,或者直接采用transformer模型实现整个编码器解码器架构。这些方法已经在一些准确性评价指标上取得了显著的性能提升。然而,现有模型大多关注从图像空间到文本空间的确定性映射,导致严重的模式坍塌问题。
2、为了解决模式坍塌问题,生成对抗网络(generative adversarial network,gan)和变分自编码器(variationalauto encoders,v
...【技术保护点】
1.一种基于混合条件变分自编码的多样化图像描述生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,全局条件变分编码网络处理数据的过程包括:
3.根据权利要求2所述的方法,其特征在于,抽取视觉特征VN和文本特征WN的全局特征表示的过程包括:
4.根据权利要求3所述的方法,其特征在于,将qφ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布qφ1(g|I,x)=N(g;μ;σ),使用前馈网络将VA和WA映射为均值μ(x,I)与标准差σ(x,I),并通过重参数技巧
5.根据权利要求3所述的
...【技术特征摘要】
1.一种基于混合条件变分自编码的多样化图像描述生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,全局条件变分编码网络处理数据的过程包括:
3.根据权利要求2所述的方法,其特征在于,抽取视觉特征vn和文本特征wn的全局特征表示的过程包括:
4.根据权利要求3所述的方法,其特征在于,将qφ1(g|i,x)建模为均值μ(x,i)和标准差σ(x,i)的高斯分布qφ1(g|i,x)=n(g;μ;σ),使用前馈网络将va和wa映射为均值μ(x,i)与标准差σ(x,i),并通过重参数技巧
5.根据权利要求3所述的方法,其特征在于,先验分支网络pθ(g|i)使用前馈网络将v...
【专利技术属性】
技术研发人员:刘明明,刘兵,李穗,王栋,范学慧,张行,张海燕,戚海永,马衍颂,
申请(专利权)人:江苏建筑职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。