System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于通道注意力和交叉注意力的文本生成图像方法,属于深度学习领域。
技术介绍
1、文本生成图像任务是图像生成领域的重难点之一,它属于自然语言处理和计算机视觉的交叉领域,旨在从给定的自然语言描述中生成真实的和文本一致的图像。文本生成图像可应用于图像描述生成、视觉推理、视觉问答、医疗图像生成等多个领域。近年来,随着深度学习的快速发展,文本生成图像的主流方法采用生成对抗网络。早期,mirza等人提出cgan,read等人提出gan-int-cls,但是通过这些方法生成的图像分辨率较低。为了解决生成的图像分辨率的问题,zhang等人提出了stack-gan,stack-gan主要是将生成高分辨率的图像过程分成不同阶段,在低分辨率图像生成阶段侧重生成图像的整体结构和布局,在高分辨率图像生成阶段侧重于纠正低分辨率阶段生成图像的一些错误以及丰富图像的一些细节纹理。
2、多阶段图像生成的方法虽然解决了生成图像分辨率低的问题,但是依然存在文本描述与生成图像语义一致性较低的问题。为了进一步提升生成图像与文本语义一致性,attngan中引入注意力机制,通过注意力把语义特征向量和生成图像中最相关的部分联系起来。dm-gan通过引入动态记忆化机制来使得初始图像自适应的选择重要的文本信息,但是依然存在生成图像缺失、生成图像质量不高、低分辨率阶段生成图像存在结构性错误的问题。在基于gans的文本生成图像网络模型中,动态存储生成网络模型是非常具有代表性的,但它的预训练文本编码器仍然忽略了图像kongjian和文本空间的语义鸿沟。
...【技术保护点】
1.一种基于通道注意力和交叉注意力的文本生成图像方法,其特征在于包括以下步骤:
2.权利要求1所述步骤一的交叉注意力编码器,由文本特征提取、图像特征提取、通道注意力编码和交叉注意力编码四部分组成:文本特征提取模块基于双向长短时记忆网络(BiLSTM)实现,提取全局句子特征向量s和文本信息输出单词特征矩阵W;图像特征提取模块基于InceptionV3网络实现,提取原图特征fv;原图特征fv和全局句子向量s经过通道注意力模块,通过通道注意力的图像特征和全局句子向量分别为fv′和s′;图像特征fv′和全局句子向量s′经交叉注意力进行对齐和翻译,最终输出交叉注意力特征向量fc。
3.权利要求1步骤二的交叉注意力特征向量fc是基于双线性池化的思想提出的,fc不简单表示了文本描述信息,fc是捕捉了图像信息和文本信息内部联系的联合编码。
4.权利要求2步骤二的通道注意力模块是将特征提取后的图像特征图和文本特征向量输入到通道注意力中,通过通道注意力对图像特征图和文本特征向量进行加权,使得生成的图像拥有更多的细节特征,具体计算如下:
5.权利要求2交
...【技术特征摘要】
1.一种基于通道注意力和交叉注意力的文本生成图像方法,其特征在于包括以下步骤:
2.权利要求1所述步骤一的交叉注意力编码器,由文本特征提取、图像特征提取、通道注意力编码和交叉注意力编码四部分组成:文本特征提取模块基于双向长短时记忆网络(bilstm)实现,提取全局句子特征向量s和文本信息输出单词特征矩阵w;图像特征提取模块基于inceptionv3网络实现,提取原图特征fv;原图特征fv和全局句子向量s经过通道注意力模块,通过通道注意力的图像特征和全局句子向量分别为fv′和s′;图像特征fv′和全局句子向量s′经交叉注意力进行对齐和翻译,最终输出交叉...
【专利技术属性】
技术研发人员:何小海,叶龙,王正勇,卿粼波,陈洪刚,吴小强,滕奇志,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。