基于多头注意力机制的高分辨率的图片的生成方法技术

技术编号:21004943 阅读:34 留言:0更新日期:2019-04-30 21:44
本发公开了一种基于多头注意力机制的高分辨率的图片的生成方法,具体涉及计算机视觉算法技术领域。其解决了现有的生成模型如果生成高分辨率的图片,对于图片的细节会生成的质量比较差以及出现图文不符的情况的不足。该方法基于堆积生成对抗网络(StackGAN)提出了一种对文本描述加入多头注意力机制的方法,对于描述图片的关键信息赋予高的权重,对生成不同分辨率图片的生成器加入不同的文本编码向量和类别向量,使最终的高分辨率的生成器能够生成细节完美的图片。

A High Resolution Image Generation Method Based on Multi-Head Attention Mechanism

【技术实现步骤摘要】
基于多头注意力机制的高分辨率的图片的生成方法
本专利技术涉及计算机视觉算法
,具体涉及基于多头注意力机制的高分辨率的图片的生成方法。
技术介绍
生成模型是利用少量真实数据来生成大量的与真实时候相媲美的数据。该技术主要是在一定程度上缓解建模的过程中遇到的数据集不足的问题,起到补充数据集的作用,应用于人工智能系统、自动驾驶系统、数据增强系统等领域。目前的生成模型主要包括:(1)基于VAE建模进行生成数据,流程图如图1所示,对于自编码模型来说,输入的数据经过神经网络降维到一个编码(code),接着又通过另外一个神经网络去解码得到一个与输入原数据一模一样的生成数据,然后通过去比较这两个数据,最小化他们之间的差异来训练这个网络中编码器和解码器的参数。当这个过程训练完之后,我们可以拿出这个解码器,随机传入一个编码(code),希望通过解码器能够生成一个和原数据差不多的数据。基于VAE建模生成数据,生成的数据质量不高,以图片为例,生成的图片的分辨率比较低,图片比较模糊;无法生成多种类别的数据。(2)基于堆积生成对抗网络(StackGAN)进行生成数据第一阶段的StackGAN就是一个标准的条本文档来自技高网...

【技术保护点】
1.基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one‑hot生成图片的类别向量,包括如下步骤:(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成“图片‑文本‑类别”对的形式;(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分...

【技术特征摘要】
1.基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one-hot生成图片的类别向量,包括如下步骤:(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成“图片-文本-类别”对的形式;(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片;(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)...

【专利技术属性】
技术研发人员:闫然许少华
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1