【技术实现步骤摘要】
一种基于蒸馏学习的文本到图像生成方法和系统
本专利技术涉及图像生成领域,具体涉及一种基于蒸馏学习的文本到图像生成方法和系统。
技术介绍
近年来,随着互联网和多媒体技术的快速发展,多媒体数据的总量不断增长,已经成为大数据的主要内容,因此如何快速找到用户需要的信息就成为了大数据利用和管理的关键问题。人们通常会采用检索的方式寻找有用信息,如文本检索、图像检索等。以图像检索为例,现在常用的检索方式为基于文本关键词的检索,即用户输入查询文本,系统将用户查询文本与图像数据的文本标签进行匹配,从而得到图像检索结果。然而,这种检索方式只能为用户提供数据库中已经存在的图像数据,并且需要对图像数据集进行大量的人工标注,因此限制了信息获取的灵活性。文本到图像生成是指,用户提供一段文本描述,系统能够自动生成内容与这段文本描述一致的图像。文本到图像生成大大提高了图像信息获取的灵活性和全面性,在许多重要领域都有着良好的发展前景和重要意义,例如:公安领域的模拟画像、教育领域的概念启蒙、艺术领域的视觉创作等。现有的文本到图像生成方法主要是基于生成式对抗网络(GenerativeAdversari ...
【技术保护点】
1.一种基于蒸馏学习的文本到图像生成方法,包括以下步骤:(1)建立包含图像及其对应文本的数据库,提取所有文本的特征向量;(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;(3)对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
【技术特征摘要】
1.一种基于蒸馏学习的文本到图像生成方法,包括以下步骤:(1)建立包含图像及其对应文本的数据库,提取所有文本的特征向量;(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;(3)对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。2.如权利要求1所述的方法,其特征在于,步骤(1)中的文本特征向量为:利用长短期记忆网络提取的特征向量。3.如权利要求1所述的方法,其特征在于,步骤(2)中的通用判别式网络是卷积神经网络,并在ImageNet图像分类数据集上进行预训练;生成式网络与所使用的通用判别式网络对称。4.如权利要求1所述的方法,其特征在于,步骤(2)中的训练过程使用两阶段蒸馏方法,将通用判别式网络的知识迁移到生成式网络中;第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色;第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。5.如权利要求4所述的方法,其特征在于,所述的第一阶段蒸馏具体过程如下:当文本特征向量输入至生成式网络G后,生成式网络G的每层网络l会生成作为输出,其中θl表示该网络层的参数,同时将与该文本对应的真实训练图像Ir输入至通用判别式网络D,每层网络会输出由于生成式网络G与通用判别式网络D的结构对称,其对应层输出的维度相同,因此定义如下损失函数,使得对应层输出的特征向量的差异尽可能小:其中||·||1表示L1距离,表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。