【技术实现步骤摘要】
面向任务的文本生成图像网络模型
本专利技术涉及计算机科学领域,尤其是深度学习领域中的生成对抗网络GAN(GenerativeAdversarialNetworks)技术,具体地涉及面向任务的文本生成图像网络模型。
技术介绍
随着可拍照移动智能终端的广泛使用和互联网的快速发展,融合视觉和文本信息的多模态数据在急剧增加,例如,带文本标注的照片、报纸文章中的图文对照内容、带标题的视频以及社交媒体中出现的多模态交互数据。图像文本描述方法可以有效组织图像数据,结合文本信息检索技术方便地对海量图像数据进行搜索。此外,使用图像文本描述方法不仅可以从幻灯片中的图像读懂演讲者所讲的内容,还能够帮助视觉障碍者理解图像。图像的文本描述是计算机视觉和自然语言处理领域的交叉任务,能够完成从图像到文本的模态转换,主要包括三类方法:基于生成的方法、基于检索的方法和基于编码一解码的方法。基于生成的方法分为检测过程和生成过程。检测过程基于图像特征检测图像中出现的对象、对象属性、图像表达内容的场景和行为等信息;生成过程使用这些信息驱动自然语言生成系统输出图像的 ...
【技术保护点】
1.一种面向任务的文本生成图像网络模型,包括:面向任务的常识推理模块、基于文本的特征表达模块、全局生成模型和局部细化模型,其特征在于:常识推理模块结合自然语言文本描述、自然语言任务描述以及常识知识库进行面向任务的常识推理,对文本描述中的实体及实体属性进行合理的丰富和扩充,得到扩充后的文本描述和特征表达;基于文本的特征表达模块通过对文本描述的分析和处理,分别构建自然语言文本描述中的实体关系场景图和抽取自然语言文本描述中的各实体属性的语义向量;全局生成模型将基于文本的特征表达模块构建的实体关系场景图输入到一个图卷积网络(Graph ConvolutionalNetworks,G ...
【技术特征摘要】
1.一种面向任务的文本生成图像网络模型,包括:面向任务的常识推理模块、基于文本的特征表达模块、全局生成模型和局部细化模型,其特征在于:常识推理模块结合自然语言文本描述、自然语言任务描述以及常识知识库进行面向任务的常识推理,对文本描述中的实体及实体属性进行合理的丰富和扩充,得到扩充后的文本描述和特征表达;基于文本的特征表达模块通过对文本描述的分析和处理,分别构建自然语言文本描述中的实体关系场景图和抽取自然语言文本描述中的各实体属性的语义向量;全局生成模型将基于文本的特征表达模块构建的实体关系场景图输入到一个图卷积网络(GraphConvolutionalNetworks,GCN)中,生成包含了各实体及其关系的嵌入向量,将嵌入向量分别输入掩码回归网络和边界框回归网络,估计出各实体的分割掩码和边界框,融合所有实体布局形成场景布局,然后结合一个卷积神经网络生成一个低分辨率的图像;局部细化模型结合全局生成模型生成的低分辨图像的特征映射和各实体属性的语义向量,使用循环残差精细化网络RRRN(RecurrentResidualRefinementNetwork,)实现各实体局部细节的优化,将各实体及其属性的嵌入向量和前一个细化神经网络所生成的图像作为循环残差精细化网络的输入,可以生成分辨率不断增大的精细化图像,并且每个残差精细化网络所生成的精细化图像均对应一个判别器,端到端训练后,生成内容丰富协调的高质量图像。
2.如权利要求1所述的面向任务的文本生成图像网络模型,其特征在于:全局生成模型包含一个生成器-判别器对,局部细化模型包含两个生成器-判别器对,生成器生成不同分辨率的尽量真实的图像,判别器则将真实图像与生成的图像区分开来;训练时,判别器针对整体图像或图像中的物体,引入词向量约束来改变网络中各层次生成器的条件向量,判别器扩展调节损失函数,对应生成器的损失函数,使用交叉熵损失的损失函数,在CU-Birds、Oxford-102或COCO-Stuf数据集上结合整体图像或图像中的物体的交叉熵损失,像素损失,边界框损失和分割掩码损失进行训练;最后从不同层次的生成器生成对应文本的不同尺度图像。
3.如权利要求1所述的面向任务的文本生成图像网络模型,其特征在于:面向任务的常识推理模块分别针对输入为给定自然语言文本描述和自然语言任务描述,构建文本描述语义向量和任务描述语义向量,并将构建好的文本描述语义向量和任务描述语义向量连接起来,得到连接后的语义向量;然后,将该语义向量输入到一个常识推理模型中。
4.如权利要求1所述的面向任务的文本生成图像网络模型,其特征在于:特征表达模块根据输入为丰富和扩充后的文本描述,使用基于词典、统计、规则、字标注或者理解的分词方法,将自然语言文本描述进行分词,并去掉停用词,得到给定文本描述s的单词序列,构建单词列表,其中,实体以单词列表的形式表示,实体间关系以及实体属性以元组的形式表示。
5.如权利要求1所述的面向任务的文本生成图像网络模型,其特征在于:特征表达模块结合单词序列和文本描述使用依赖项解析算法对依赖项解析,构建依赖树,基于生成依赖树,抽取各实体间的关系,构建实体关系场景图,并抽取文本描述中的各实体及其对应属性,将各个实体及其对应的属性输入到一个双向长短期记忆神经网络(LongShort-TermMemory,LSTM)模型,获取文本描述中实体属性的特征表示,得到实体属性的语义向量,输出为构建好的实体关系场景图以及抽取得到的串联了各实体属性的语义向量。
6.如权利要求1所述的面向任务的文本生成图像网络模型,其特征在于:特征表达模块分别将实体节点和关系...
【专利技术属性】
技术研发人员:李春豹,崔莹,代翔,刘鑫,
申请(专利权)人:西南电子技术研究所中国电子科技集团公司第十研究所,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。