【技术实现步骤摘要】
基于显著性场景图分析的文本合成图像方法及系统
本专利技术涉及计算机视觉
,尤其涉及一种基于显著性场景图分析的文本合成图像方法及系统。
技术介绍
从文本描述生成图像一直是计算机视觉中的活跃研究主题。由于其在许多应用中的巨大潜力和挑战性,文本描述生成图像代已成为自然语言处理和计算机视觉社区的活跃研究领域,其应用非常广泛,包括照片编辑和计算机辅助设计。通过允许用户用自然语言描述视觉概念,它为调节图像生成提供了自然而灵活的交互。伴随着生成对抗网络的兴起,图像合成技术展现出卓越的结果。基于生成对抗网络的框架,可以通过生成高分辨率图像或增强文本信息来进一步提高生成图像质量。目前,复杂图像的生成仍然面临挑战。例如,要从文本描述“人们骑着大象走过河”生成图像,就需要对各种视觉概念做出多种推理,例如对象类别(人和大象),对象的空间配置(骑行),场景背景(通过河等),这比生成单个大型对象要复杂得多。由于从普通图像中学习直接的文本到像素映射的复杂性,现有的方法仍无法成功生成用于此类复杂文本描述的合理图像。因此,开发一种有效地从文本描 ...
【技术保护点】
1.一种基于显著性场景图分析的文本合成图像方法,其特征在于,包括:/n步骤1:从现有数据集中提取出文本描述,根据依赖关系解析基于文本描述构建对象数据集、属性数据集和关系数据集;/n步骤2:提取对象数据集中的所有对象、属性数据集中的所有属性和关系数据集中的所有关系,将得到的对象、属性和关系解析为依赖树,再对依赖树进行树转换得到语义图;/n步骤3:根据所述语义图构建基于规则的场景图解析器,通过场景图解析器将所述依赖树中的依赖项语法映射为场景图,从所述场景图获得前景对象;/n步骤4:利用背景检索模块对所述场景图进行检索,根据布局相似性分数从候选语义分割图数据库中选择一组与场景图最 ...
【技术特征摘要】
1.一种基于显著性场景图分析的文本合成图像方法,其特征在于,包括:
步骤1:从现有数据集中提取出文本描述,根据依赖关系解析基于文本描述构建对象数据集、属性数据集和关系数据集;
步骤2:提取对象数据集中的所有对象、属性数据集中的所有属性和关系数据集中的所有关系,将得到的对象、属性和关系解析为依赖树,再对依赖树进行树转换得到语义图;
步骤3:根据所述语义图构建基于规则的场景图解析器,通过场景图解析器将所述依赖树中的依赖项语法映射为场景图,从所述场景图获得前景对象;
步骤4:利用背景检索模块对所述场景图进行检索,根据布局相似性分数从候选语义分割图数据库中选择一组与场景图最相关的候选分割图;
步骤4:通过背景融合模块对所述候选分割图进行编码,产生最佳匹配的背景特征;
步骤5:将前景对象和背景特征表示输入到生成对抗网络中,利用对抗损失函数和感知损失函数训练生成对抗网络的权重,得到训练好的生成对抗网络;
步骤6:将训练好的生成对抗网络作为文本合成图像模型,将待转换的文本描述输入到训练好的文本合成图像模型中,文本合成图像模型输出所述待转换的文本描述对应的图像。
2.根据权利要求1所述的方法,其特征在于,所述的提取对象数据集中的所有对象、属性数据集中的所有属性和关系数据集中的所有关系,将得到的对象、属性和关系解析为依赖树,再对依赖树进行树转换得到语义图,包括:
提取对象数据集中的所有对象,提取属性数据集中的所有属性,提取关系数据集中的所有关系,将图像描述解析为场景图的起点,利用StanfordParserv3.5.2输出对象、属性和关系之间的依存关系,根据所述依存关系将所述对象、属性和关系解析为依赖树,对依赖树执行量化修饰语处理、代词解析处理和复数名词处理,将依赖树转换为语义图;
所述量化修饰语处理将一个单词作为语义显著性单词,该语义显著性单词成为表达式中所有其他单词的开头,使这个新的多单词表达式依赖于接下来的名词短语;所述代词解析处理使用改进的由Hobbs算法的前三个规则启发而来的内在代词解析器,使内在代词解析器能够在依赖树进行操作,以恢复句子中宾语之间的关系;复数名词处理根据数值修饰符的值复制图形的各个节点。
3.根据权利要求1所述的方法,其特征在于,所述的利用背景检索模块对所述场景图进行检索,根据布局相似性分数从候选语义分割图数据库中选择一组与场景图最相关的候选分割图,包括:
利用背景检索模块基于场景图中的实例信息在候选语义分割图数据库中进行检索,计算出场景图与检索到的各个分割图之间的距离值,将所述距离值作为布局相似性分数,将所有布局相似性分数进行降序排序,将排列靠前的多个场景图作为一组与场景图最相关的候选分割图;
给定包含k个实例的场景图S,ci是实例Si的类别,给定包含l个实例的分割图M与相应的正确标注图I,则场景图S与分割图M之间的距离IoUr的计算方法为:
其中,C是对象类别的总数,Mj表示l个分割图的集合,Sj表示k个场景图的集合,∪和∩分别表示并和交运算。
4.根据权利要求1所述的方法,其特征在于,所述的通过背景融合模块对所述候选分割图进行编码,获得最佳匹配的背景特征,包括:
利用背景融合模块对所述一组x个候选分割图进行编码,将编码后的x个分割图输入到x个卷积层,x个卷积层分别输出x个分割图的特征表示,将x个分割图的特征表示逐通道链接成一个总特征表示,对所述总特征表示进行池化操作,将所述总特征表示和池化操作后的总特征表示以通道连接成一个包含前景场景和背景类别的特征表示,利用2个卷积层对所述包含前景场景和背景类别的特征表示进行特征学习和修正,获得最佳匹配的背景特征。
5.根据权利要求4所述的方法,其特征在于,所述的通过背景融合模块对所述候选分割图进行编码,获得最佳匹配的背景特征,还包括:
设检索到m个分割图Mr,0,...,Mr,m,以及对应的背景标签图每个场景图对应一个背景标签图通过获得l*r,0,...,l*r,m,通过级联l*r,i(i=0,1,...,m)获得使用卷积网络F1将背景标签图编码为背景特征图;
其中,Pool表示平均池化,利用另一个卷积神经网络F2来获取更新的特征图:
经过T步,获得最佳匹配的背景特征l*=lT,其中包含来自显着物体场景图和背景的信息。
6.根据权利要求4所述的方法,其特征在于,所述的将前景对象和背景特征表示输入到生成对抗网络中,利用对抗损失函数和感知损失函数训练生成对抗网络的权重,得到训练好的生成对抗网络,包括:
利用场景图生成模块、背景检索模块、背景融合模块和图像生成模块构成生成对抗网络的生成器,将前景对象和背景特征输入到生成对抗网络中,生成对抗网络对前景对象和背景特征进行空间自适应归一化编码,将空间自适应归一化编码后的图像输入到生成对抗网络的判别器...
【专利技术属性】
技术研发人员:郎丛妍,汪敏,李浥东,冯松鹤,王涛,孙鑫雨,李尊,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。