图像的生成方法和系统、数据处理方法技术方案

技术编号:26691339 阅读:35 留言:0更新日期:2020-12-12 02:43
本申请公开了一种图像的生成方法和系统、数据处理方法。其中,该方法包括:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。本申请解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。

【技术实现步骤摘要】
图像的生成方法和系统、数据处理方法
本申请涉及计算机视觉领域,具体而言,涉及一种图像的生成方法和系统、数据处理方法。
技术介绍
基于语义信息的多物体图像生成与图像检索一直是计算机视觉领域需要解决的核心问题之一。近年来,研究者逐渐意识到了语义构图的重要性并把语义构图作为连接语义信息与图像的中间表达形态,因此,由语义信息推理得到语义构图逐渐发展成为一个核心独立子问题。研究者通过进一步将语义信息细化,由诸如自然语言形态的非结构化语义信息,向结构化的场景图表达过渡,使得整个问题拆分为两部分:1)由非结构化语义信息预测结构化场景图,属于自然语言处理范畴;2)由结构化场景图预测语义构图,则属于计算机视觉范畴。现有技术中为解决第2)部分提及的问题,采用图卷积网络完成由场景图整体到语义构图整体的端到端的生成。但是,现有技术中由场景图整体作为神经网络模型的输入的方式极大地增加了场景图的变化,会造成几乎无穷多种不同的场景图使得数据难以被有效表达和泛化,最终导致语义构图的学习结果不准确。针对上述现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种图像的生成方法和系统、数据处理方法,以至少解决现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。根据本申请实施例的一个方面,提供了一种图像的生成方法,包括:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。根据本申请实施例的另一方面,还提供了一种图像的生成方法,包括:接收文本文本信息;对上述文本信息进行语义分析,得到上述文本信息对应的场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和上述语义主体之间的关系;根据上述场景数据确定上述文本信息对应的图像。根据本申请实施例的另一方面,还提供了一种图像的生成方法,包括:获取结构化场景图对应的场景序列,其中,上述结构化场景图包括:用于表示语义主体的节点和任意两个节点之间的有向连接关系;根据上述场景序列预测上述结构化场景图对应的语义构图序列,其中,上述语义构图序列包括:与上述结构化场景图对应的语义构图中上述语义主体的布局参数;根据上述语义构图序列生成上述语义构图。根据本申请实施例的另一方面,还提供了一种图像的生成方法,包括:接收文本信息,其中,上述文本信息包括;语义主体和任意两个上述语义主体之间的关系;根据上述文本信息对应的场景序列确定上述语义主体在图像中的布局参数;从图像数据库中查找上述语义主体对应的图像元素,并根据上述语义主体的布局参数将上述图像元素还原至对应的位置,得到上述语义主体对应的图像。根据本申请实施例的另一方面,还提供了一种图像的生成系统,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。根据本申请实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的图像的生成方法。根据本申请实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的图像的生成方法。根据本申请实施例的另一方面,还提供了一种数据处理方法,包括:接收文本信息,其中,上述文本信息包含:语义主体和至少两个语义主体之间的关系;根据上述文本信息,生成场景序列;根据上述场景序列,生成上述文本信息对应的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数。在本申请实施例中,采用学习语义构图的生成过程而非直接学习其生成结果的方式,通过根据接收到的文本信息生成场景数据,其中,上述场景数据包括:上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系;根据用于表示上述场景数据的场景序列,预测上述文本信息对应的图像的图像信息,其中,上述图像信息包含上述语义主体在上述图像中的布局参数;根据上述图像信息生成上述文本信息对应的图像。基于本申请实施例,通过采用学习语义构图的生成过程而非直接学习其生成结果的方式,达到了提高基于场景图预测语义构图的结果准确性的目的,从而实现了更佳的完成生成图像或检索图像的视觉任务的技术效果,进而解决了现有技术中将场景图作为神经网络模型的输入,导致得到的语义构图的结果不准确的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种用于实现图像的生成方法的计算机终端(或移动设备)的硬件结构框图;图2是根据本申请实施例的一种图像的生成方法的流程图;图3是根据本申请实施例的一种可选的图像的生成方法的流程图;图4是根据本申请实施例的一种可选的图像的生成方法的场景示意图;图5是根据本申请实施例的另一种图像的生成方法的流程图;图6是根据本申请实施例的又一种图像的生成方法的流程图;图7是根据本申请实施例的再一种图像的生成方法的流程图;图8是根据本申请实施例的一种图像的生成装置的示意图;图9是根据本申请实施例的另一种图像的生成装置的示意图;图10是根据本申请实施例的又一种图像的生成装置的示意图;图11是根据本申请实施例的再一种图像的生成装置的示意图;图12是根据本申请实施例的一种计算机终端的结构框图;图13是根据本申请实施例的一种数据处理方法的流程图;以及图14是根据本申请实施例的一种数据处理装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些本文档来自技高网
...

【技术保护点】
1.一种图像的生成方法,其特征在于,包括:/n根据接收到的文本信息生成场景数据,其中,所述场景数据包括:所述文本信息所包含的语义主体和任意两个所述语义主体之间的关系;/n根据用于表示所述场景数据的场景序列,预测所述文本信息对应的图像的图像信息,其中,所述图像信息包含所述语义主体在所述图像中的布局参数;/n根据所述图像信息生成所述文本信息对应的图像。/n

【技术特征摘要】
1.一种图像的生成方法,其特征在于,包括:
根据接收到的文本信息生成场景数据,其中,所述场景数据包括:所述文本信息所包含的语义主体和任意两个所述语义主体之间的关系;
根据用于表示所述场景数据的场景序列,预测所述文本信息对应的图像的图像信息,其中,所述图像信息包含所述语义主体在所述图像中的布局参数;
根据所述图像信息生成所述文本信息对应的图像。


2.根据权利要求1所述的方法,其特征在于,根据用于表示所述场景数据的场景序列,预测所述文本信息对应的图像的图像信息,包括:
获取所述场景数据对应的场景序列;
基于所述场景序列,根据序列到序列的神经网络,预测得到图像信息序列,其中,所述图像信息序列包括用于表示所述图像信息的基础动作代码段。


3.根据权利要求2所述的方法,其特征在于,获取所述场景数据对应的场景序列,包括:
提取所述场景数据中的关系三元组,其中,所述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;
根据所述关系三元组构成所述场景序列。


4.根据权利要求3所述的方法,其特征在于,所述图像信息序列包括两组基础动作代码段,其中,第一组动作代码段用于表示所述第一语义主体的布局参数,第二组动作代码段用于表示所述第三语义主体的布局参数。


5.根据权利要求1所述的方法,其特征在于,所述语义主体的布局参数包括:所述语义主体的定界框在所述图像中的位置和大小。


6.根据权利要求5所述的方法,其特征在于,根据所述图像信息生成所述文本信息对应的图像,包括:
根据所述图像信息中的语义主体和所述语义主体的布局参数设置所述定界框;
基于所述定界框构成所述图像。


7.根据权利要求6所述的方法,其特征在于,基于所述定界框构成所述图像,包括:
从预设的素材库中,选择所述图像信息中的语义主体所对应的语义主体图像;
根据所述定界框确定所述语义主体图像的位置和大小,得到所述文本信息对应的图像。


8.根据权利要求5所述的方法,其特征在于,在根据所述图像信息生成所述文本信息对应的图像之前,所述方法还包括:获取标识信息序列,其中,获取标识信息序列的步骤包括:
提取所述场景数据中的关系三元组,其中,所述关系三元组包括:用于表示主语的第一语义主体,用于表示谓语的第二语义主体和用于表示宾语的第三语义主体;
获取所述关系三元组中每个语义主体对应的标识;
根据所述关系三元组中所述每个语义主体对应的标识构成所述标识信息序列。


9.根据权利要求8所述的方法,其特征在于,根据所述图像信息生成所述文本信息对应的图像,包括:根据所述图像信息和所述标识信息序列生成所述文本信息对应的图像;
根据所述图像信息和所述标识信息序列所述文本信息对应的图像的步骤包括:
根据所述标识信息序列确定所述图像信息中用于表示同一个语义主体的定界框;
将用于表示同一个语义主体的定界框进行融合;
根...

【专利技术属性】
技术研发人员:李博韧庄博宇古鉴
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1