图像的生成方法和系统、数据处理方法技术方案

技术编号：26691339 阅读：55 留言：0更新日期：2020-12-12 02:43

本申请公开了一种图像的生成方法和系统、数据处理方法。其中，该方法包括：根据接收到的文本信息生成场景数据，其中，上述场景数据包括：上述文本信息所包含的语义主体和任意两个上述语义主体之间的关系；根据用于表示上述场景数据的场景序列，预测上述文本信息对应的图像的图像信息，其中，上述图像信息包含上述语义主体在上述图像中的布局参数；根据上述图像信息生成上述文本信息对应的图像。本申请解决了现有技术中将场景图作为神经网络模型的输入，导致得到的语义构图的结果不准确的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
图像的生成方法和系统、数据处理方法
本申请涉及计算机视觉领域，具体而言，涉及一种图像的生成方法和系统、数据处理方法。
技术介绍
基于语义信息的多物体图像生成与图像检索一直是计算机视觉领域需要解决的核心问题之一。近年来，研究者逐渐意识到了语义构图的重要性并把语义构图作为连接语义信息与图像的中间表达形态，因此，由语义信息推理得到语义构图逐渐发展成为一个核心独立子问题。研究者通过进一步将语义信息细化，由诸如自然语言形态的非结构化语义信息，向结构化的场景图表达过渡，使得整个问题拆分为两部分：1)由非结构化语义信息预测结构化场景图，属于自然语言处理范畴；2)由结构化场景图预测语义构图，则属于计算机视觉范畴。现有技术中为解决第2)部分提及的问题，采用图卷积网络完成由场景图整体到语义构图整体的端到端的生成。但是，现有技术中由场景图整体作为神经网络模型的输入的方式极大地增加了场景图的变化，会造成几乎无穷多种不同的场景图使得数据难以被有效表达和泛化，最终导致语义构图的学习结果不准确。针对上述现有技术中将场景图作...

【技术保护点】
1.一种图像的生成方法，其特征在于，包括：/n根据接收到的文本信息生成场景数据，其中，所述场景数据包括：所述文本信息所包含的语义主体和任意两个所述语义主体之间的关系；/n根据用于表示所述场景数据的场景序列，预测所述文本信息对应的图像的图像信息，其中，所述图像信息包含所述语义主体在所述图像中的布局参数；/n根据所述图像信息生成所述文本信息对应的图像。/n

【技术特征摘要】
1.一种图像的生成方法，其特征在于，包括：
根据接收到的文本信息生成场景数据，其中，所述场景数据包括：所述文本信息所包含的语义主体和任意两个所述语义主体之间的关系；
根据用于表示所述场景数据的场景序列，预测所述文本信息对应的图像的图像信息，其中，所述图像信息包含所述语义主体在所述图像中的布局参数；
根据所述图像信息生成所述文本信息对应的图像。

2.根据权利要求1所述的方法，其特征在于，根据用于表示所述场景数据的场景序列，预测所述文本信息对应的图像的图像信息，包括：
获取所述场景数据对应的场景序列；
基于所述场景序列，根据序列到序列的神经网络，预测得到图像信息序列，其中，所述图像信息序列包括用于表示所述图像信息的基础动作代码段。

3.根据权利要求2所述的方法，其特征在于，获取所述场景数据对应的场景序列，包括：
提取所述场景数据中的关系三元组，其中，所述关系三元组包括：用于表示主语的第一语义主体，用于表示谓语的第二语义主体和用于表示宾语的第三语义主体；
根据所述关系三元组构成所述场景序列。

4.根据权利要求3所述的方法，其特征在于，所述图像信息序列包括两组基础动作代码段，其中，第一组动作代码段用于表示所述第一语义主体的布局参数，第二组动作代码段用于表示所述第三语义主体的布局参数。

5.根据权利要求1所述的方法，其特征在于，所述语义主体的布局参数包括：所述语义主体的定界框在所述图像中的位置和大小。

6.根据权利要求5所述的方法，其特征在于，根据所述图像信息生成所述文本信息对应的图像，包括：
根据所述图像信息中的语义主体和所述语义主体的布局参数设置所述定界框；
基于所述定界框构成所述图像。

7.根据权利要求6所述的方法，其特征在于，基于所述定界框构成所述图像，包括：
从预设的素材库中，选择所述图像信息中的语义主体所对应的语义主体图像；
根据所述定界框确定所述语义主体图像的位置和大小，得到所述文本信息对应的图像。

8.根据权利要求5所述的方法，其特征在于，在根据所述图像信息生成所述文本信息对应的图像之前，所述方法还包括：获取标识信息序列，其中，获取标识信息序列的步骤包括：
提取所述场景数据中的关系三元组，其中，所述关系三元组包括：用于表示主语的第一语义主体，用于表示谓语的第二语义主体和用于表示宾语的第三语义主体；
获取所述关系三元组中每个语义主体对应的标识；
根据所述关系三元组中所述每个语义主体对应的标识构成所述标识信息序列。

9.根据权利要求8所述的方法，其特征在于，根据所述图像信息生成所述文本信息对应的图像，包括：根据所述图像信息和所述标识信息序列生成所述文本信息对应的图像；
根据所述图像信息和所述标识信息序列所述文本信息对应的图像的步骤包括：
根据所述标识信息序列确定所述图像信息中用于表示同一个语义主体的定界框；
将用于表示同一个语义主体的定界框进行融合；
根...

【专利技术属性】
技术研发人员：李博韧，庄博宇，古鉴，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人