图像生成方法、装置、设备和介质制造方法及图纸

技术编号:39271322 阅读:8 留言:0更新日期:2023-11-07 10:50
本申请涉及一种图像生成方法、装置、设备和介质,更涉及人工智能技术领域。方法包括:获取初始的场景描述文本;根据场景描述文本的文本语义特征,预测场景描述文本对应的场景布局信息;场景布局信息,用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系;在场景描述文本中添加场景布局信息,得到目标场景描述文本;获取初始的噪声图像,并根据目标场景描述文本的文本语义特征对噪声图像进行降噪,得到目标图像;目标图像用于呈现场景;呈现的场景中各场景对象之间的位置关系满足相对位置关系。采用本方法能够提升图像生成准确率。确率。确率。

【技术实现步骤摘要】
图像生成方法、装置、设备和介质


[0001]本申请涉及人工智能技术,特别是涉及一种图像生成方法、装置、设备和介质。

技术介绍

[0002]随着人工智能技术的发展,出现了文生图技术,文生图是指基于人们输入的文本,智能化地生成文本所描述的场景的图像。随着科学技术的发展,文生图技术已经广泛应用于人们的日常生活。比如,对需要拍摄的剧本中的各个句子文本进行图像生成,生成的图像可以提供给导演做影视拍摄前的参考。再比如,对需要绘制的场景进行图像生成,生成的图像可以提供给画家进行参考,以启发画家进行更深层次的创作。
[0003]传统技术中,通常直接利用开源的文生图模型生成文本对应的图像,生成的图像往往与输入的文本所描述的场景不符,从而导致图像生成准确率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升图像生成准确率的图像生成方法、装置、设备和介质。
[0005]第一方面,本申请提供了一种图像生成方法,所述方法包括:
[0006]获取初始的场景描述文本;
[0007]根据所述场景描述文本的文本语义特征,预测所述场景描述文本对应的场景布局信息;所述场景布局信息,用于表征所述场景描述文本所描述的场景中各场景对象之间的相对位置关系;
[0008]在所述场景描述文本中添加所述场景布局信息,得到目标场景描述文本;
[0009]获取初始的噪声图像,并根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪,得到目标图像;
[0010]其中,所述目标图像用于呈现所述场景;呈现的所述场景中各场景对象之间的位置关系满足所述相对位置关系。
[0011]第二方面,本申请提供了一种图像生成装置,所述装置包括:
[0012]获取模块,用于获取初始的场景描述文本;
[0013]预测模块,用于根据所述场景描述文本的文本语义特征,预测所述场景描述文本对应的场景布局信息;所述场景布局信息,用于表征所述场景描述文本所描述的场景中各场景对象之间的相对位置关系;
[0014]添加模块,用于在所述场景描述文本中添加所述场景布局信息,得到目标场景描述文本;
[0015]降噪模块,用于获取初始的噪声图像,并根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪,得到目标图像;其中,所述目标图像用于呈现所述场景;呈现的所述场景中各场景对象之间的位置关系满足所述相对位置关系。
[0016]在一个实施例中,所述场景布局信息包括场景布局类别;所述预测模块还用于根
据所述场景描述文本的文本语义特征,对所述场景描述文本进行布局分类处理,得到所述场景描述文本所属的场景布局类别。
[0017]在一个实施例中,所述装置还包括:
[0018]确定模块,用于确定所述场景描述文本对应的风格信息;
[0019]所述添加模块还用于在所述场景描述文本中添加所述场景布局信息和所述风格信息,得到目标场景描述文本。
[0020]在一个实施例中,所述风格信息包括风格类别;所述确定模块还用于确定所述场景描述文本所属的创作性文本;所述创作性文本中包括创作的多条用于对场景进行描述的场景描述文本;根据所述创作性文本中的场景描述文本,提取所述创作性文本的文本语义特征;根据所述创作性文本的文本语义特征,对所述创作性文本进行风格分类处理,得到所述创作性文本所属的风格类别,并将所述创作性文本所属的风格类别作为所述场景描述文本对应的风格类别。
[0021]在一个实施例中,所述降噪模块还用于获取所述噪声图像的第一图像特征;将所述目标场景描述文本的文本语义特征和所述第一图像特征进行卷积处理,得到第二图像特征;对所述第二图像特征进行解码,得到针对所述噪声图像降噪后的目标图像。
[0022]在一个实施例中,所述降噪模块还用于对所述噪声图像在第一编码时刻的第一图像特征进行扩散采样,得到所述噪声图像在第二编码时刻的第一图像特征;所述第一编码时刻位于所述第二编码时刻之前;将所述噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征,将所述第二编码时刻作为当前编码时刻,将所述目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理,得到本轮在当前编码时刻对应的降噪后的中间态图像特征;将所述当前编码时刻的前一编码时刻作为下一轮的当前编码时刻,将下一轮作为本轮,将所述中间态图像特征作为本轮待降噪的基准图像特征,以进行迭代卷积处理,直至所述当前编码时刻为所述第一编码时刻时停止迭代降噪,并将所述第一编码时刻对应的中间态图像特征作为第二图像特征。
[0023]在一个实施例中,所述场景布局信息是通过已训练的布局识别模型确定得到的;所述装置还包括:
[0024]第一训练模块,用于获取至少一个第一样本场景描述文本;所述第一样本场景描述文本标注有参照场景布局信息;通过待训练的布局识别模型对所述第一样本场景描述文本进行布局预测,得到预测场景布局信息;根据所述预测场景布局信息与所述参照场景布局信息之间的差异,对所述待训练的布局识别模型进行迭代训练,得到已训练的布局识别模型。
[0025]在一个实施例中,所述目标图像是通过已训练的图像生成模型生成得到的;所述装置还包括:
[0026]第二训练模块,用于获取至少一个样本图文对;所述样本图文对中包括第二样本场景描述文本和参照图像;所述第二样本场景描述文本中添加有所述第二样本场景描述文本对应的场景布局信息;所述参照图像用于呈现所述第二样本场景描述文本所描述的场景;针对每个样本图文对,对所述样本图文对中的所述参照图像加入噪声,得到样本噪声图像,并将所述样本噪声图像和所述样本图文对中的所述第二样本场景描述文本输入至待训练的图像生成模型,以通过所述待训练的图像生成模型基于所述第二样本场景描述文本对
所述样本噪声图像进行降噪,得到所述样本图文对对应的预测图像;根据各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异,对所述待训练的图像生成模型进行迭代训练,得到已训练的图像生成模型。
[0027]在一个实施例中,所述第二样本场景描述文本中还添加有所述第二样本场景描述文本对应的风格信息;在迭代训练过程中每轮迭代所使用的所述样本图文对包括至少一个批次的样本图文对;每个批次的所述样本图文对中参照图像包括参照布局图像和参照风格图像;所述第二训练模块还用于针对每轮迭代训练中的每个批次,将所述批次中各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异,对所述待训练的图像生成模型进行训练,得到所述批次对应的图像生成模型;在满足迭代停止条件的情况下,将最后一轮迭代训练中最后一个批次对应的图像生成模型作为已训练的图像生成模型。
[0028]在一个实施例中,所述每个批次中的参照图像还包括样本风格迁移图像;所述样本风格迁移图像,是对所述参照布局图像进行针对不同风格的迁移处理得到的图像;所述样本风格迁移图像具有所述参照布局图像对应的布局、以及所述迁移处理所使用的风格。
[0029]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,其特征在于,所述方法包括:获取初始的场景描述文本;根据所述场景描述文本的文本语义特征,预测所述场景描述文本对应的场景布局信息;所述场景布局信息,用于表征所述场景描述文本所描述的场景中各场景对象之间的相对位置关系;在所述场景描述文本中添加所述场景布局信息,得到目标场景描述文本;获取初始的噪声图像,并根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪,得到目标图像;其中,所述目标图像用于呈现所述场景;呈现的所述场景中各场景对象之间的位置关系满足所述相对位置关系。2.根据权利要求1所述的方法,其特征在于,所述场景布局信息包括场景布局类别;所述根据所述场景描述文本的文本语义特征,预测所述场景描述文本对应的场景布局信息,包括:根据所述场景描述文本的文本语义特征,对所述场景描述文本进行布局分类处理,得到所述场景描述文本所属的场景布局类别。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述场景描述文本对应的风格信息;所述在所述场景描述文本中添加所述场景布局信息,得到目标场景描述文本,包括:在所述场景描述文本中添加所述场景布局信息和所述风格信息,得到目标场景描述文本。4.根据权利要求3所述的方法,其特征在于,所述风格信息包括风格类别;所述确定所述场景描述文本对应的风格信息,包括:确定所述场景描述文本所属的创作性文本;所述创作性文本中包括创作的多条用于对场景进行描述的场景描述文本;根据所述创作性文本中的场景描述文本,提取所述创作性文本的文本语义特征;根据所述创作性文本的文本语义特征,对所述创作性文本进行风格分类处理,得到所述创作性文本所属的风格类别,并将所述创作性文本所属的风格类别作为所述场景描述文本对应的风格类别。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪,得到目标图像,包括:获取所述噪声图像的第一图像特征;将所述目标场景描述文本的文本语义特征和所述第一图像特征进行卷积处理,得到第二图像特征;对所述第二图像特征进行解码,得到针对所述噪声图像降噪后的目标图像。6.根据权利要求5所述的方法,其特征在于,所述将所述目标场景描述文本的文本语义特征和所述第一图像特征进行卷积处理,得到第二图像特征,包括:对所述噪声图像在第一编码时刻的第一图像特征进行扩散采样,得到所述噪声图像在第二编码时刻的第一图像特征;所述第一编码时刻位于所述第二编码时刻之前;将所述噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征,将
所述第二编码时刻作为当前编码时刻,将所述目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理,得到本轮在当前编码时刻对应的降噪后的中间态图像特征;将所述当前编码时刻的前一编码时刻作为下一轮的当前编码时刻,将下一轮作为本轮,将所述中间态图像特征作为本轮待降噪的基准图像特征,以进行迭代卷积处理,直至所述当前编码时刻为所述第一编码时刻时停止迭代降噪,并将所述第一编码时刻对应的中间态图像特征作为第二图像特征。7.根据权利要求1所述的方法,其特征在于,所述场景布局信息是通过已训练的布局识别模型确定得到的;所述方法还包括:获取至少一个第一样本场景描述文本;所述第一样本场景描述文本标注有参照场景布局信息;通过待训练的布局识别模型对所述第一样本场景描述文本进行布局预测,得到预测场景布局信息;根据所述预测场景布局信息与所述参照场景布局信息之间的差异,对所述待训练的布局识别模型进行迭代训练,得到已训练的布局识别模型。8.根据权利要求1所述的方法,其特征在于,所述目标图像是通过已训练的图像生成模型生成得到的;所述方法还包括:获取至少一个样本图文对;所述样本图文对中包括第二样本场景描述文本和参照图像;所述第二样本场景描述文本中添加有所述第二样本场景描述文本对应的场景布局信息;所述参照图像用于呈现所述第二样本场景描述文本所描述的场景;针对每个样本图文对,对所述样本图文对中的所述参照图像加入噪声,得到样本噪声图像,并将所述样本噪声图像和所述样本图文对中的所述第二样本场景描述文本输入至待训练的图像生成模型,以通过所述待训练的图像生成模型基于所述第二样本场景描述文本对所述样本噪声图像进行降噪,得到所述样本图文对对应的预测图像;根据各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异,对所述待训练的图像生成模型进行迭代训练,得到已训练的图像生...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1