图像生成方法、目标文生图生成式模型的生成方法及装置制造方法及图纸

技术编号：43147029 阅读：28 留言：0更新日期：2024-10-29 17:48

本申请公开了一种图像生成方法、目标文生图生成式模型的生成方法及装置。涉及人工智能领域，该方法包括：接收包含目标物体的前景图片和目标物体对应的文本信息；通过目标多模态视觉语言模型依据前景图片和文本信息，确定目标物体对应的目标场景的描述信息和布局信息；通过目标文生图生成式模型依据前景图片、描述信息以及布局信息生成目标物体的场景图，其中，目标文生图生成式模型是依据训练样本集对初始文生图生成式模型进行训练得到的。本申请解决了相关技术中依据人工输入的文本描述信息生成物体的场景图，存在文本描述信息的准确性较低，导致生成场景图的视觉效果较差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，具体而言，涉及一种图像生成方法、目标文生图生成式模型的生成方法及装置。

技术介绍

1、制作精美的广告创意图像，例如为沙发产品拍摄放在温馨室内的场景图片，需要一定的拍照、设计门槛，且需要商家投入不少的人力、物力、财力。为帮助商家快速且低成本地制作优质创意图像，提升广告投放效果，可以通过人工智能模型为商品生成场景图。

2、目前，相关技术中通常采用的方式是用户上传商品前景图像，人工选择或自行输入对场景图的文字描述（prompt），利用文生图生成式模型进行背景生成，该模型即可输出一张按prompt补全背景的场景图。该过程中主要存在以下问题，往往导致生成场景图的视觉效果较差：难有合适的文字描述，即文本描述的准确性较低，导致生成场景与商品不契合、前背景场景不匹配；商品前景大小和位置固定，容易出现生成图元素位置错乱，畸形率较高；现有模型能力不足，生成物体的数量、大小等与现实物理规律不符概率较大。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

<...

【技术保护点】

1.一种图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标多模态视觉语言模型包括第一模型和第二模型，通过目标多模态视觉语言模型依据所述前景图片和所述文本信息，确定所述目标物体对应的目标场景的描述信息和布局信息包括：

3.根据权利要求2所述的方法，其特征在于，通过所述第一模型依据所述前景图片和所述文本信息，确定所述描述信息包括：

4.根据权利要求2所述的方法，其特征在于，通过所述第二模型依据所述前景图片和所述描述信息，确定所述布局信息包括：

5.根据权利要求4所述的方法，其特征在于，通过目标文生图生成式模型依...

【技术特征摘要】

1.一种图像生成方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，通过所述第一模型依据所述前景图片和所述文本信息，确定所述描述信息包括：

4.根据权利要求2所述的方法，其特征在于，通过所述第二模型依据所述前景图片和所述描述信息，确定所述布局信息包括：

5.根据权利要求4所述的方法，其特征在于，通过目标文生图生成式模型依据所述前景图片、所述描述信息以及所...

【专利技术属性】
技术研发人员：陈泓宇，江静，陈佳乐，柴上，林子杭，王成瑞，卢杨，周敏，李旭斌，葛铁铮，郑波，
申请(专利权)人：淘宝中国软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人