图像生成方法、电子设备及存储介质技术

技术编号:38321470 阅读:17 留言:0更新日期:2023-07-29 09:03
本申请实施例提供了一种图像生成方法、电子设备及存储介质,该方法包括:生成与提示文本对应的至少一张图像;生成每张图像的初始文字说明;提取提示文本中的实体词,并确定每个实体词所表征的物体在每张图像中的目标检测结果;根据每张图像的目标检测结果和初始文字说明,生成每张图像的目标文字说明;针对每张图像,将提示文本与图像的目标文字说明进行匹配,得到匹配结果;在不存在满足目标条件的匹配结果时,根据目标文字说明对提示文本进行更新,并基于更新后的提示文本,迭代执行上述各步骤,直至存在满足所述目标条件的匹配结果;从匹配结果满足所述目标条件的至少一张图像中确定目标图像。本申请实施例可以提高图像的生成效率。生成效率。生成效率。

【技术实现步骤摘要】
图像生成方法、电子设备及存储介质


[0001]本申请实施例涉及人工智能
,特别是涉及一种图像生成方法、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的快速发展,出现了基于文本输入的图像生成技术。基于文本输入的图像生成技术,是基于输入的文本生成与文本对应的图像,该技术在艺术创作等领域有重要的应用价值。
[0003]当前主流的图像生成模型,如Stable Diffusion(稳定扩散),生成的图像结果经常会出现不符合原始文本输入的情况,可能需要用户反复多次尝试,并对输入的提示词进行更新后才能得到符合预期的图像,导致用户操作繁琐,图像生成效率较低。

技术实现思路

[0004]鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像生成方法、电子设备及存储介质。
[0005]依据本申请实施例的第一方面,提供了一种图像生成方法,包括:
[0006]生成与提示文本对应的至少一张图像;
[0007]生成每张所述图像的初始文字说明;
[0008]提取所述提示文本中的实体词,并确定每个所述实体词所表征的物体在每张所述图像中的目标检测结果;
[0009]根据每张所述图像的目标检测结果和所述初始文字说明,生成每张所述图像的目标文字说明;
[0010]针对每张所述图像,将所述提示文本与所述图像的目标文字说明进行匹配,得到匹配结果;
[0011]在不存在满足目标条件的匹配结果时,根据所述目标文字说明对所述提示文本进行更新,并基于更新后的提示文本,迭代执行上述各步骤,直至存在满足所述目标条件的匹配结果;
[0012]从满足所述目标条件的至少一张图像中确定目标图像。
[0013]依据本申请实施例的第二方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中所述的图像生成方法。
[0014]依据本申请实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的图像生成方法。
[0015]依据本申请实施例的第四方面,提供了一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现第一方面所述的图像生成
方法。
[0016]本申请实施例提供的图像生成方法、电子设备及存储介质,通过生成与提示文本对应的至少一张图像,生成每张图像的初始文字说明,提取提示文本中的实体词,并确定每个实体词所表征的物体在每张图像中的目标检测结果,根据每张图像的目标检测结果和初始文字说明,生成每张图像的目标文字说明,针对每张图像,将提示文本与图像的目标文字说明进行匹配,得到匹配结果,在不存在满足目标条件的匹配结果时,根据目标文字说明对提示文本进行更新,并基于更新后的提示文本,迭代执行上述各步骤,直至存在满足目标条件的匹配结果,从匹配结果满足目标条件的至少一张图像中确定目标图像,由于在生成图像的过程中,可以基于目标文字说明来对提示文本进行更新,进而可以直接基于更新后的提示文本迭代生成图像并进行判断,直至得到匹配结果满足目标条件的至少一张图像,这样不需要用户手动对提示文本进行更新,避免了用户的繁琐操作,可以提高图像的生成效率。
[0017]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
[0019]图1是本申请实施例提供的一种图像生成方法的步骤流程图;
[0020]图2是本申请实施例提供的一种图像生成装置的结构框图;
[0021]图3是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
[0022]下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
[0023]近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安全防控、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考
勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
[0024]图1是本申请实施例提供的一种图像生成方法的步骤流程图,该方法可以应用于手机、平板电脑、计算机等电子设备中,如图1所示,该方法可以包括:
[0025]步骤101,生成与提示文本对应的至少一张图像。
[0026]其中,所述提示文本可以是用户初始输入的提示文本(prompt),也可以是经过对初始的提示文本进行迭代更新而产生的提示文本。
[0027]可以通过图像生成模型来生成与提示文本对应的至少一张图像。所生成图像的数量可以基于需求进行预先设置,例如可以设置为8张,这时,可以使用8次图像生成模型来生成8张不同的图像。
[0028]在本申请的一些实施例中,所述生成与提示文本对应的至少一张图像,包括:通过稳定扩散模型生成与提示文本对应的至少一张图像。
[0029]图像生成模型例如可以采用Stable Diffusion(稳定扩散)模型,Stable Diffusion模型是一种潜在扩散(Latent Diffusion)模型,潜在扩散在维度较低的隐空间(Latent Space)上进行扩散过程,而不使用实际的像素空间。Stable Diffusion模型包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,其特征在于,包括:生成与提示文本对应的至少一张图像;生成每张所述图像的初始文字说明;提取所述提示文本中的实体词,并确定所述实体词所表征的物体在每张所述图像中的目标检测结果;根据每张所述图像的目标检测结果和所述初始文字说明,生成每张所述图像的目标文字说明;针对每张所述图像,将所述提示文本与所述图像的目标文字说明进行匹配,得到匹配结果;在不存在满足目标条件的匹配结果时,根据所述目标文字说明对所述提示文本进行更新,并基于更新后的提示文本,迭代执行上述各步骤,直至存在满足所述目标条件的匹配结果;从所述匹配结果满足所述目标条件的至少一张图像中确定目标图像。2.根据权利要求1所述的方法,其特征在于,所述根据每张所述图像的目标检测结果和所述初始文字说明,生成每张所述图像的目标文字说明,包括:针对每张所述图像,生成与所述目标检测结果对应的文本信息;将所述文本信息和所述图像的初始文字说明整合为所述图像的目标文字说明。3.根据权利要求2所述的方法,其特征在于,所述针对每张所述图像,生成与所述目标检测结果对应的文本信息,包括:针对每张所述图像,对所述目标检测结果中同一物体的数量进行统计,分别确定所述目标检测结果中与每个所述实体词对应的数量;将每个所述实体词和对应数量确定为所述文本信息。4.根据权利要求1

3任一项所述的方法,其特征在于,所述将所述提示文本与所述图像的目标文字说明进行匹配,得到匹配结果,包括:获取包括样本提示文本和样本目标文字说明的匹配对模板集合,所述匹配对模板集合包括多个正匹配对模板和多个负匹配对模板;所述正匹配对模板是样本提示文本和样本目标文字说明相匹配的模板,所述负匹配对模板是样本提示文本和样本目标文字不匹配的模板;将所述匹配对模板集合、所述提示文本和所述目标文字说明输入聊天生成预训练转换器,通过所述聊天生成预训练转换器根据所述匹配对模板集...

【专利技术属性】
技术研发人员:刘伟舟吴鑫胡晨周舒畅
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1