当前位置: 首页 > 专利查询>OPPO专利>正文

基于文本生成图像的方法技术

技术编号:39818252 阅读:9 留言:0更新日期:2023-12-22 19:37
本申请实施例提供一种基于文本生成图像的方法

【技术实现步骤摘要】
基于文本生成图像的方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能绘图
,更具体地,涉及一种基于文本生成图像的方法

装置

电子设备及存储介质


技术介绍

[0002]人工智能绘图技术包括基于图像生成图像技术以及基于文本生成图像技术

基于图像生成图像是指根据用户输入原始图像生成新图像,例如,根据用户输入的人像图片生成动画形象图片

基于文本生成图像是指根据用户输入的文本生成图像的技术,例如,根据用户输入的一段文字生成与该文字对应的图像

[0003]本申请涉及人工智能绘图技术中的基于文本生成图像技术

基于文本生成图像技术可以应用于不同场景中,例如,手机主题商店个性化壁纸创作,微软办公演示文稿
(Microsoft Office PowerPoint
,简称
PPT)
中的创意图像素材创作,虚拟空间中的图像内容创作,以及多模态的对话交互系统等


技术实现思路

[0004]本申请实施例提供一种基于文本生成图像的方法

装置

电子设备及存储介质,以实现端到端的基于文本生成高度可控的图像的功能,提升基于文本生成图像的效率以及准确性

[0005]第一方面,本申请实施例提供一种基于文本生成图像的方法,该方法包括:响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;根据所述实体标记

与所述实体标记对应的所述实体位置信息

所述目标图像,生成与所述描述性文本对应的图像

[0006]第二方面,本申请实施例提供一种基于文本生成图像的装置,该装置包括:特征提取模块,用于响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;图像搜索模块,用于在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;图像生成模块,用于根据所述实体标记

与所述实体标记对应的所述实体位置信息

所述目标图像,生成与所述描述性文本对应的图像

[0007]第三方面,本申请实施例提供一种电子设备,该电子设备包括:存储器和处理器,该存储器中存储有应用程序,该应用程序用于当被处理器调用时执行本申请实施例提供的方法

[0008]第四方面,本申请实施例提供一种计算机可读取存储介质,该计算机可读取存储介质上存储有程序代码,该程序代码用于当被处理器调用时使得处理器执行本申请实施例提供的方法

[0009]本申请实施例提供的基于文本生成图像的方法

装置

电子设备及存储介质,可以实现端到端的基于文本生成高度可控的高质量图像的功能,通过构建包含大量实体标记以及图像
(
即,包含实体标记描述的实体的图像
)
的图像库,一方面,可以为端到端基于文本生成图像提供大量的实体图像数据,解决开放域数据不足导致难以应对开放域的个性化图像生成的问题,为生成由描述性文本引导的高度可控的高质量图像提供了必要的数据保障;另一方面,在图像库中搜索与实体标记对应的目标图像,根据实体标记及其对应的实体位置信息以及目标图像,生成与描述性文本对应的图像,可以确保生成的图像高度可控,提升基于文本生成图像的准确性,同时,通过搜索图像库来确定实体标记对应的目标图像而不是直接生成难度较大的实体图像,可以提升基于文本生成图像的效率以及准确性

附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例

基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本申请保护的范围

[0011]图1是本申请一实施例提供的端到端模型的训练框架结构图;
[0012]图2是本申请一实施例提供的基于文本生成图像的流程图;
[0013]图3是本申请一示例性实施例提供的检测框的示意图;
[0014]图4是本申请一示例性实施例提供的与描述性文本对应的第一幅图像的灰度图;
[0015]图5是本申请一示例性实施例提供的与描述性文本对应的第二幅图像的灰度图;
[0016]图6是本申请一示例性实施例提供的与描述性文本对应的第三幅图像的灰度图;
[0017]图7是本申请一示例性实施例提供的与描述性文本对应的第四幅图像的灰度图;
[0018]图8是本申请一示例性实施例提供的与描述性文本对应的第五幅图像的灰度图;
[0019]图9是本申请一示例性实施例提供的与描述性文本对应的第六幅图像的灰度图;
[0020]图
10
是本申请一示例性实施例提供的与描述性文本对应的第七幅图像的灰度图;
[0021]图
11
是本申请一示例性实施例提供的与描述性文本对应的第八幅图像的灰度图;
[0022]图
12
是本申请一示例性实施例提供的与描述性文本对应的第九幅图像的灰度图;
[0023]图
13
是本申请一示例性实施例提供的与描述性文本对应的第十幅图像的灰度图;
[0024]图
14
是本申请另一实施例提供的基于文本生成图像的方法的部分流程图;
[0025]图
15
是本申请一实施例提供的步骤
S220
的流程图;
[0026]图
16
是本申请一示例性实施例提供的步骤
S220
的流程图;
[0027]图
17
是本申请又一实施例提供的基于文本生成图像的流程图;
[0028]图
18
是本申请一实施例提供的基于文本生成图像的装置的结构框图;
[0029]图
19
是本申请一实施例提供的电子设备的结构框图

具体实施方式
[0030]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整地描述

[0031]基于文本生成图像的技术的主要挑战在于基于文本的指导,生成高质量的包含文
本语义信息的图像

早期通常基于生成对抗网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于文本生成图像的方法,其特征在于,包括:响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;根据所述实体标记

与所述实体标记对应的所述实体位置信息

所述目标图像,生成与所述描述性文本对应的图像
。2.
根据权利要求1所述的方法,其特征在于,所述实体位置信息包括检测框,所述在图像库中搜索与所述实体标记对应的目标图像之后,所述方法还包括:针对每个实体标记,从搜索到的与该实体标记对应的图像中,获取与该实体标记对应的检测框尺寸相同的图像,作为最终与该实体标记对应的目标图像
。3.
根据权利要求1所述的方法,其特征在于,所述在图像库中搜索与所述实体标记对应的目标图像之前,所述方法还包括:获取样本图像,所述样本图像包括至少一个实体;对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记,每个分割图像对应一个实体标记且包括该实体标记描述的实体;将至少一个实体标记作为搜索条件,将至少一个分割图像作为搜索结果,构建所述图像库
。4.
根据权利要求3所述的方法,其特征在于,所述对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记,包括:根据所述样本图像,生成关于所述样本图像的描述性文本;从关于所述样本图像的描述性文本中,提取实体标记以及实体位置信息,实体位置信息和实体标记存在一对一映射关系;根据关于所述样本图像的描述性文本

提取到的实体标记以及实体位置信息生成可执行文本;根据所述可执行文本对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记
。5.
根据权利要求1所述的方法,其特征在于,所述提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,包括:采用大型语言模型,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息
。6.
根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述实体标记

与所述实体标记对应的所述实体位置信息

所述目标图像,生成与所述描述性文本对应的图像,包括:将所述目标图像输入主题扩散模型的图像编码器中,获取图像编码器输出的第一嵌入信息和第二嵌入信息,所述第二嵌入信息相较于所...

【专利技术属性】
技术研发人员:马建王瑞琛陈宸鲁浩楠
申请(专利权)人:OPPO
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1