【技术实现步骤摘要】
本申请涉及图像生成,尤其涉及一种文本与图像对齐方法、装置、电子设备及可读存储介质。
技术介绍
1、在通用性文本引导的图像生成
,对齐操作可以分为粗粒度对和精细化对齐。粗粒度对齐是指将整个模态信息当做对象来进行对齐操作,如整张图像对应整句话;而精细化对齐是指模态内部的子对象之间进行对齐,例如图像中的猫对应文本中的“cat”单词。不同粒度的对齐能够产生不同的效果。现有的图像生成架构stable-diffusion、dalle等,没有明确的架构去对齐文本与图像,更没有细粒度地对齐文本与图像,导致图像生成过程中经常忽略文本细节。
2、可见,现有技术存在图像生成中文本与图像对齐度不高的技术问题。
技术实现思路
1、有鉴于此,本申请实施例提供了一种文本与图像对齐方法、装置、电子设备及可读存储介质,以解决现有技术中文本与图像细粒度对齐不高的问题。
2、本申请实施例的第一方面,提供了一种文本与图像对齐方法,包括:
3、获取文本和噪音,该文本用于描述待生成图像,该噪
...【技术保护点】
1.一种文本与图像对齐方法,其特征在于,包括:
2.根据权利要求1所述的文本与图像对齐方法,其特征在于,所述图像生成模块包括图像预测模块,所述图像预测模块包括至少一个第一下采样模块和至少一个第一上采样模块,所述第一下采样模块和所述第一上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层;
3.根据权利要求2所述的文本与图像对齐方法,其特征在于,所述图像生成模块还包括噪音预测模块,所述噪音预测模块包括至少一个第二下采样模块和至少一个第二上采样模块,所述第二下采样模块和所述第二上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层;<
...【技术特征摘要】
1.一种文本与图像对齐方法,其特征在于,包括:
2.根据权利要求1所述的文本与图像对齐方法,其特征在于,所述图像生成模块包括图像预测模块,所述图像预测模块包括至少一个第一下采样模块和至少一个第一上采样模块,所述第一下采样模块和所述第一上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层;
3.根据权利要求2所述的文本与图像对齐方法,其特征在于,所述图像生成模块还包括噪音预测模块,所述噪音预测模块包括至少一个第二下采样模块和至少一个第二上采样模块,所述第二下采样模块和所述第二上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层;
4.根据权利要求3所述的文本与图像对齐方法,其特征在于,通过所述第二下采样模块对应的交叉注意力计算层和所述文本特征对所述第二自注意力特征进行高级语义特征提取,得到噪音特征之后,还包括:
5.根据权利要求4所述的文本与图像对...
【专利技术属性】
技术研发人员:石雅洁,
申请(专利权)人:深圳须弥云图空间科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。