当前位置: 首页 > 专利查询>浙江大学专利>正文

基于预训练文生图模型的生成含有预期标识图像的方法、计算机设备、可读存储介质和程序产品技术

技术编号:42508750 阅读:36 留言:0更新日期:2024-08-22 14:24
本申请涉及一种基于预训练文生图模型的生成含有预期标识图像的方法、计算机设备、可读存储介质和程序产品。方法包括:获得含有预期标识的参考图像,对参考图像依次执行定向编码和反向重建,在反向重建的过程中抽取获得第一自注意力图;获得随机噪声、以及含有预期标识文本的提示句,将随机噪声、提示句输入至预训练文生图模型;在对随机噪声去噪的过程中,将第一自注意力图注入更新相应位置的第二注意力图,引导预训练文生图模型生成含有预期标识的图像。本申请利用第一注意力图,注入更新相应位置的第二注意力图,对生成内容进行细粒度结构特征引导,生成含有预期标识文本提示句所对应的图像时,更好地保留了预期标识的结构和外观特征。

【技术实现步骤摘要】

本申请涉及计算机视觉和深度学习领域,特别是涉及一种基于预训练文生图模型的生成含有预期标识图像的方法、计算机设备、可读存储介质和程序产品


技术介绍

1、最近的大型预训练文本到图像扩散模型可以使用一句提示词生成高质量的图像。然而,它们无法产生一张特定标识的图像(如预期的卡通人物),因为特定标识难以用提示词准确描述。

2、特定标识记录于参考图像中,具有预期的角色身份。作为一种定制方法,dreambooth模型可以针对参考图像中的特定标识、生成与特定标识提示词相对应的图像。然而,在利用dreambooth模型生成的特定图像中,特定标识的结构特征参考图像内的特定标识往往图像不一致,比如形状和轮廓存在明显差异。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于预训练文生图模型的生成含有预期标识图像的方法。

2、本申请基于预训练文生图模型的生成含有预期标识图像的方法,包括:

3、获得含有预期标识的参考图像,对所述参考图像依次执行定向编码和反向重建,在所述反向重建的过程中抽本文档来自技高网...

【技术保护点】

1.基于预训练文生图模型的生成含有预期标识图像的方法,其特征在于,包括:

2.如权利要求1所述的生成含有预期标识图像的方法,其特征在于,所述反向重建包括执行的多个时间步,所述第一自注意力图来自于各所述时间步。

3.如权利要求1所述的生成含有预期标识图像的方法,其特征在于,对所述参考图像依次执行定向编码和反向重建,具体包括:

4.如权利要求3所述的生成含有预期标识图像的方法,其特征在于,在所述反向重建的过程中抽取获得第一自注意力图,利用下式进行:

5.如权利要求1所述的生成含有预期标识图像的方法,其特征在于,包括,微调所述预训练文生图模型,具...

【技术特征摘要】

1.基于预训练文生图模型的生成含有预期标识图像的方法,其特征在于,包括:

2.如权利要求1所述的生成含有预期标识图像的方法,其特征在于,所述反向重建包括执行的多个时间步,所述第一自注意力图来自于各所述时间步。

3.如权利要求1所述的生成含有预期标识图像的方法,其特征在于,对所述参考图像依次执行定向编码和反向重建,具体包括:

4.如权利要求3所述的生成含有预期标识图像的方法,其特征在于,在所述反向重建的过程中抽取获得第一自注意力图,利用下式进行:

5.如权利要求1所述的生成含有预期标识图像的方法,其特征在于,包括,微调所述预训练文生图模型,具体包括:

6.如权利要求5所述的生成含有预期标识图像的方法,其特征在于,所述对比损失通过下式获得:<...

【专利技术属性】
技术研发人员:赵磊栾俊升张权威林怀忠张占杰李光远孙嘉锴尹浩霖蓝泽铧莫俊程马骋王永康陈嘉芙褚天易饶晨焦涵贾世安张玮婧邢卫
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1