从文本迭代生成图像制造技术

技术编号:46509408 阅读:4 留言:0更新日期:2025-09-26 19:27
呈现了用于自动识别由文本到图像生成器从初始提示生成的图像的附加描述符的方法和系统。该附加描述符要么被合并入到该初始提示中,要么被制成新的提示,以便从该文本到图像生成器产生另一个图像。该初始提示和该附加描述符可描述图像中所表示的视觉特征,包括内容、艺术风格、视觉视角和图像的其他可见属性。可通过替换或补充现有描述符将该附加描述符并入到该初始提示中。该文本到图像生成器生成的后续图像可用于迭代产生附加描述符。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、随着相关技术改进和不同类型的训练数据的可用性持续增长,使用人工智能(ai)和机器学习(ml)执行创造性任务的能力正在急剧提升。同样,执行此类任务的途径持续扩大,因为与处理和带宽相关联的成本持续降低,这又产生更多的数据,据此此类技术能够以越来越快的速度持续改进。因此,随着时间的推移,从视觉艺术到写作、到音乐以及超出的高度精细的创造性作品可在很短的时间内产生。因此期望开发利用这些能力并使新用户更容易访问它们的新技术和系统。


技术实现思路

1、本公开的实施例涉及从文本输入迭代生成图像的技术。在实施例中,描述了一种自动文本到图像生成方法。该方法可包括接收由自动文本到图像生成器从初始文本提示生成的第一图像,其中该初始文本提示包括词的第一集。该方法可进一步包括接收该第一图像的文本描述,其中该文本描述包括不在词的该第一集中的词的子集。该方法可进一步包括生成第二文本提示,该第二文本提示包括从词的该第一集选择的词的第二集和词的该子集。该方法可进一步包括响应于用户输入修改该第二文本提示。该方法可进一步包括将经修改本文档来自技高网...

【技术保护点】

1.一种自动文本到图像生成方法,所述方法包括:

2.如权利要求1所述的方法,其中接收所述第一图像与由所述自动文本到图像生成器从所述初始文本提示生成的多个图像。

3.如权利要求2所述的方法,其中词的所述子集描述由所述多个图像中的每个图像所表示的视觉特征。

4.如权利要求2所述的方法,进一步包括:

5.如权利要求1所述的方法,进一步包括:

6.如权利要求1所述的方法,其中生成所述第二文本提示包括显示词的所述子集以及将来自词的所述子集的一个或多个词添加到所述初始文本提示或用来自词的所述子集的所述一个或多个词替换所述初始文本提示中的词的...

【技术特征摘要】
【国外来华专利技术】

1.一种自动文本到图像生成方法,所述方法包括:

2.如权利要求1所述的方法,其中接收所述第一图像与由所述自动文本到图像生成器从所述初始文本提示生成的多个图像。

3.如权利要求2所述的方法,其中词的所述子集描述由所述多个图像中的每个图像所表示的视觉特征。

4.如权利要求2所述的方法,进一步包括:

5.如权利要求1所述的方法,进一步包括:

6.如权利要求1所述的方法,其中生成所述第二文本提示包括显示词的所述子集以及将来自词的所述子集的一个或多个词添加到所述初始文本提示或用来自词的所述子集的所述一个或多个词替换所述初始文本提示中的词的选项。

7.如权利要求1所述的方法,其中词的所述第一集描述所述第一图像所表示的视觉特征,并且所述自动文本到图像生成器使用词的所述第一集来生成所述第一图像中的所述视觉特征。

8.如权利要求7所述的方法,其中词的所述子集描述所述第一图像中的所述视觉特征的附加细节、所述第一图像中的附加视觉特征或两者。

9.如权利要求7所述的方法,其中所述视觉特征包括所述自动文本到图像生成器生成的视觉内容、视觉风格和视觉视角,并且词的所述子集是从描述所述自动文本到图像生成器生成的所述视觉内容、所述视觉风格或所述视觉视角的词的类别中选择的。

10.如权利要求1所述的方法,进一步包括自动将所述第一图像递交给图像到文本模型,其中所述文本描述由所述图像到文本模型从所述第一图像生成。

11.如权利要求1所述的方法,其中所述第一图像由所述自动文本到图像生成器使用潜在扩散模型生成。

1...

【专利技术属性】
技术研发人员:C·M·B·比恩
申请(专利权)人:索尼互动娱乐股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1