视觉文本生成方法、装置、设备和存储介质制造方法及图纸

技术编号：41757312 阅读：21 留言：0更新日期：2024-06-21 21:39

本公开的实施例提供了一种视觉文本生成方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法通过将视觉文本生成任务重构为图像合成问题，提出了一种包括背景生成和视觉文本渲染的两步视觉文本生成管线，其中，基于所获取的提示文本生成用于图像合成的多个元素，包括渲染文本字符的前景图像、渲染文本字符的背景的背景图像、以及指示文本字符在背景图像中的位置的位置掩模，并基于这些元素进行视觉文本渲染，从而将视觉文本平滑地渲染到特定背景中，同时保持视觉文本既可识别又与背景的风格统一。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，更具体地，涉及一种视觉文本生成方法、装置、设备和存储介质。

技术介绍

1、视觉文本生成（visual text generation，vtg）在解决从文本到图像的生成挑战方面起着至关重要的作用，其在诸如海报创建和电影字幕编辑等不同领域中都有应用。视觉文本生成任务的重点在于将必要的视觉文本无缝地合并到一些特定的背景主题中，确保视觉文本既可识别又可风格化。

2、由于自然语言具有高度表达性，视觉文本生成对于诸如海报、广告、电影字幕等的自动制作而言通常是必要的。然而，虽然视觉文本生成具有重要性，但视觉文本生成通常比生成普通图像更具挑战性。这是因为生成模型必须掌握由提示文本传达的确切含义。与普通图像中细微的语义误解造成的局部生成错误不同，在视觉文本生成中，错误地生成字符将导致视觉文本生成完全失败，因为所生成的字符无法正确表达原本预期表达的内容。此外，字符数据本质上不同于其他常见的图形对象，因为其易于通过传统的变形（诸如旋转字符的某些部分）而出现失真，特别是对于处理复杂字符的情况。

3、因此，需要一种...

【技术保护点】

1.一种视觉文本生成方法，包括：

2.如权利要求1所述的方法，其中，从所述提示文本中确定视觉文本对象包括：

3.如权利要求2所述的方法，其中，从所述提示文本生成新提示文本包括：

4.如权利要求2所述的方法，其中，基于所述提示文本生成所述视觉文本对象的背景图像和位置掩模包括：

5.如权利要求1所述的方法，所述方法还包括：

6.如权利要求5所述的方法，其中，基于所述背景图像和所述位置掩模、以及所述前景图像，生成所述视觉文本包括：

7.如权利要求6所述的方法，其中，基于所述位置掩模、所述背景图像和所述字形图像进行图像合成，...

【技术特征摘要】

1.一种视觉文本生成方法，包括：

2.如权利要求1所述的方法，其中，从所述提示文本中确定视觉文本对象包括：

3.如权利要求2所述的方法，其中，从所述提示文本生成新提示文本包括：

4.如权利要求2所述的方法，其中，基于所述提示文本生成所述视觉文本对象的背景图像和位置掩模包括：

5.如权利要求1所述的方法，所述方法还包括：

6.如权利要求5所述的方法，其中，基于所述背景图像和所述位置掩模、以及所述前景图像，生成所述视觉文本包括：

7.如权利要求6所述的方法，其中，基于所述位置掩模、所述背景图像和所述字形图像进行图像合成，以生成所述视觉文本包括：

8.如权利要求7所述的方法，其中，通过多个注意力控制阶段...

【专利技术属性】
技术研发人员：姜博源，徐程明，罗栋豪，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人