【技术实现步骤摘要】
本公开涉及人工智能领域,更具体地,涉及一种视觉文本生成方法、装置、设备和存储介质。
技术介绍
1、视觉文本生成(visual text generation,vtg)在解决从文本到图像的生成挑战方面起着至关重要的作用,其在诸如海报创建和电影字幕编辑等不同领域中都有应用。视觉文本生成任务的重点在于将必要的视觉文本无缝地合并到一些特定的背景主题中,确保视觉文本既可识别又可风格化。
2、由于自然语言具有高度表达性,视觉文本生成对于诸如海报、广告、电影字幕等的自动制作而言通常是必要的。然而,虽然视觉文本生成具有重要性,但视觉文本生成通常比生成普通图像更具挑战性。这是因为生成模型必须掌握由提示文本传达的确切含义。与普通图像中细微的语义误解造成的局部生成错误不同,在视觉文本生成中,错误地生成字符将导致视觉文本生成完全失败,因为所生成的字符无法正确表达原本预期表达的内容。此外,字符数据本质上不同于其他常见的图形对象,因为其易于通过传统的变形(诸如旋转字符的某些部分)而出现失真,特别是对于处理复杂字符的情况。
3、因此,需要一种
...【技术保护点】
1.一种视觉文本生成方法,包括:
2.如权利要求1所述的方法,其中,从所述提示文本中确定视觉文本对象包括:
3.如权利要求2所述的方法,其中,从所述提示文本生成新提示文本包括:
4.如权利要求2所述的方法,其中,基于所述提示文本生成所述视觉文本对象的背景图像和位置掩模包括:
5.如权利要求1所述的方法,所述方法还包括:
6.如权利要求5所述的方法,其中,基于所述背景图像和所述位置掩模、以及所述前景图像,生成所述视觉文本包括:
7.如权利要求6所述的方法,其中,基于所述位置掩模、所述背景图像和所述字
...【技术特征摘要】
1.一种视觉文本生成方法,包括:
2.如权利要求1所述的方法,其中,从所述提示文本中确定视觉文本对象包括:
3.如权利要求2所述的方法,其中,从所述提示文本生成新提示文本包括:
4.如权利要求2所述的方法,其中,基于所述提示文本生成所述视觉文本对象的背景图像和位置掩模包括:
5.如权利要求1所述的方法,所述方法还包括:
6.如权利要求5所述的方法,其中,基于所述背景图像和所述位置掩模、以及所述前景图像,生成所述视觉文本包括:
7.如权利要求6所述的方法,其中,基于所述位置掩模、所述背景图像和所述字形图像进行图像合成,以生成所述视觉文本包括:
8.如权利要求7所述的方法,其中,通过多个注意力控制阶段...
【专利技术属性】
技术研发人员:姜博源,徐程明,罗栋豪,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。