System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种图像文本编辑的方法、装置及电子设备制造方法及图纸_技高网

一种图像文本编辑的方法、装置及电子设备制造方法及图纸

技术编号:39937936 阅读:7 留言:0更新日期:2024-01-08 22:20
本说明书一个或多个实施例公开了一种图像文本编辑的方法、装置及电子设备。所述方法包括:对原始文本图像进行针对被替换文本的OCR检测,确定所述被替换文本的位置信息,所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置;对所述原始文本图像进行添加噪声处理,得到所述原始文本图像对应的噪声图像;在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

【技术实现步骤摘要】

本说明书涉及数据处理,尤其涉及一种图像文本编辑的方法、装置及电子设备


技术介绍

1、随着人工智能技术不断进步,越来越多的社交媒体平台开始探索如何应用图像编辑技术来提高内容创作的效率和多样性。图像文本编辑(又称场景文本编辑)是图像编辑的重要组成,其主要是指在保护隐私数据和尽量保持背景的前提下,将图像中的文本替换为同风格的目标文本。

2、图像文本编辑,需要对任意的场景背景纹理尽可能的保留,使得编辑后的图像在视觉角度上与原场景图像具有一致性,并且编辑后的图像中的替换后的文本与背景部分融合自然,具有真实感。然而,现有的图像文本编辑的方案多分为两步:擦除和写字。然而,擦除文字还原背景的效果不佳,并且书写的文字的风格也与期望值相差较远。因此,目前亟需提供一种更优的图像文本编辑的方案。


技术实现思路

1、本说明书实施例提供一种图像文本编辑的方法、装置及电子设备,以提供一种替换后的文本与图像原有背景融合良好的图像文本编辑方案。

2、第一方面,本说明书一个或多个实施例提供一种图像文本编辑的方法,包括:对原始文本图像进行针对被替换文本的ocr检测,确定所述被替换文本的位置信息,所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置;对所述原始文本图像进行添加噪声处理,得到所述原始文本图像对应的噪声图像;在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

3、第二方面,本申请实施例提供了一种图像文本编辑的装置,包括:对原始文本图像进行针对被替换文本的ocr检测,确定所述被替换文本的位置信息,所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置;对所述原始文本图像进行添加噪声处理,得到所述原始文本图像对应的噪声图像;在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器,以及被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:对原始文本图像进行针对被替换文本的ocr检测,确定所述被替换文本的位置信息,所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置;对所述原始文本图像进行添加噪声处理,得到所述原始文本图像对应的噪声图像;在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

5、第四方面,本说明书实施例提供一种存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现以下流程:对原始文本图像进行针对被替换文本的ocr检测,确定所述被替换文本的位置信息,所述位置信息用于指示所述被替换文本在所述原始文本图像中出现的位置;对所述原始文本图像进行添加噪声处理,得到所述原始文本图像对应的噪声图像;在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像。

本文档来自技高网...

【技术保护点】

1.一种图像文本编辑的方法,包括:

2.根据权利要求1所述的方法,所述在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像,包括:

3.根据权利要求2所述的方法,所述将所述初始潜向量作为所述扩散模型的输入、所述替换文本和所述位置信息作为所述扩散模型的引导条件,得到目标潜向量,包括:

4.根据权利要求3所述的方法,所述将所述位置信息添加到所述初始潜向量中,得到中间潜向量,包括:

5.根据权利要求2所述的方法,所述将所述原始文本图像和所述噪声图像从像素空间映射到潜空间后得到的向量连接起来,得到初始潜向量,包括:

6.根据权利要求4所述的方法,所述扩散模型的训练过程,包括:

7.根据权利要求6所述的方法,所述训练掩膜图像、所述训练屏蔽图像和所述训练噪声图像通过变分自动编码器从所述像素空间映射到所述潜空间,所述变分自动编码器的训练过程,包括:

>8.根据权利要求1所述的方法,所述对原始文本图像进行针对被替换文本的OCR检测,确定所述被替换文本的位置信息,包括:

9.一种图像文本编辑的装置,包括:

10.一种电子设备,包括:

...

【技术特征摘要】

1.一种图像文本编辑的方法,包括:

2.根据权利要求1所述的方法,所述在通过扩散模型对所述噪声图像进行降噪处理时,将替换文本和所述原始文本图像作为所述扩散模型的生成内容引导、将所述位置信息作为所述替换文本的生成位置引导,以生成将所述原始文本图像的被替换文本替换为所述替换文本的目标文本图像,包括:

3.根据权利要求2所述的方法,所述将所述初始潜向量作为所述扩散模型的输入、所述替换文本和所述位置信息作为所述扩散模型的引导条件,得到目标潜向量,包括:

4.根据权利要求3所述的方法,所述将所述位置信息添加到所述初始潜向量中,得到中间潜向量,包括:

5.根...

【专利技术属性】
技术研发人员:陈昊星许卓尔兰钧孟昌华祝慧佳王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1