一种图片翻译方法及系统技术方案

技术编号:39827645 阅读:5 留言:0更新日期:2023-12-29 16:03
本说明书实施例提供一种图片翻译方法及系统,该方法由处理器执行,所述方法包括获取待处理图像,待处理图像包括待翻译文本;对待处理图像进行文字识别,确定文本框遮罩图像;将待处理图像以及文本框遮罩图像输入文本擦除模型,得到无文本预测图像;基于待处理图像

【技术实现步骤摘要】
一种图片翻译方法及系统


[0001]本说明书涉及图片翻译领域,尤其涉及一种图片翻译方法及系统


技术介绍

[0002]文档图像翻译通过将图像中的文字转化为不同语言,实现直接翻译图片中文字的功能,不需要手动输入或复制粘贴,从而提高翻译效率和准确性,减少人工输入数据的错误率

文档图像翻译主要包括文本擦除与文本回填

[0003]目前文本擦除方法主要存在以下问题:依赖于手动设置的参数,只适用于背景颜色简单的情况,当背景复杂,如有多种颜色时,难以在文本框内填充合适的颜色,鲁棒性较差;当文本框覆盖文档图像中的表格时,可能会将表格当成文本擦除掉,并容易使回填的文字覆盖在表格上;当翻译后的文本的字数较原文本多时,需要将翻译后的文本缩小再进行回填,影响阅读同时降低美感,极端情况下可能造成无法阅读的情况

[0004]因此提供一种图片翻译方法和系统,通过文本擦除模型提高擦除的鲁棒性,同时使文本翻译更加灵活

准确


技术实现思路

[0005]本说明书一种或多种实施例提供一种图片翻译方法,所述方法由处理器执行,所述方法包括:获取待处理图像,所述待处理图像包括待翻译文本;对所述待处理图像进行文字识别,确定文本框遮罩图像;将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型,得到无文本预测图像;基于所述待处理图像

所述无文本预测图像以及所述文本框遮罩图像,确定第一图像;对所述第一图像进行文本回填,得到目标图像,所述目标图像包括所述待翻译文本的目标语言文本

[0006]本说明书一种或多种实施例提供一种图片翻译系统,其特征在于,所述系统包括:获取模块,用于获取待处理图像,所述待处理图像包括待翻译文本;识别模块,用于对所述待处理图像进行文字识别,确定文本框遮罩图像;预测模块,用于将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型,得到无文本预测图像;确定模块,用于基于所述待处理图像

所述无文本预测图像以及所述文本框遮罩图像,确定第一图像;翻译模块,用于对所述第一图像进行文本回填,得到目标图像,所述目标图像包括所述待翻译文本的目标语言文本

[0007]本说明书一种或多种实施例提供一种图片翻译装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现所述的图片翻译方法

附图说明
[0008]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述

这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其
中:图1是根据本说明书一些实施例所示的图片翻译系统的模块结构图;图2是根据本说明书一些实施例所示的图片翻译方法的示例性流程图;图3是根据本说明书一些实施例所示的文本擦除模型训练过程的示例性示意图;图4是根据本说明书一些实施例所示的自适应缩小的示例性示意图;图5是根据本说明书一些实施例所示的自适应放大的示例性示意图;图6是根据本说明书一些实施例所示的生成网络的结构示意图

具体实施方式
[0009]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍

显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景

除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作

[0010]应当理解,本文使用的“系统”、“装置”、“单元”和
/
或“模块”是用于区分不同级别的不同组件

元件

部件

部分或装配的一种方法

然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语

[0011]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和
/
或“该”等词并非特指单数,也可包括复数

一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素

[0012]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作

应当理解的是,前面或后面操作不一定按照顺序来精确地执行

相反,可以按照倒序或同时处理各个步骤

同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作

[0013]文档图像翻译通常包括以下步骤:
1、
文本检测与文本识别;
2、
将识别出的原文本翻译成目标语言的文本;
3、
将文本框中的原文本从图像中擦除;
4、
将目标语言的文本填入到原文本的位置

然而基于传统方法对图片的文字和表格进行识别,往往会存在识别不准确,无法满足用户需求的情况

鉴于此,本说明书一些实施例,期望提供一种图片翻译方法和系统,通过傅里叶卷积构建
Gan
网络,根据文本框周边信息保留文本周围的表格,实现对文本的自适应擦除;同时使文本框贴近目标语言文本,更好地满足用户需求,降低人工成本的同时提升文档图片翻译的准确性与可阅读性

[0014]图1是根据本说明书一些实施例所示的图片翻译系统的模块结构图

[0015]如图1所示,图片翻译系统
100
可以包括:获取模块
110、
识别模块
120、
预测模块
130、
确定模块
140、
翻译模块
150。
在一些实施例中,前述模块可以被集成于处理器中,基于图片翻译系统
100
的功能可以视为由处理器执行

[0016]获取模块
110
用于获取待处理图像,待处理图像包括待翻译文本

关于如何获取待处理图像可以参见图2及其相关说明

[0017]识别模块
120
用于对待处理图像进行文字识别,确定文本框遮罩图像

关于如何确
定文本框遮罩图像可以参见图2及其相关说明

[0018]在一些实施例中,识别模块进一步被配置为,基于待处理图像的文字识别,确定文本框的位置

[0019]预测模块
130
用于将待处理图像以及文本框遮罩图像输入文本擦除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图片翻译方法,其特征在于,所述方法由处理器执行,所述方法包括:获取待处理图像,所述待处理图像包括待翻译文本;对所述待处理图像进行文字识别,确定文本框遮罩图像;将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型,得到无文本预测图像;基于所述待处理图像

所述无文本预测图像以及所述文本框遮罩图像,确定第一图像;对所述第一图像进行文本回填,得到目标图像,所述目标图像包括所述待翻译文本的目标语言文本
。2.
根据权利要求1所述的方法,其特征在于,所述文本擦除模型基于生成网络实现,所述生成网络的训练包括:基于训练数据集,对判别网络和所述生成网络通过生成对抗网络方法进行训练;其中,所述生成网络的第一损失函数包括第一损失项,以及第二损失项,所述第一损失项反映样本第一图像与样本无文本原图像的差异

样本无文本预测图像与所述样本无文本原图像的差异,所述第二损失项反映第一判断结果与全一图像的差异,所述判别网络的第二损失函数反映所述第一判断结果与全零图像的差异

所述第二判断结果与所述全一图像的差异
。3.
根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于满足膨胀条件,对所述文本框遮罩图像进行膨胀处理;所述将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型,得到无文本预测图像包括:基于所述待处理图像以及膨胀处理后的所述文本框遮罩图像,通过所述文本擦除模型,生成所述无文本预测图像
。4.
根据权利要求1所述的方法,其特征在于,所述方法还包括:基于待处理图像的文字识别,确定第一图像中的文本框的位置;所述对所述第一图像进行文本回填,得到目标图像包括:对所述第一图像中的所述文本框进行自适应调整,所述自适应调整包括自适应缩小或自适应放大;将所述目标语言文本回填入所述自适应调整后的所述文本框,得到所述目标图像
。5.
根据权利要求4所述的方法,其特征在于,所述自适应缩小包括:对第一回填图像的文本框进行识别,确定所述第一回填图像的文本框的长边的位置和短边的位置;响应于满足缩小条件,选择对所述第一回填图像的文本框进行短边内缩和
/
或长边内缩;基于所述短边内缩和
/
或长边内缩,获得所述第一回填图像的缩小后的文本框;基于所述第一回填图像的缩小后的文本框,确定所述第一图像的缩小后的文本框
。6.
根据权利要求5所述的方法,其特征在于,所述长边内缩包括:将所述长边向框内平移第一预设长度;执行多轮迭代,基于迭代结果获得所述缩小后的...

【专利技术属性】
技术研发人员:丁宝进沈立超徐礼淮
申请(专利权)人:杭州同花顺数据开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1