一种图片翻译方法及系统技术方案

技术编号：39827645 阅读：5 留言：0更新日期：2023-12-29 16:03

本说明书实施例提供一种图片翻译方法及系统，该方法由处理器执行，所述方法包括获取待处理图像，待处理图像包括待翻译文本；对待处理图像进行文字识别，确定文本框遮罩图像；将待处理图像以及文本框遮罩图像输入文本擦除模型，得到无文本预测图像；基于待处理图像

全部详细技术资料下载

【技术实现步骤摘要】
一种图片翻译方法及系统

[0001]本说明书涉及图片翻译领域，尤其涉及一种图片翻译方法及系统
。

技术介绍

[0002]文档图像翻译通过将图像中的文字转化为不同语言，实现直接翻译图片中文字的功能，不需要手动输入或复制粘贴，从而提高翻译效率和准确性，减少人工输入数据的错误率
。
文档图像翻译主要包括文本擦除与文本回填
。
[0003]目前文本擦除方法主要存在以下问题：依赖于手动设置的参数，只适用于背景颜色简单的情况，当背景复杂，如有多种颜色时，难以在文本框内填充合适的颜色，鲁棒性较差；当文本框覆盖文档图像中的表格时，可能会将表格当成文本擦除掉，并容易使回填的文字覆盖在表格上；当翻译后的文本的字数较原文本多时，需要将翻译后的文本缩小再进行回填，影响阅读同时降低美感，极端情况下可能造成无法阅读的情况
。
[0004]因此提供一种图片翻译方法和系统，通过文本擦除模型提高擦除的鲁棒性，同时使文本翻译更加灵活
、
准确
。

技术实现思路

[0005]本说明书一种或多种实施例提供一种图片翻译方法，所述方法由处理器执行，所述方法包括：获取待处理图像，所述待处理图像包括待翻译文本；对所述待处理图像进行文字识别，确定文本框遮罩图像；将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型，得到无文本预测图像；基于所述待处理图像
、
所述无文本预测图像以及所述文本框遮罩图像，确定第一图像；对所述第一图像进行文本回填，得到目标图像，...

【技术保护点】

【技术特征摘要】
1.
一种图片翻译方法，其特征在于，所述方法由处理器执行，所述方法包括：获取待处理图像，所述待处理图像包括待翻译文本；对所述待处理图像进行文字识别，确定文本框遮罩图像；将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型，得到无文本预测图像；基于所述待处理图像
、
所述无文本预测图像以及所述文本框遮罩图像，确定第一图像；对所述第一图像进行文本回填，得到目标图像，所述目标图像包括所述待翻译文本的目标语言文本
。2.
根据权利要求1所述的方法，其特征在于，所述文本擦除模型基于生成网络实现，所述生成网络的训练包括：基于训练数据集，对判别网络和所述生成网络通过生成对抗网络方法进行训练；其中，所述生成网络的第一损失函数包括第一损失项，以及第二损失项，所述第一损失项反映样本第一图像与样本无文本原图像的差异
、
样本无文本预测图像与所述样本无文本原图像的差异，所述第二损失项反映第一判断结果与全一图像的差异，所述判别网络的第二损失函数反映所述第一判断结果与全零图像的差异
、
所述第二判断结果与所述全一图像的差异
。3.
根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于满足膨胀条件，对所述文本框遮罩图像进行膨胀处理；所述将所述待处理图像以及所述文本框遮罩图像输入文本擦除模型，得到无文本预测图像包括：基于所述待处理图像以及膨胀处理后的所述文本框遮罩图像，通过所述文本擦除模型，生成所述无文本预测图像
。4.
根据权利要求1所述的方法，其特征在于，所述方法还包括：基于待处理图像的文字识别，确定第一图像中的文本框的位置；所述对所述第一图像进行文本回填，得到目标图像包括：对所述第一图像中的所述文本框进行自适应调整，所述自适应调整包括自适应缩小或自适应放大；将所述目标语言文本回填入所述自适应调整后的所述文本框，得到所述目标图像
。5.
根据权利要求4所述的方法，其特征在于，所述自适应缩小包括：对第一回填图像的文本框进行识别，确定所述第一回填图像的文本框的长边的位置和短边的位置；响应于满足缩小条件，选择对所述第一回填图像的文本框进行短边内缩和
/
或长边内缩；基于所述短边内缩和
/
或长边内缩，获得所述第一回填图像的缩小后的文本框；基于所述第一回填图像的缩小后的文本框，确定所述第一图像的缩小后的文本框
。6.
根据权利要求5所述的方法，其特征在于，所述长边内缩包括：将所述长边向框内平移第一预设长度；执行多轮迭代，基于迭代结果获得所述缩小后的...

【专利技术属性】
技术研发人员：丁宝进，沈立超，徐礼淮，
申请(专利权)人：杭州同花顺数据开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人