一种翻译方法、装置和用于翻译的装置制造方法及图纸

技术编号：25186244 阅读：21 留言：0更新日期：2020-08-07 21:13

本发明专利技术实施例提供了一种翻译方法、装置和用于翻译的装置。其中的方法具体包括：确定图像中的源语言文本行区域；若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。本发明专利技术实施例可以提高图像翻译的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种翻译方法、装置和用于翻译的装置
本专利技术涉及计算机
，尤其涉及一种翻译方法、装置和用于翻译的装置。
技术介绍
随着计算机技术的不断发展，利用翻译工具可以对图像中的文本进行翻译，将图像中的源语言文本翻译为目标语言文本，并且输出翻译后的图像。例如，参照图1，示出了一种待翻译图像的示意图，该图像中包括源语言为英文的如下源语言文本：“Chinaisleadingtheworldinfacialrecognitionalgorithmswithitsbestalgorithmabletorecognize10millionpeoplewithoutasinglemistakeinlessthanasecond.”，假设目标语言为中文，则该源语言文本对应的翻译结果可以如下：“中国的人脸识别算法在世界上处于领先地位，其中最好的算法能够在不到一秒的时间内识别出一千万人而不会出现任何错误。”然而，由于在图1所示的图像中，源语言文本分为被分为多个文本行显示，因此，翻译工具会对识别出的多个文本行分别进行翻译，最终输出如图2所示的翻译后的图像。用户最终看到的目标语言文本为：“中国在脸部世界领先”、“最佳识别算法”、“能够识别10的算法”、“百万人口”、“不到一秒钟的错误。”。可以看出，图2中的每一行目标语言文本虽然与图1中的每一行源语言文本相对应，但是，图2所示的目标语言文本与图1的源语言文本的语义偏差较大，不仅影响翻译的准确率，而且为用户的理解增加了难度。
技术实现思路
本专利技术实...

【技术保护点】
1.一种翻译方法，其特征在于，所述方法包括：/n确定图像中的源语言文本行区域；/n若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；/n对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。/n

【技术特征摘要】
1.一种翻译方法，其特征在于，所述方法包括：
确定图像中的源语言文本行区域；
若确定相邻的源语言文本行区域中包括同一个段落的文本内容，则合并所述相邻的源语言文本行区域，以得到源语言文本段区域；
对所述源语言文本段区域中的源语言文本进行翻译，以得到所述源语言文本对应的目标语言文本。

2.根据权利要求1所述的方法，其特征在于，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，包括：
若相邻的源语言文本行区域的尺寸差异小于预设差异值、行间距小于预设间距值、以及相邻的源语言文本行区域中的文本方向相同，则确定相邻的源语言文本行区域中包括同一个段落的文本内容；其中，所述尺寸包括：所述源语言文本行区域的高度、和/或、所述源语言文本行区域的宽度。

3.根据权利要求1所述的方法，其特征在于，所述确定相邻的源语言文本行区域中包括同一个段落的文本内容，包括：
确定第一区域中文本行的末尾词，以及确定第二区域中文本行的起始词；其中，所述第一区域和所述第二区域为相邻的源语言文本行区域，且所述第一区域位于相邻源语言文本行区域中的第一位置，所述第二区域位于相邻源语言文本行区域中的第二位置；
若确定所述末尾词与所述起始词之间满足关联条件，则确定所述第一区域与所述第二区域中包括同一个段落的文本内容。

4.根据权利要求3所述的方法，其特征在于，所述确定所述末尾词与所述起始词之间满足关联条件，包括：
确定所述末尾词为句尾词的第一概率；
确定所述起始词为句首词的第二概率；
确定在所述末尾词出现的情况下，所述起始词出现的第三概率；
若所述第一概率小于第一阈值、所述第二概率小于第二阈值，且所述第三概率大于第三阈值，则确定所述末尾词与所述起始词之间满足关联条件。

5.根据权利要求3所述的方法，其特征在于，所述确定所述末尾词与所述起始词之间满足关联条件，包括：
若所述末尾词的...

【专利技术属性】
技术研发人员：张玉亭，马龙，
申请(专利权)人：搜狗杭州智能科技有限公司，北京搜狗科技发展有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人