图像识别翻译方法、装置、设备及可读存储介质制造方法及图纸

技术编号:20820580 阅读:58 留言:0更新日期:2019-04-10 06:06
本公开实施例提供图像识别翻译方法、装置、设备及可读存储介质。图像识别翻译方法包括:对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,规范姿态为文字的姿态与对图像的正面视角垂直坐标系一致;对版面上的规范姿态的文字以字为单位进行识别和版面分析以将版面上的成行文字和成列文字分别定位;以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,并且以行和列为单位对检测出的成行文字和成列文字进行识别;根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译,并且依据版面上的成行文字和成列文字的定位显示翻译结果以替换原文,能自动框选图像中的文字区域,从而减轻用户负担。

【技术实现步骤摘要】
图像识别翻译方法、装置、设备及可读存储介质
本公开实施例涉及计算机
,尤其涉及图像识别翻译方法、装置、设备及可读存储介质。
技术介绍
随着通用场景光学字符识别(OCR)技术的发展,图像翻译技术目前在业界已经得到了普遍应用,出现了各种翻译APP并获得了大量下载。这些翻译APP可以较好地解决一些生活中常见的横向场景文字翻译问题,如菜单翻译、横版书翻译等,但对竖向排版的文字如公交站牌、竖版文章等的翻译上却不尽人意。这主要是因为这些翻译APP内带的OCR字符识别算法通常只能固定识别横向排版的文字,对竖向排版的公交站牌、竖版文章中的文字无法处理。另外一个问题就是这些翻译APP自动化程度普遍较低,需要用户手工圈定待翻译的文字部分作为输入,不能自动定位文字区域并予以识别。对于公交站牌、书页等文字密集分布的物体。这种交互方式意味着用户需要做大量的文字圈定工作,用户负担很重、体验不好。因此,亟需一种无需手工圈定文字区域即可对横版以及竖版文字进行图像识别翻译的方法。
技术实现思路
有鉴于此,本公开第一方面提供了一种图像识别翻译方法,包括:对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致;对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位;以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,并且以行和列为单位对检测出的成行文字和成列文字进行识别;根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译,并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文。本公开第二方面提供了一种图像识别翻译装置,包括:图像预处理模块,被配置为对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致;版面分析模块,被配置为对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位;行列文字检测及识别模块,被配置为以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,并且以行和列为单位对检测出的成行文字和成列文字进行识别;翻译及排版模块,被配置为根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译,并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文。本公开第三方面提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面所述的方法。本公开第四方面提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面所述的方法。在本公开实施方式中,通过对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致;对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位;以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,并且以行和列为单位对检测出的成行文字和成列文字进行识别;根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译,并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文,可以在“图像预处理”与“翻译”两个环节之间加入自动版面分析,能自动框选图像中的文字区域,从而大幅度减轻了用户手工框选的负担。而且,能够自动检测和识别图片中的成行文字与成列文字,从而比相关技术中的翻译APP的应用场景更为广阔。在“翻译”完成之后,本公开实施方式又提出了版面渲染功能,能将版面上的每行文字的翻译结果渲染到版面上原文的行列位置,替换掉原来的文字。处理所有的成行文字和成列文字后,可以最终实现将整个版面的翻译结果同时展示给用户。即,本公开实施方式的图像识别翻译方案适用于任何文字横排版和/或竖排版的场景,可以对横排版和/或竖排版的文字进行通用的检测和识别,而且可以对图像上的全部文字区域进行自动圈定、识别、翻译、排版,从而将用户负担降至最低。本公开的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对示例性实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出根据本公开一实施方式的图像识别翻译方法的流程图;图2示出根据本公开一实施方式的图像识别翻译方法中的步骤S101的一个示例的流程图;图3示出根据本公开一实施方式的图像识别翻译方法的步骤S102的一个示例的流程图;图4示出根据本公开一实施方式的图像识别翻译方法的步骤S104的一个示例的流程图;图5示出根据本公开一实施方式的图像识别翻译装置的结构框图;图6示出根据本公开一实施方式的图像识别翻译装置的图像预处理模块501的一个示例的结构框图;图7示出根据本公开一实施方式的图像识别翻译装置的版面分析模块502的一个示例的结构框图;图8示出根据本公开一实施方式的图像识别翻译装置的翻译及排版模块504的一个示例的结构框图;图9示出根据本公开一实施方式的图像识别翻译方法的应用场景的示意图;图10示出根据本公开另一实施方式的图像识别翻译方法的应用场景的示意图;图11示出根据本公开一实施方式的设备的结构框图;图12是适于用来实现根据本公开一实施方式的图像识别翻译方法的计算机系统的结构示意图。具体实施方式为了使本
的人员更好地理解本公开方案,下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述。在本公开的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。.图1示出根据本公开一实施方式的图像识别翻译方法的流程图。该方法可以包括步骤S101、S102、S103和S104。在步骤S101中,对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致。在步骤S102中,对版面上的规范姿态的文字以字为单位进行识别和版面分析以将版面上的成行文字和成列文字分别定位。在步骤S本文档来自技高网
...

【技术保护点】
1.一种图像识别翻译方法,其特征在于,包括:对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致;对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位;以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,并且以行和列为单位对检测出的成行文字和成列文字进行识别;根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译,并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文。

【技术特征摘要】
1.一种图像识别翻译方法,其特征在于,包括:对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致;对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位;以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,并且以行和列为单位对检测出的成行文字和成列文字进行识别;根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译,并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文。2.根据权利要求1所述的方法,其特征在于,所述对规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位,包括:将所述版面上的全部成列文字改变位置和朝向以形成字顶朝向为左方的成行文字;将成行文字分割为逐个字并按行分组进行逐字识别,并且将各组成行文字整体顺时针旋转90度以转换为对应的成列文字进行逐字识别,其中,仅字顶朝向为上方的字被识别出来;确定各组成行文字的初始状态为成行文字还是为成列文字,其中,当一组成行文字被识别出的字数大于该组文字对应的成列文字被识别出的字数时,确定该组成行文字的初始状态为成行文字;并且当一组成行文字被识别出的字数小于该组文字对应的成列文字被识别出的字数时,确定该组成行文字的初始状态为成列文字。3.根据权利要求2所述的方法,其特征在于,所述将所述版面上的全部成列文字改变位置和朝向以形成字顶朝向为左方的成行文字,包括:检测所述版面的各个文字区域的宽度和高度,并且当检测到所述版面的文字区域的宽度小于高度时,确定该文字区域中的文字为成列文字,将成列文字整体逆时针旋转90度以转换为字顶朝向为左方的成行文字。4.根据权利要求1所述的方法,其特征在于,所述以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字,包括:通过同一种区域级别检测算法来检测成行文字以及成列文字。5.根据权利要求4所述的方法,其特征在于,所述以行和列为单位对检测出的成行文字和成列文字进行识别,包括:通过同一种识别算法以行和列为单位来识别成行文字以及成列文字,其中,在对成列文字进行识别时,通过将所述成列文字整体逆时针旋转90度以转换为字顶朝向为左方的成行文字,以行为单位进行识别。6.根据权利要求1所述的方法,其特征在于,所述依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文,包括:将所述版面上的成行文字和成列文字处的原文去除;将所述原文的翻译结果按照与原文相同的字顶朝向逐字符地粘贴在原文所在位置处,并且调整所述翻译结果的字符大小以及行数或列数以使所述翻译结果适于显示在所述原文所在的显示区域中,其中,当所述原文为成行文字时,所述翻译结果为至少一行成行文字;并且当所述原文为成列文字时,所述翻译结果为至少一列成列文字。7.根据权利要求1所述的方法,其特征在于,所述对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,包括:通过文字区域分割算法对所述图像上的各个像素点进行是否为文字的二分类训练及预测,输出各个像素点是否为文字的二值图像;对所述二值图像进行连通域计算,并且去除所述二值图像中的文字行列中的噪音;检测文字区域的倾斜角度,并且根据检测出的倾斜角度将所述文字区域调整到竖直方向,以得到图像中的文字被调整到规范姿态的版面。8.一种图像识别翻译装置,其特征在于,包括:图像预处理模块,被配置为对图像进行预处理,以得到图像中的文字被调整到规范姿态的版面,其中,所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系...

【专利技术属性】
技术研发人员:徐崴陈继东
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1