图像识别翻译方法、装置、设备及可读存储介质制造方法及图纸

技术编号：20820580 阅读：60 留言：0更新日期：2019-04-10 06:06

本公开实施例提供图像识别翻译方法、装置、设备及可读存储介质。图像识别翻译方法包括：对图像进行预处理，以得到图像中的文字被调整到规范姿态的版面，其中，规范姿态为文字的姿态与对图像的正面视角垂直坐标系一致；对版面上的规范姿态的文字以字为单位进行识别和版面分析以将版面上的成行文字和成列文字分别定位；以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字，并且以行和列为单位对检测出的成行文字和成列文字进行识别；根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译，并且依据版面上的成行文字和成列文字的定位显示翻译结果以替换原文，能自动框选图像中的文字区域，从而减轻用户负担。

全部详细技术资料下载

【技术实现步骤摘要】
图像识别翻译方法、装置、设备及可读存储介质
本公开实施例涉及计算机
，尤其涉及图像识别翻译方法、装置、设备及可读存储介质。
技术介绍
随着通用场景光学字符识别(OCR)技术的发展，图像翻译技术目前在业界已经得到了普遍应用，出现了各种翻译APP并获得了大量下载。这些翻译APP可以较好地解决一些生活中常见的横向场景文字翻译问题，如菜单翻译、横版书翻译等，但对竖向排版的文字如公交站牌、竖版文章等的翻译上却不尽人意。这主要是因为这些翻译APP内带的OCR字符识别算法通常只能固定识别横向排版的文字，对竖向排版的公交站牌、竖版文章中的文字无法处理。另外一个问题就是这些翻译APP自动化程度普遍较低，需要用户手工圈定待翻译的文字部分作为输入，不能自动定位文字区域并予以识别。对于公交站牌、书页等文字密集分布的物体。这种交互方式意味着用户需要做大量的文字圈定工作，用户负担很重、体验不好。因此，亟需一种无需手工圈定文字区域即可对横版以及竖版文字进行图像识别翻译的方法。
技术实现思路
有鉴于此，本公开第一方面提供了一种图像识别翻译方法，包括：对图像进行预处理，以得到图像中的文字被调整到规范姿态的版面，其中，所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致；对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位；以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字，并且以行和列为单位对检测出的成行文字和成列文字进行识别；根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译，并且依据所述版面上的成行文字...

【技术保护点】
1.一种图像识别翻译方法，其特征在于，包括：对图像进行预处理，以得到图像中的文字被调整到规范姿态的版面，其中，所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致；对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位；以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字，并且以行和列为单位对检测出的成行文字和成列文字进行识别；根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译，并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文。

【技术特征摘要】
1.一种图像识别翻译方法，其特征在于，包括：对图像进行预处理，以得到图像中的文字被调整到规范姿态的版面，其中，所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系一致；对所述版面上的规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位；以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字，并且以行和列为单位对检测出的成行文字和成列文字进行识别；根据对检测出的成行文字和成列文字进行识别的识别结果对文字进行翻译，并且依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文。2.根据权利要求1所述的方法，其特征在于，所述对规范姿态的文字以字为单位进行识别和版面分析以将所述版面上的成行文字和成列文字分别定位，包括：将所述版面上的全部成列文字改变位置和朝向以形成字顶朝向为左方的成行文字；将成行文字分割为逐个字并按行分组进行逐字识别，并且将各组成行文字整体顺时针旋转90度以转换为对应的成列文字进行逐字识别，其中，仅字顶朝向为上方的字被识别出来；确定各组成行文字的初始状态为成行文字还是为成列文字，其中，当一组成行文字被识别出的字数大于该组文字对应的成列文字被识别出的字数时，确定该组成行文字的初始状态为成行文字；并且当一组成行文字被识别出的字数小于该组文字对应的成列文字被识别出的字数时，确定该组成行文字的初始状态为成列文字。3.根据权利要求2所述的方法，其特征在于，所述将所述版面上的全部成列文字改变位置和朝向以形成字顶朝向为左方的成行文字，包括：检测所述版面的各个文字区域的宽度和高度，并且当检测到所述版面的文字区域的宽度小于高度时，确定该文字区域中的文字为成列文字，将成列文字整体逆时针旋转90度以转换为字顶朝向为左方的成行文字。4.根据权利要求1所述的方法，其特征在于，所述以行和列为单位对规范姿态的文字进行检测以检测出成行文字和成列文字，包括：通过同一种区域级别检测算法来检测成行文字以及成列文字。5.根据权利要求4所述的方法，其特征在于，所述以行和列为单位对检测出的成行文字和成列文字进行识别，包括：通过同一种识别算法以行和列为单位来识别成行文字以及成列文字，其中，在对成列文字进行识别时，通过将所述成列文字整体逆时针旋转90度以转换为字顶朝向为左方的成行文字，以行为单位进行识别。6.根据权利要求1所述的方法，其特征在于，所述依据所述版面上的成行文字和成列文字的定位显示翻译结果以替换原文，包括：将所述版面上的成行文字和成列文字处的原文去除；将所述原文的翻译结果按照与原文相同的字顶朝向逐字符地粘贴在原文所在位置处，并且调整所述翻译结果的字符大小以及行数或列数以使所述翻译结果适于显示在所述原文所在的显示区域中，其中，当所述原文为成行文字时，所述翻译结果为至少一行成行文字；并且当所述原文为成列文字时，所述翻译结果为至少一列成列文字。7.根据权利要求1所述的方法，其特征在于，所述对图像进行预处理，以得到图像中的文字被调整到规范姿态的版面，包括：通过文字区域分割算法对所述图像上的各个像素点进行是否为文字的二分类训练及预测，输出各个像素点是否为文字的二值图像；对所述二值图像进行连通域计算，并且去除所述二值图像中的文字行列中的噪音；检测文字区域的倾斜角度，并且根据检测出的倾斜角度将所述文字区域调整到竖直方向，以得到图像中的文字被调整到规范姿态的版面。8.一种图像识别翻译装置，其特征在于，包括：图像预处理模块，被配置为对图像进行预处理，以得到图像中的文字被调整到规范姿态的版面，其中，所述规范姿态为所述文字的姿态与对图像的正面视角垂直坐标系...

【专利技术属性】
技术研发人员：徐崴，陈继东，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人