基于智能翻译的文字图像预处理方法技术

技术编号:36048230 阅读:45 留言:0更新日期:2022-12-21 10:57
本发明专利技术公开了基于智能翻译的文字图像预处理方法,涉及图像处理领域,该方法包括:获取纸质文档的灰度图像和二值图;获取二值图中每个文字框图的最高匹配度;获取每个文字框图中的多个连通域中边缘像素点的梯度方向;利用每个连通域中所有边缘像素点的梯度方向得到异常连通域;利用异常连通域的主成分方向、梯度方向复杂性、质心以及异常连通域所在文字框图的几何中心得到异常连通域的异常程度;获取异常连通域中每个像素点属于所在文字框图中文字的归属度;利用归属度和最高匹配度得到异常连通域中每个像素点的可信度;利用可信度对灰度图像去噪得到目标灰度图像。本发明专利技术提高了智能翻译的文字图像去噪后的准确性。能翻译的文字图像去噪后的准确性。能翻译的文字图像去噪后的准确性。

【技术实现步骤摘要】
基于智能翻译的文字图像预处理方法


[0001]本专利技术涉及图像处理
,具体涉及基于智能翻译的文字图像预处理方法。

技术介绍

[0002]随着智能翻译的发展,只需要用扫描仪等光学仪器对纸质文档进行扫描成像,便可对图像用现有技术OCR读取文字,完成中文向其它语言的转换。但纸质文档在印刷过程中字体很可能变得断裂或者墨水粘连,存在大小不同的噪声污染,使得OCR识别异常困难,出错率较高,不利于文本资料电子化和准确翻译。因此,需要去除文字图像中的噪声干扰,得到清晰的图像。
[0003]由于文字图像中的结构复杂,形态多样,常规的滤波降噪容易将文字图像中的部分短笔画识别为噪声点并去除。例如三点水偏旁中的点与其他横竖撇捺不同,文字的横竖撇捺等笔画具有延伸性,边缘像素点的梯度比较单调,但是三点水偏旁中的点的边缘梯度呈发散状,与噪声点的边缘梯度特征相似,所以容易被识别为噪声点并去除,使得去噪后的灰度图像不完整、不准确,导致利用OCR读取的文字不准确,进而导致得不到准确的翻译内容,因此,本专利技术提出基于智能翻译的文字图像预处理方法
专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于智能翻译的文字图像预处理方法,其特征在于:获取纸质文档的灰度图像和二值图;获取二值图中的多个文字框图,利用每个文字框图中的文字与特征库中的文字进行匹配得到每个文字框图的最高匹配度;获取二值图中每个文字框图中的多个连通域;将每个连通域对应到灰度图像中获取每个连通域中边缘像素点的梯度方向;利用每个连通域中所有边缘像素点的梯度方向得到连通域的梯度方向复杂性,根据连通域的梯度方向复杂性得到异常连通域;获取每个异常连通域的主成分方向,利用异常连通域的主成分方向、梯度方向复杂性、质心以及异常连通域所在文字框图的几何中心得到异常连通域的异常程度;利用异常连通域中每个像素点到异常连通域的质心的距离、异常连通域的质心到所在文字框图的几何中心的距离以及异常连通域的异常程度,得到异常连通域中每个像素点属于所在文字框图中文字的归属度;利用异常连通域中每个像素点属于所在文字框图中文字的归属度和像素点所在文字框图的最高匹配度得到异常连通域中每个像素点的可信度;利用异常连通域中像素点的可信度对灰度图像去噪得到目标灰度图像。2.根据权利要求1所述的基于智能翻译的文字图像预处理方法,其特征在于,得到异常连通域的异常程度的步骤包括:将异常连通域的质心与异常连通域所在文字框图的几何中心的相连得到质心连线;获取质心连线与异常连通域的主成分方向的偏离程度;利用异常连通域的梯度方向复杂性和偏离程度的乘积得到异常连通域的异常程度。3.根据权利要求1所述的基于智能翻译的文字图像预处理方法,其特征在于,得到每个异常...

【专利技术属性】
技术研发人员:屈杨曹景浩李圆圆
申请(专利权)人:山东思玛特教育科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1