一种电子文档图片去噪的方法和装置制造方法及图纸

技术编号:28423649 阅读:25 留言:0更新日期:2021-05-11 18:31
本发明专利技术公开了一种电子文档图片去噪的方法,包括:将所述电子文档图片转换成灰度图,并将得到的灰度图转换为二值化图;根据所述二值化图,形成连通域图;根据所述连通域图中的各个连通域确定疑似噪点区域;根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片。本发明专利技术还公开了一种电子文档图片去噪的装置。

【技术实现步骤摘要】
一种电子文档图片去噪的方法和装置
本专利技术涉及电子文档处理领域,尤其涉及一种电子文档图片去噪的方法和装置。
技术介绍
图像在生成和传输过程中常常因受到各种噪声的干扰和影响而使图像降质,这对后续图像的处理和图像视觉效应将产生不利影响,如对后续的图像分割、目标识别、边缘提取、光学字符识别(OpticalCharacterRecognition,OCR)等将产生不利影响。所以,为了获取高质量数字图像,很有必要对图像进行降噪处理,尽可能的保持原始信息完整性的同时,又能够去除图像中干扰的信息。图像去噪的最终目的是改善给定的图像,解决实际图像由于噪声干扰而导致图像质量下降的问题。更好的体现原来图像所携带的信息,是一种重要的预处理手段。在现有的去噪算法中,主要是针对照片、图片去噪,有的去噪算法在低维信号图像处理中取得较好的效果,却不适用于高维信号图像处理;或者,去噪效果较好,却丢失部分图像边缘信息。本领域中存在一些相关的去噪算法,例如:基于空间域的方法,如中值滤波、均值滤波、高斯滤波等,基于小波域的小波阈值去噪,以及基于变分法思想的ROF(Rudin-Osher-Fatemi)去噪算法。由于这类平滑滤波器会使得边缘变得平滑,当应用到电子文档中去噪时,对于文字这种包含大量点、尖笔画的情况,会使得文字笔画模糊;如要保留笔画,则去噪效果不佳。在电子文档中,主要都是文字信息,边缘细节信息尤为重要,而在OCR识别文档中的文字信息时,噪点会造成很大的干扰。现在技术方案中,没有专门针对电子文档的特点而提出的去噪方案。因此,为了有效提升电子文档OCR文字识别的准确率,改善电子文档的阅读效果,需要有区别于一般图像的去噪方案,既能使电子文档中文字、符号等细节信息不模糊,又能去除污点噪声的去噪方法。
技术实现思路
鉴于上述问题,本专利技术提供一种电子文档图片去噪的方法和装置,解决了针对电子文档图片特点的去噪方案,既能使电子文档中文字、符号等细节信息不模糊,又能去除污点噪声。为了解决上述问题,本专利技术提供了一种电子文档图片去噪的方法,包括:将所述电子文档图片转换成灰度图,并将得到的灰度图转换为二值化图;根据所述二值化图,形成连通域图;根据所述连通域图中的各个连通域确定疑似噪点区域;根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片。可选地,所述将得到的灰度图转换为二值化图,包括:根据预设的转换阈值将所述灰度图转换为二值化图。可选地,所述根据所述二值化图,形成连通域图,包括:通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算,得到所述连通域图。可选地,所述通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算,包括:定义一个x*x的结构元,x为大于或等于2的整数,使用形态学的腐蚀算法对所述二值化图进行运算;定义一个y*y的结构元,y为大于或等于1的整数,y小于x,通过形态学的膨胀算法对腐蚀算法处理后的二值化图进行运算,得到所述连通域图。可选地,所述根据所述连通域图中的各个连通域确定疑似噪点区域,包括:使用轮廓检测算法提取所述连通域图中各个连通域在连通域图中的位置坐标信息;根据所述位置坐标信息,分别判断所述连通域图中的各个连通域是否为疑似噪点区域。可选地,所述根据所述位置坐标信息,分别判断所述连通域图中的各个连通域是否为疑似噪点区域,包括:根据所提取的各个连通域的位置坐标信息确定各个连通域的大小,将大小低于噪点阈值的连通域,定义为疑似噪点区域,标记为1,反之标记为0;根据标记,针对整个连通域图形成噪点矩阵图;其中,所述噪点阈值根据所述电子文档图片的分辨率确定。可选地,所述方法还包括:预设分辨率和噪点阈值的对应关系;所述噪点阈值根据所述电子文档图片的分辨率确定,包括:根据电子文档图片的分辨率,依据预设的分辨率和噪点阈值的对应关系,确定对应的噪点阈值。可选地,所述根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片,包括:对所述电子文档图片进行滤波处理,得到滤波结果图;根据所述噪点矩阵图,将所述滤波结果图中非疑似噪点对应的区域的像素值都置为0,得到疑似区域结果图;根据所述噪点矩阵图,将所述电子文档图片中疑似噪点对应的区域的像素值都置为0,得到非疑似区域结果图;将所述疑似区域结果图和非疑似区域结果图进行矩阵加法运算,得到去噪后的文档图片。可选地,所述滤波处理包括:中值滤波、均值滤波或高斯滤波。为了解决上述问题,本专利技术还提供了一种电子文档图片去噪的装置,包括:转换模块,设置为将所述电子文档图片转换成灰度图,并将得到的灰度图转换为二值化图;连通域生成模块,设置为根据所述二值化图,形成连通域图;噪点确定模块,设置为根据所述连通域图中的各个连通域确定疑似噪点区域;去噪模块,设置为根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片。本专利技术提供的一种电子文档图片去噪的方法和装置,针对电子文档图片的特点,解决了一般去噪方案应用于电子文档时,会将文字断点、标点符号误判为噪点,以及造成文字边缘模糊丢失细节的问题。本专利技术提供的一种电子文档图片去噪的方法和装置既能使电子文档中文字、符号等细节信息不模糊,又能去除污点噪声,有效提升了电子文档OCR识别的准确率,改善了用户的电子文档阅读体验。附图说明图1为本专利技术实施例一提供的一种电子文档图片去噪的方法流程图;图2为本专利技术实施例二提供的一种电子文档图片去噪的方法流程图;图3为本专利技术实施例二提供的一种电子文档图片去噪的方法的过程示意图;图4为本专利技术提供的电子文档图片去噪的效果对比图;图5为本专利技术实施例三提供的一种电子文档图片去噪装置的结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术作进一步的详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。实施例一本实施例提供一种电子文档图片去噪的方法,如图1所示,包括:步骤101,将所述电子文档图片转换成灰度图,并将得到的灰度图转换为二值化图;步骤102,根据所述二值化图,形成连通域图;步骤103,根据所述连通域图中的各个连通域确定疑似噪点区域;步骤104,根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片。可选地,步骤101中,可以采用灰度图片的方式读取所述电子文档图片以获得灰度图。可选地,步骤101中,将得到的灰度图转换为二值化图,包括:根据预设的转换阈值将所述灰度图转换为二值化图。可选地,在步骤101之前,预设所述转换阈值。可选地,在步骤102中,根据所述二值化图,形成连通域图,包括:通过不同大小的结构元对所述本文档来自技高网
...

【技术保护点】
1.一种电子文档图片去噪的方法,其特征在于,包括:/n将所述电子文档图片转换成灰度图,并将得到的灰度图转换为二值化图;/n根据所述二值化图,形成连通域图;/n根据所述连通域图中的各个连通域确定疑似噪点区域;/n根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片。/n

【技术特征摘要】
1.一种电子文档图片去噪的方法,其特征在于,包括:
将所述电子文档图片转换成灰度图,并将得到的灰度图转换为二值化图;
根据所述二值化图,形成连通域图;
根据所述连通域图中的各个连通域确定疑似噪点区域;
根据所述疑似噪点区域对所述电子文档图片进行滤波处理,得到去噪后的文档图片。


2.根据权利要求1所述的方法,其特征在于,
所述将得到的灰度图转换为二值化图,包括:根据预设的转换阈值将所述灰度图转换为二值化图。


3.根据权利要求1或2所述的方法,其特征在于,
所述根据所述二值化图,形成连通域图,包括:
通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算,得到所述连通域图。


4.根据权利要求3所述的方法,其特征在于,
所述通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算,包括:
定义一个x*x的结构元,x为大于或等于2的整数,使用形态学的腐蚀算法对所述二值化图进行运算;
定义一个y*y的结构元,y为大于或等于1的整数,y小于x,通过形态学的膨胀算法对腐蚀算法处理后的二值化图进行运算,得到所述连通域图。


5.根据权利要求4所述的方法,其特征在于,
所述根据所述连通域图中的各个连通域确定疑似噪点区域,包括:
使用轮廓检测算法提取所述连通域图中各个连通域在连通域图中的位置坐标信息;
根据所述位置坐标信息,分别判断所述连通域图中的各个连通域是否为疑似噪点区域。


6.根据权利要求5所述的方法,其特征在于,
所述根据所述位置坐标信息,分别判断所述连通域图中的各个连通域是否为疑似噪点区域,包括:
根据所提...

【专利技术属性】
技术研发人员:陆瑾
申请(专利权)人:珠海金山办公软件有限公司北京金山办公软件股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1