文档文字的提取方法及提取装置制造方法及图纸

技术编号:16587799 阅读:31 留言:0更新日期:2017-11-18 15:29
本发明专利技术提供了一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。本发明专利技术还提供了一种文档文字的提取装置,采用计算机视觉与图像处理技术,适用于扫描图像,也适用于成像设备获取的图像,还可用于电子公文图像,其应用范围广泛,具有普适性。

Document text extraction method and extraction device

The present invention provides a method for extracting a text document, which includes the following steps: from the image contains the document text area and pattern, the same color region extraction and pattern contains the same color; the gray-scale image processing, to obtain the foreground, the foreground region including document text area and contour pattern; the pattern shape extraction from the foreground region, and is located in the text portion of the document profile in the colors and the patterns contained in different colors; the fusion profile and the same color area, public area, public area before the removal of scenic spot in the domain, get the image only containing the text document. The invention also provides a device for extracting document characters, which adopts computer vision and image processing technology, is suitable for scanning images, and is suitable for images obtained by imaging equipment, and can also be used for electronic document images, and has wide application range and universality.

【技术实现步骤摘要】
文档文字的提取方法及提取装置
本专利技术涉及图像处理
,尤其涉及一种文档文字的提取方法及提取装置。
技术介绍
为了提高工作效率,实现文档基本信息的自动录入,是有关部门信息化保障的重要内容。常规文档文字的自动识别,已有比较成熟的技术和产品。但是对于文档文字区域上覆盖有图案的图像,其文档文字内容自动提取与识别的技术成熟度还有待提升。举例说,例如印章覆盖文档文字的图像,因用力不均、印泥质量差异、纸张厚度不均匀等物理因素的干扰,扫描仪、高拍仪或相机等成像设备自身特性的限制,以及光照、拍摄角度等成像环境的影响,导致盖有印章的图像会出现颜色深浅不均、图像模糊的现象存在。关于印章与签名分离、印章识别等技术,已有人员开展相关研究,这些研究在特定背景或某些限定场合可以取得较好的成效。然而在实际应用中,图像中印章与文档文字内容存在多处重叠与交叉,印章出现的位置具有一定的随机性、印章种类呈现多样性,现有方法在解决这些问题时普适性不够。
技术实现思路
(一)要解决的技术问题本专利技术的目的在于提供一种文档文字的提取方法及提取装置,以解决上述的至少一项技术问题。(二)技术方案本专利技术的一方面,提供了一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。可选地,还可以包括步骤:对所述文字文档进行形态学操作,连接其上的断点,并去除孤立的噪声点。可选地,所述图像由原始图像可以经过预处理得到,所述预处理包括对比度增强处理。可选地,所述原始图像可以通过扫描仪或者成像设备获得。可选地,提取与图案所包含的颜色相同的同色区域之前还可以包括步骤:将图像中的RGB(三原色光模式)颜色空间转换为HSI(色彩空间)颜色空间。可选地,将所述前景区域和背景区域设置为不同的颜色,所述不同的颜色为黑色和白色。可选地,所述灰度处理包括灰度化及二值分割处理。可选地,所述灰度化处理的公式为Gray=R*0.299+G*0.587+B*0.114,Gray代表灰度,R代表图像的红色通道,G代表图像的绿色通道,B代表图像的蓝色通道;所述二值分割处理包括Otsu(最大类间误差法)、迭代法或者最小误差法。可选地,该图案的轮廓形状的提取方法包括(Hough)霍夫变换。本专利技术的另一方面,还提供了一种文档文字的提取装置,包括:存储器,用于存储可执行指令;处理器,用于执行存储器中的可执行指令,在执行可执行指令时依照上述方法进行操作。(三)有益效果本专利技术相较于现有技术具有以下优点:1、本专利技术的文档文字的提取方法,采用计算机视觉与图像处理技术,适用于通过扫描仪获取的图像,也适用于通过高拍仪等成像设备获取的图像,还可用于电子公文图像,其应用范围广泛,具有普适性。2、本专利技术的文档文字的提取方法,还采取了预处理,以更好地处理深浅不均、模糊图案的图像,从而能够更精准地提取文档文字区域。3、本专利技术还对文档文字区域进行形态学操作,连接文档文字上的断点,并去除噪声点,以解决图像中同色区域与文档文字区域存在多处重叠与交叉时,提取的文档文字断断续续的问题。附图说明图1为本专利技术实施例的文档文字的提取方法的步骤示意图;图2为本专利技术一具体实施例的图像的示意图;图3为本专利技术一具体实施例的纯公章区域的示意图;图4为本专利技术一具体实施例的前景区域和背景区域的示意图;图5为本专利技术一具体实施例的文档文字区域提取结果的示意图;图6为本专利技术实施例的文档文字的提取装置的结构示意图。具体实施方式基于上述技术问题,本专利技术提供了一种文档文字的提取方法,能够针对包含文档文字区域和图案的图像进行处理,避免图案对文档文字区域的干扰,分离得到纯文档文字区域。此外,该文档文字的提取方法采用计算机视觉与图像处理技术,适用于通过扫描仪获取的图像,也适用于通过高拍仪等成像设备获取的图像,还可用于电子公文图像,其应用范围广泛,具有普适性。为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。本专利技术实施例的一方面,提供了一种文档文字的提取方法,图1为本专利技术实施例的文档文字的提取方法的步骤示意图,如图1所示,该方法包括步骤:S1、从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;图案的颜色可以为任何颜色,只需要保证与其有重合部分的文字文档颜色不同即可,该图案也可以为任意形状的图案,例如圆形、矩形、三角形等规则或者不规则形状。另外该同色区域还可以包含文字,或者其他标志,该标志可以为规则标志,也可以为不规则标志。一般来说,图像中还可能会包括空白区域。文档文字区域与图案可以重合,也可以不重合。考虑到纸张厚度、字体深浅、打印机设备、成像设备、光照强弱、成像视角等多种因素的影响,会导致不同原始图像中,字体前景与纸张背景的亮度、对比度存在差异,因此对原始图像进行预处理,得到所述图像。其中,原始图像可以是通过扫描仪获取的图像、通过高拍仪等成像设备获取的图像、或者是电子公文图像,因而该方法的应用范围广,相较于现有技术来说,具有较强的普适性。一般来说,预处理方法包括对比度增强方法、图像去噪方法、图像倾斜校正等。为了保障后续操作的处理效果,在本专利技术实施例中,首先对原始图像中的RGB图案,通过对比度增强方法,获取具有高对比度的RGB图案,以减少各种外界因素带来的差异性。接下来,就以包括公章图案、文档文字区域和空白区域的图像举例说明,图2为本专利技术一具体实施例的图像的示意图,如图2所示,该图像包括文档文字区域、公章图案和空白区域,明显的,公章图案与文档文字区域有重合部分。为了更接近人的视觉系统感知色彩的方式,更直观地处理图像,例如提取特征色彩等操作,本专利技术实施例将图像中的RGB颜色空间转换到中间颜色模型:HSI颜色空间,在HSI颜色空间,提取与公章图案颜色一致的红色区域。其中,RGB到HSI颜色空间模型变换公式为:I=(R+G+B)/3其中,H指色调,S指色饱和度,I指亮度;R代表图像的红色通道,G代表图像的绿色通道,B代表图像的蓝色通道。根据《国务院关于国家行政机关和企业事业单位印章的规定》(国发〔1993〕21号),公章图案通常为圆形红色公章图案,圆形内含文字和图案标志,因此,本专利技术中的同色区域为红色区域,呈圆形,且圆形中还包括文字和图案标志。S2、对所述图像进行灰度处理以去色,获取其前景区域,所述前景区域包括文档文字区域和图案;本实施例中,获得前景区域的同时,也获得了包括空白区域的背景区域。灰度处理包括灰度化及二值分割处理,其中,灰度化采用图像转灰度图像的经典公式为:Gray=R*0.299+G*0.587+B*0.114,其中,Gray代表灰度。一般来说,二值分割处理包括Otsu二值分割法、迭代法或者最小误差法。本专利技术实施例采用图像处理领域经典的Otsu二值分割法。图3为本专利技术一具体实施例的前景区域和背景区域的示意图,如图3所示,前景区域包括公章图案和文档文字区域,表示为白色;背景区本文档来自技高网...
文档文字的提取方法及提取装置

【技术保护点】
一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内及其上的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。

【技术特征摘要】
1.一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内及其上的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。2.根据权利要求1所述的方法,其中,还包括步骤:对所述文字文档进行形态学操作,连接其上的断点,并去除孤立的噪声点。3.根据权利要求1所述的方法,其中,所述图像由原始图像经过预处理得到,所述预处理包括对比度增强处理。4.根据权利要求3所述的方法,其中,所述原始图像通过扫描仪或者成像设备获得。5.根据权利要求1所述的方法,其中,提取与图案所包含的颜色相同的同色区域...

【专利技术属性】
技术研发人员:王彦情崔晓光张吉祥
申请(专利权)人:中国科学院自动化研究所天津图智科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1