The present invention provides a method for extracting a text document, which includes the following steps: from the image contains the document text area and pattern, the same color region extraction and pattern contains the same color; the gray-scale image processing, to obtain the foreground, the foreground region including document text area and contour pattern; the pattern shape extraction from the foreground region, and is located in the text portion of the document profile in the colors and the patterns contained in different colors; the fusion profile and the same color area, public area, public area before the removal of scenic spot in the domain, get the image only containing the text document. The invention also provides a device for extracting document characters, which adopts computer vision and image processing technology, is suitable for scanning images, and is suitable for images obtained by imaging equipment, and can also be used for electronic document images, and has wide application range and universality.
【技术实现步骤摘要】
文档文字的提取方法及提取装置
本专利技术涉及图像处理
,尤其涉及一种文档文字的提取方法及提取装置。
技术介绍
为了提高工作效率,实现文档基本信息的自动录入,是有关部门信息化保障的重要内容。常规文档文字的自动识别,已有比较成熟的技术和产品。但是对于文档文字区域上覆盖有图案的图像,其文档文字内容自动提取与识别的技术成熟度还有待提升。举例说,例如印章覆盖文档文字的图像,因用力不均、印泥质量差异、纸张厚度不均匀等物理因素的干扰,扫描仪、高拍仪或相机等成像设备自身特性的限制,以及光照、拍摄角度等成像环境的影响,导致盖有印章的图像会出现颜色深浅不均、图像模糊的现象存在。关于印章与签名分离、印章识别等技术,已有人员开展相关研究,这些研究在特定背景或某些限定场合可以取得较好的成效。然而在实际应用中,图像中印章与文档文字内容存在多处重叠与交叉,印章出现的位置具有一定的随机性、印章种类呈现多样性,现有方法在解决这些问题时普适性不够。
技术实现思路
(一)要解决的技术问题本专利技术的目的在于提供一种文档文字的提取方法及提取装置,以解决上述的至少一项技术问题。(二)技术方案本专利技术的一方面,提供了一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。可选地,还可以 ...
【技术保护点】
一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内及其上的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。
【技术特征摘要】
1.一种文档文字的提取方法,包括步骤:从包含文档文字区域和图案的图像中,提取与图案所包含的颜色相同的同色区域;对所述图像进行灰度处理,获取其前景区域,所述前景区域包括文档文字区域和图案;从前景区域中提取该图案的轮廓形状,且位于所述轮廓形状内及其上的文字文档部分的颜色与图案所包含的颜色不同;融合所述轮廓形状和同色区域,得到公共区域,去除前景区域中的公共区域,得到仅含文档文字的图像。2.根据权利要求1所述的方法,其中,还包括步骤:对所述文字文档进行形态学操作,连接其上的断点,并去除孤立的噪声点。3.根据权利要求1所述的方法,其中,所述图像由原始图像经过预处理得到,所述预处理包括对比度增强处理。4.根据权利要求3所述的方法,其中,所述原始图像通过扫描仪或者成像设备获得。5.根据权利要求1所述的方法,其中,提取与图案所包含的颜色相同的同色区域...
【专利技术属性】
技术研发人员:王彦情,崔晓光,张吉祥,
申请(专利权)人:中国科学院自动化研究所,天津图智科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。