一种文档还原处理方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:29836835 阅读:58 留言:0更新日期:2021-08-27 14:26
本文公开一种文档还原处理方法、装置、计算机存储介质及终端,本发明专利技术实施例获取待处理图像;通过提取待处理图像中落入预设的颜色分量集范围的像素点组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档。通过对待检测印章区域中文字和印章图像的还原,提升了还原可编辑文档过程中印章区域的还原质量。

【技术实现步骤摘要】
一种文档还原处理方法、装置、计算机存储介质及终端
本文涉及但不限于文档还原技术,尤指一种文档还原处理方法、装置、计算机存储介质及终端。
技术介绍
目前,一些文档是以图像的方式存储的,为了对图像中包含的文字进行编辑存储,需要将包含文档的原始图像还原成可编辑的文档。在将原始图像还原成可编辑文档时,如果原始图像包含印章,相关技术主要有以下两种处理方法:1、确定原始图像中包含的印章区域,将印章区域裁剪后,直接粘贴在由原始图像还原获得的文档中;2、对原始图像直接进行内容识别;图1为相关技术中采用粘贴印章区域获得的文档的示意图,如图1所示,印章区域与文档其他部分出现无法对齐的情况时,印章区域的图像会影响部分文字的显示;采用内容识别方式获得的文档中,印章与文字存在重叠的部分,印章上的部分文字会被识别成普通文本,印章还原效果差,文字上的印章被识别为文字,影响文字识别的准确率。针对现有技术采用粘贴或内容识别获得的印章区域的文档还原质量较差的问题,尚未提出解决方案。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本专利技术实施例提供一种文档还原处理方法、装置、计算机存储介质及终端,能够提升还原可编辑文档过程中印章区域的还原质量。本专利技术实施例提供了一种文档还原处理方法,包括:获取待处理图像,其中,所述待处理图像是原文档中待检测印章区域的图像;根据颜色分量集提取所述待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;;根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。另一方面,本专利技术实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述文档还原处理方法。再一方面,本专利技术实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,处理器被配置为执行存储器中的计算机程序;所述计算机程序被所述处理器执行时实现如上述文档还原处理方法。还一方面,本专利技术实施例还提供一种文档还原处理装置,包括:获取单元、组成单元、提取单元和还原单元;其中,获取单元用于:获取待处理图像,其中,所述待处理图像是原文档中待检测印章区域的图像;组成单元用于:根据颜色分量集提取所述待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;提取单元用于:提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;还原单元用于:根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。本专利技术实施例获取待处理图像;通过提取待处理图像中落入预设的颜色分量集范围的像素点组成待处理图像中文字部分所对应图像的第一二值图;提取待处理图像的第二二值图;根据待处理图像、第一二值图和第二二值图还原待检测印章区域中的印章图像与文字到新文档。通过对待检测印章区域中文字和印章图像的还原,提升了还原可编辑文档过程中印章区域的还原质量。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为相关技术中采用粘贴印章区域获得的文档的示意图;图2为本专利技术实施例文档还原处理方法的流程图;图3为本专利技术实施例文档还原处理装置的结构框图;图4为本专利技术应用示例的方法流程图;图5为本专利技术应用示例原始图像的示意图;图6为本专利技术实施例确定印章的所在区域的示意图;图7为本专利技术实施例裁剪获得的待处理图像的示意图;图8为本专利技术应用示例第二二值化图的示意图;图9为本专利技术应用示例第一二值化图的示意图;图10为本专利技术应用示例第三二值化图的示意图;图11为本专利技术应用示例获得的印章贴图的示意图;图12为本专利技术应用示例待处理图像中的文字的图像的示意图;图13为本专利技术应用示例将文字的图像粘贴至新文档的示意图;图14为本专利技术应用示例文本检测的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图2为本专利技术实施例文档还原处理方法的流程图,如图2所示,包括:步骤201、获取待处理图像,其中,待处理图像是原文档中待检测印章区域的图像;步骤202、根据颜色分量集提取待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,第一二值图是待处理图像中文字部分所对应图像的二值图;步骤203、提取待处理图像所对应的第二二值图,其中,第二二值图是包括文字部分的二值图和印章图像部分的二值图,即第二二值图是待处理图像中文字和印章图像部分共同组成的二值图;本专利技术实施例中的第二二值图可以通过对待处理图像进行二值化处理获得,包括但不限于:通过自适应阈值二值化算法对待处理图像进行二值化处理。步骤204、根据待处理图像、第一二值图和第二二值图还原待检测印章区域的印章图像与文字到新文档。在一种可选的实例方式中,本专利技术实施例颜色分量集包括:预先存储的一种以上文档中写入的文字的字体颜色的颜色分量集;其中,一种以上文档包括以下一项或任意组合:标准的PDF文件、PDF扫描件、拍照获得的PDF文件、由可编辑文档转换获得的PDF文件;字体颜色包括一种以上不同格式的字体颜色。本专利技术实施例中的颜色分量集合包括文字部分所对应像素点的颜色分量集范围,颜色分量集范围为至少一个,其中,颜色分量集范围是由待处理图像中文字部分的像素的HSV值组成的集合;处理场景不同、PDF的来源不同,颜色分量集合的范围不同;例如,PDF扫描件、PDF标准件、拍照生成的PDF,经过word或者PPT等其他软件转化后的PDF,都对应不同的颜色分量集范围;此外,字体的加粗、深浅、每英寸点数(DPI)、分辨率都对应不同的颜色分量集范围,不同的颜色分量集范围可能会有交叉,通过上述颜色本文档来自技高网...

【技术保护点】
1.一种文档还原处理方法,包括:/n获取原文档中待处理图像,其中,所述待处理图像是待检测印章区域的图像,所述待检测印章区域的图像包括文字部分和印章图像部分;/n根据颜色分量集合提取所述待处理图像中落入颜色分量集范围的像素点,以组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;/n提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;/n根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。/n

【技术特征摘要】
1.一种文档还原处理方法,包括:
获取原文档中待处理图像,其中,所述待处理图像是待检测印章区域的图像,所述待检测印章区域的图像包括文字部分和印章图像部分;
根据颜色分量集合提取所述待处理图像中落入颜色分量集范围的像素点,以组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;
提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;
根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。


2.根据权利要求1所述的文档还原处理方法,其特征在于,所述获取所述原文档中待处理图像包括:
确定所述原文档中印章的所在区域;
根据所述原文档中印章的所在区域对所述原文档进行处理,获得所述待处理图像。


3.根据权利要求1所述的文档还原处理方法,其特征在于,所述颜色分量集合包括所述文字部分所对应像素点的颜色分量集范围,所述颜色分量集范围为至少一个,其中,所述颜色分量集合包括:色调饱和度和明度HSV颜色分量集合。


4.根据权利要求1所述的文档还原处理方法,其特征在于,根据颜色分量集合提取所述待处理图像中落入颜色分量集范围的像素点,以组成第一二值图包括:
生成所述待处理图像所对应的HSV图像;
提取所述HSV图像中HSV值落入所述颜色分量集范围内的像素点,确定所述待处理图像中所述文字部分的像素点,其中,所述HSV值是图像的三通道色调、饱和度和明度的值;
将确定的所述待处理图像中所述文字部分的像素点组成所述第一二值图。


5.根据权利要求4所述的文档还原处理方法,其特征在于,所述将确定的所述待处理图像中包含的文字的像素点组成所述第一二值图包括:
确定所述待处理图像中所述文字部分的像素点的位置;
将所述第二二值图中所述文字部分的像素点的位置的像素设置为255,除所述文字部分的像素点的位置以外的其他位置的像素设置为0,获得所述第一二值图。


6.根据权利要求1所述的文档还原处理方法,其特征在于,所述根据待处理图像、所述第一二值图和所述第二二值图还原所述待处理图像与文字到新文档之前包括:
根据所述第一二值化图与所述第二二值化图中白色像素的数量确定所述印章属性分类,其中,所述印章属性分类是所述待处理图像中所述印章图像部分所属的类别,所述类别包括黑白印章图像类别和彩色印章图像类别;
根据判断所述印章属性分类的结果对所述待处理图像、所述第一二值图和所述第二二值图进行处理。


7.根据权利要求6所述的文档还原处理方法,其特征在于,所述根据第一二值化图与第二二值化图中白色像素的数量,确定所述待处理图像中的印章属性分类包括:
计算所述第一二值图中白色像素数量与所述第二二值图中白色像素数量的比值;
在所述比值大于预设阈值的情况下,确定所述待处理图像的所述印章属性分类为黑白印章图像类别;
在所述比值小于或等于所述预设阈值的情况下,确定所述待处理图像的所述印章属性分类为彩色印章图像类别。


8.根据权利要求6所述的文档还原处理方法,其特征在于,所述根据判断所述印章属性分类的结果对所述待处理图像、所述第一二值图和所述第二二值图进行处理包括:
在判断结果是所述印章属性分类为彩色印章图像的情况下,则将所述第二二值图中第一二值图的部分去除得到第三二值图,其中,所述第三二值图是所述待处理图像中印章图像部分所对应的二值图;
根据所述待处理图像与所述第一二值图的对应关系得到新的文字部分的图像,其中,所述对应关系是相同位置的像素成一一对应的关系;
根据所述待处理图像与所述第三二值图的对应关系得到印章图像部分的印章贴图,其中,所述印章图像部分的印章贴图是在印章图像部分以外的部分为透明的图像。


9.根据权利要求8所述的文档还原处理方法,其特征在于,所述...

【专利技术属性】
技术研发人员:段纪伟熊龙飞陆瑾
申请(专利权)人:珠海金山办公软件有限公司北京金山办公软件股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1