【技术实现步骤摘要】
一种文档还原处理方法、装置、计算机存储介质及终端
本文涉及但不限于文档还原技术,尤指一种文档还原处理方法、装置、计算机存储介质及终端。
技术介绍
目前,一些文档是以图像的方式存储的,为了对图像中包含的文字进行编辑存储,需要将包含文档的原始图像还原成可编辑的文档。在将原始图像还原成可编辑文档时,如果原始图像包含印章,相关技术主要有以下两种处理方法:1、确定原始图像中包含的印章区域,将印章区域裁剪后,直接粘贴在由原始图像还原获得的文档中;2、对原始图像直接进行内容识别;图1为相关技术中采用粘贴印章区域获得的文档的示意图,如图1所示,印章区域与文档其他部分出现无法对齐的情况时,印章区域的图像会影响部分文字的显示;采用内容识别方式获得的文档中,印章与文字存在重叠的部分,印章上的部分文字会被识别成普通文本,印章还原效果差,文字上的印章被识别为文字,影响文字识别的准确率。针对现有技术采用粘贴或内容识别获得的印章区域的文档还原质量较差的问题,尚未提出解决方案。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本专利技术实施例提供一种文档还原处理方法、装置、计算机存储介质及终端,能够提升还原可编辑文档过程中印章区域的还原质量。本专利技术实施例提供了一种文档还原处理方法,包括:获取待处理图像,其中,所述待处理图像是原文档中待检测印章区域的图像;根据颜色分量集提取所述待处理图像中落入颜色分量集范围的像素点来组成第一二值图,其中,所 ...
【技术保护点】
1.一种文档还原处理方法,包括:/n获取原文档中待处理图像,其中,所述待处理图像是待检测印章区域的图像,所述待检测印章区域的图像包括文字部分和印章图像部分;/n根据颜色分量集合提取所述待处理图像中落入颜色分量集范围的像素点,以组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;/n提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;/n根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。/n
【技术特征摘要】
1.一种文档还原处理方法,包括:
获取原文档中待处理图像,其中,所述待处理图像是待检测印章区域的图像,所述待检测印章区域的图像包括文字部分和印章图像部分;
根据颜色分量集合提取所述待处理图像中落入颜色分量集范围的像素点,以组成第一二值图,其中,所述第一二值图是所述待处理图像中文字部分所对应图像的二值图;
提取所述待处理图像所对应的第二二值图,其中,所述第二二值图是包括所述文字部分的二值图和所述印章图像部分的二值图;
根据所述待处理图像、所述第一二值图和所述第二二值图还原所述待检测印章区域的印章图像与文字到新文档。
2.根据权利要求1所述的文档还原处理方法,其特征在于,所述获取所述原文档中待处理图像包括:
确定所述原文档中印章的所在区域;
根据所述原文档中印章的所在区域对所述原文档进行处理,获得所述待处理图像。
3.根据权利要求1所述的文档还原处理方法,其特征在于,所述颜色分量集合包括所述文字部分所对应像素点的颜色分量集范围,所述颜色分量集范围为至少一个,其中,所述颜色分量集合包括:色调饱和度和明度HSV颜色分量集合。
4.根据权利要求1所述的文档还原处理方法,其特征在于,根据颜色分量集合提取所述待处理图像中落入颜色分量集范围的像素点,以组成第一二值图包括:
生成所述待处理图像所对应的HSV图像;
提取所述HSV图像中HSV值落入所述颜色分量集范围内的像素点,确定所述待处理图像中所述文字部分的像素点,其中,所述HSV值是图像的三通道色调、饱和度和明度的值;
将确定的所述待处理图像中所述文字部分的像素点组成所述第一二值图。
5.根据权利要求4所述的文档还原处理方法,其特征在于,所述将确定的所述待处理图像中包含的文字的像素点组成所述第一二值图包括:
确定所述待处理图像中所述文字部分的像素点的位置;
将所述第二二值图中所述文字部分的像素点的位置的像素设置为255,除所述文字部分的像素点的位置以外的其他位置的像素设置为0,获得所述第一二值图。
6.根据权利要求1所述的文档还原处理方法,其特征在于,所述根据待处理图像、所述第一二值图和所述第二二值图还原所述待处理图像与文字到新文档之前包括:
根据所述第一二值化图与所述第二二值化图中白色像素的数量确定所述印章属性分类,其中,所述印章属性分类是所述待处理图像中所述印章图像部分所属的类别,所述类别包括黑白印章图像类别和彩色印章图像类别;
根据判断所述印章属性分类的结果对所述待处理图像、所述第一二值图和所述第二二值图进行处理。
7.根据权利要求6所述的文档还原处理方法,其特征在于,所述根据第一二值化图与第二二值化图中白色像素的数量,确定所述待处理图像中的印章属性分类包括:
计算所述第一二值图中白色像素数量与所述第二二值图中白色像素数量的比值;
在所述比值大于预设阈值的情况下,确定所述待处理图像的所述印章属性分类为黑白印章图像类别;
在所述比值小于或等于所述预设阈值的情况下,确定所述待处理图像的所述印章属性分类为彩色印章图像类别。
8.根据权利要求6所述的文档还原处理方法,其特征在于,所述根据判断所述印章属性分类的结果对所述待处理图像、所述第一二值图和所述第二二值图进行处理包括:
在判断结果是所述印章属性分类为彩色印章图像的情况下,则将所述第二二值图中第一二值图的部分去除得到第三二值图,其中,所述第三二值图是所述待处理图像中印章图像部分所对应的二值图;
根据所述待处理图像与所述第一二值图的对应关系得到新的文字部分的图像,其中,所述对应关系是相同位置的像素成一一对应的关系;
根据所述待处理图像与所述第三二值图的对应关系得到印章图像部分的印章贴图,其中,所述印章图像部分的印章贴图是在印章图像部分以外的部分为透明的图像。
9.根据权利要求8所述的文档还原处理方法,其特征在于,所述...
【专利技术属性】
技术研发人员:段纪伟,熊龙飞,陆瑾,
申请(专利权)人:珠海金山办公软件有限公司,北京金山办公软件股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。