一种实现文档还原的方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:32028574 阅读:20 留言:0更新日期:2022-01-27 12:43
一种实现文档还原的方法、装置、计算机存储介质及终端,本发明专利技术实施例确定文档图像中无需进行线条还原的区域的区域位置信息,和文档图像中包含的线条的线条位置信息;过滤无需进行线条还原的区域中的线条后,确定需进行还原处理的线条,通过对需进行还原处理的线条进行还原,提升了可编辑文档的完整性。提升了可编辑文档的完整性。提升了可编辑文档的完整性。

【技术实现步骤摘要】
一种实现文档还原的方法、装置、计算机存储介质及终端


[0001]本文涉及但不限于自动化办公应用技术,尤指一种实现文档还原的方法、装置、计算机存储介质及终端。

技术介绍

[0002]将文档图像通过文档还原获得可编辑文档,是提升自动化办公效率的一项信息处理技术。
[0003]相关技术中进行文档还原过程中,一般只对文档图像中设定格式的线条进行还原、或不进行线条的还原,导致部分或全部线条,在还原获得的可编辑文档中未得到还原,影响了可编辑文档的完整性;此外,在进行线条还原时,若文档图像存在质量问题,会存在影响线条还原的噪点,导致线条还原出现遗漏。图1为相关技术文档图像示意图,如图1所示,文档图像的眉首包含红色反线,部分文字下包含下划线,还包含一个电子表格。图2为相关技术文档还原获得的可编辑文档的示意图,如图2所示,由于文档还原时未设置线条还原功能,文档图像中的所有线条在可编辑文档中均未被还原。图3 为相关技术文档还原获得的另一可编辑文档的示意图,如图3所示,由于文档还原时仅对文字下划线部分进行检测还原,因此,仅有文档图像中的表格线条和位于文字下的下划线在可编辑文档中得到还原,红色反线在获得的可编辑文档中未被还原,即相关技术即使设置了线条还原功能,也仅对下划线进行还原,无法还原出完整的可编辑文档。
[0004]综上,如何将文档图像中的线条还原至可编辑文档,提升可编辑文档的完整性,是文档还原需要解决的一个问题。

技术实现思路

[0005]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0006]本专利技术实施例提供一种实现文档还原的方法、装置、计算机存储介质及终端,能够提升可编辑文档的完整性。
[0007]本专利技术实施例提供了一种实现文档还原的方法,包括:
[0008]确定文档图像中无需进行线条还原的区域的区域位置信息;
[0009]确定文档图像中包含的各线条的线条位置信息;
[0010]根据确定的区域位置信息和线条位置信息,从包含的线条中过滤无需进行线条还原的区域中的线条后,确定待还原线条;
[0011]对待还原线条进行还原处理。
[0012]另一方面,本专利技术实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现文档还原的方法。
[0013]再一方面,本专利技术实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
[0014]处理器被配置为执行存储器中的计算机程序;
[0015]所述计算机程序被所述处理器执行时实现如上述实现文档还原的方法。
[0016]还一方面,本专利技术实施例还提供一种实现文档还原的装置,包括:确定区域单元、确定线条单元、过滤单元和还原单元;其中,
[0017]确定线条单元设置为:确定文档图像中包含的各线条的线条位置信息;
[0018]过滤单元设置为:根据确定的区域位置信息和线条位置信息,从包含的线条中过滤无需进行线条还原的区域中的线条后,确定待还原线条;
[0019]还原单元设置为:对待还原线条进行还原处理。
[0020]本专利技术实施例确定文档图像中无需进行线条还原的区域的区域位置信息,和文档图像中包含的线条的线条位置信息;过滤无需进行线条还原的区域中的线条后,确定需进行还原处理的线条,通过对需进行还原处理的线条进行还原,提升了可编辑文档的完整性。
[0021]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0022]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0023]图1为相关技术文档图像示意图;
[0024]图2为相关技术文档还原获得的可编辑文档的示意图;
[0025]图3为相关技术文档还原获得的另一可编辑文档的示意图;
[0026]图4为本专利技术实施例实现文档还原的方法的流程图;
[0027]图5为本专利技术实施例无需进行线条还原的区域的示意图;
[0028]图6为本专利技术实施例行扫描结果图的示意图;
[0029]图7为本专利技术实施例行扫描取反结果的示意图;
[0030]图8为本专利技术实施例列扫描结果图的示意图;
[0031]图9为本专利技术实施例列扫描取反结果的示意图;
[0032]图10为本专利技术实施例实现文档还原的装置的结构框图。
具体实施方式
[0033]为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0034]在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0035]图4为本专利技术实施例实现文档还原的方法的流程图,如图1所示,包括:
[0036]步骤401、确定文档图像中无需进行线条还原的区域的区域位置信息;
[0037]需要说明的是,本专利技术实施例无需进行线条还原的区域包括:通过相关技术已实
现线条还原的区域。
[0038]本申请专利技术人对相关技术中的文档还原功能进行分析发现:目前的办公应用软件对文档图像,仅支持一些固定格式的线条的检测还原,例如:下划线的检测还原;因此,对于其他种类格式的线条,在文档还原处理时并未得到还原处理;且下划线的检测还原,有时还存在漏还原的情况。
[0039]在一种示例性实例中,无需进行线条还原的区域包括以下一项或任意组合的区域:
[0040]文本区域、图片区域、公式区域、表格区域、图标区域、水印区域、二维码区域和流程图区域等。
[0041]在一种示例性实例中,确定文档图像中无需进行线条还原的区域的区域位置信息,包括:
[0042]对文档图像进行除文本区域外的多目标检测,将多目标检测获得的至少一个目标区域的区域位置信息,作为文档图像中无需进行线条还原的区域的区域位置信息;这里,多目标检测算法可以是相关技术中已有的算法,在此不做赘述。
[0043]需要说明的是,上述目标区域包含的线条为目标区域包含的内容,在进行文档还原时,可以通过相关技术中已有的方法进行还原,例如:图片区域的线条,通过图像识别对图片进行识别后,将图片作为还原对象,采用相关的图像处理技术进行图片还原;公式区域的线条,通过相关技术确定公式区域包含的公式后,将公式作为还原对象,根据相关技术中已有的公式处理方法进行公式的还原。
[0044]在一种示例性实例中,本专利技术实施例确定文档图像中无本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现文档还原的方法,包括:确定文档图像中无需进行线条还原的区域的区域位置信息;确定文档图像中包含的线条的线条位置信息;根据确定的区域位置信息和线条位置信息,从包含的线条中过滤无需进行线条还原的区域中的线条后,确定待还原线条;对待还原线条进行还原处理。2.根据权利要求1所述的方法,其特征在于,所述无需进行线条还原的区域包括以下一项或任意组合的目标区域:文本区域、图片区域、公式区域、表格区域、图标区域、水印区域、二维码区域和流程图区域。3.根据权利要求2所述的方法,其特征在于,所述确定文档图像中无需进行线条还原的区域的区域位置信息,包括:对所述文档图像进行除文本区域以外的多目标检测,将多目标检测获得的至少一个目标区域的区域位置信息,作为文档图像中无需进行线条还原的区域的区域位置信息;当所述无需进行线条还原的区域包括所述文本区域时,通过预设的空白图像对所述检测获得的目标区域进行覆盖;对覆盖所述检测获得的目标区域后的所述文档图像进行文本检测,获得所述文本区域的所述区域位置信息。4.根据权利要求1~3任一项所述的方法,其特征在于,确定文档图像中包含的线条的线条位置信息,包括:获取所述文档图像中包含的线条的线条轮廓;对获取的所述线条轮廓进行计算,获得各线条的所述线条位置信息;其中,所述线条位置信息包括:线条横向起止位置的坐标和纵向起止位置的坐标。5.根据权利要求4所述的方法,其特征在于,所述获取所述文档图像中包含的线条的线条轮廓,包括:对所述文档图像进行二值化处理,获得二值化图像;对获得的所述二值化图像,分别通过预设的行扫描尺寸和列扫描尺寸进行行扫描和列扫描;对所述行扫描和所述列扫描的结果分别进行取反,获得行扫描取反结果和列扫描取反结果;对获得的所述行扫描取反结果和列扫描取反结...

【专利技术属性】
技术研发人员:段纪伟陆瑾
申请(专利权)人:武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1