一种水印文本的处理方法和装置制造方法及图纸

技术编号:36088339 阅读:58 留言:0更新日期:2022-12-24 11:04
本公开实施例提供了一种水印文本的处理方法和装置。该方法的一具体实施方式包括:获取第一文件,所述第一文件包括若干页;提取所述若干页内目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。利用该方法,可以有效的去除文件提取信息中的水印文本,提高文件解析内容的准确度。析内容的准确度。析内容的准确度。

【技术实现步骤摘要】
一种水印文本的处理方法和装置


[0001]本公开实施例涉及文本解析和水印处理
,尤其涉及一种水印文本的处理方法和装置。

技术介绍

[0002]目前,在很多行业中,企业或机构希望自动化的从其业务文件中提取并生成结构化的业务信息,这些文件很多情况下是编辑难度较大的PDF格式的文件或图片。
[0003]但是,这些业务文件中常常存在着水印文字,这些水印文字会造成提取的业务信息结构错误、文本顺序混乱、以及语义信息错乱等问题,影响文件解析的效果。
[0004]因此,需要一种水印文本的处理方案。

技术实现思路

[0005]本说明书的实施例描述了一种水印文本的处理方法和装置。
[0006]根据第一方面,提供了一种水印文本的处理方法,包括:获取第一文件,所述第一文件包括若干页;提取所述若干页内的目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
[0007]根据第二方面,提供了一种水印文本的处理装置,所述装置包括:
[0008]文件获取单元,配置为,获取第一文件,所述第一文件包括若干页;富文本信息提取单元,配置为,提取所述若干页内的目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;水印文本确定单元,配置为,根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
[0009]根据第三方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现如第一方面中任一项上述的方法。
[0010]根据第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令上述计算机执行第一方面中任一项上述的方法。
[0011]根据第五方面,提供了一种电子设备,包括存储器和处理器,上述存储器中存储有可执行代码,上述处理器执行上述可执行代码时,实现第一方面中任一项上述的方法。
[0012]根据本公开实施例提供一种水印文本的处理方法和装置。首先,获取文件页内的文本,以及文本中的各个字符以及字符的富文本信息,根据字符的富文本信息将字符合并为若干文本块。然后,根据文本块的富文本信息,确定出各文本块具有的富文本特征。此后,根据各文本块的富文本特征、以及符合水印出现规律的水印文本判断规则,从中确定出水印文本块。利用该方法和装置,可以在提取业务文件的文本内容后,准确的识别和去除其中的水印文本,从而获取更为准确的去水印的原始文本内容。
附图说明
[0013]图1示出了带有水印的文件示意图;
[0014]图2示出了包括水印文本和去除水印文本的文件提取信息的对比示意图;
[0015]图3示出了根据一个实施例的一种水印文本的处理方法的流程示意图;
[0016]图4示出了根据一个实施例的文本块富文本信息表的示意图;
[0017]图5示出了根据一个实施例的富文本特征、及符合特征的文本块数量统计表的示意图;
[0018]图6示出了根据一个实施例的确认出水印文本块的流程示意图;
[0019]图7示出了根据一个实施例的富文本特征、及符合特征的文本块的内容种类统计表的示意图;
[0020]图8示出了根据另一个实施例的确认出水印文本块的流程示意图;
[0021]图9示出了根据又一个实施例的确认出水印文本块的流程示意图;
[0022]图10示出了根据一个实施例的一种水印文本的处理装置的示意性框图;
[0023]图11示出了适于用来实现本申请实施例的电子设备的结构示意图;
[0024]图12示出了适于用来实现本申请实施例的存储介质的结构示意图。
具体实施方式
[0025]下面结合附图和实施例,对本说明书提供的技术方案做进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本说明书的实施例及实施例中的特征可以相互组合。
[0026]如前所述,目前很多企业或机构希望从其业务文件中提取并生成结构化的业务信息。但是,这些业务文件中常常存在着水印文字,这些水印文字会造成提取的业务信息结构错误、文本顺序混乱、以及语义信息错乱等问题,影响文件解析的效果。下面以对于项目文件的解析为例,进一步说明上述的技术问题。现有的项目文件常常是pdf格式或者图片格式,在对于这些格式的项目文件的解析中,通常会对项目中的文字以及其坐标、字体等富文本信息进行提取,然后使用这些文字和信息确定项目文件的内容。然而,一些项目中存在着水印文字,这些水印文字会造成例如项目内容的结构错误、内容文本的顺序错误和内容语义的错乱等问题,影响项目内容解析的效果。具体的,现有的文件解析方法,会在文件内容解析时,将水印文本和项目文本均提取出来,并且水印文本与项目文本常常相互穿插,这将导致最终获取的项目文本的文本顺序或文本排版产生错误,而现有的去水印方式通常需要手动去除其中的水印文本,这需要人工处理且处理效率很低。
[0027]图1示出了带有水印的文件示意图。如图1所示的项目文件中,存在少量水印文字,且与项目正文相交错。图2示出了包括水印文本和去除水印文本的文件提取信息的对比示意图。如图2左栏所示,现有工具在提取文件文本后,水印文本通常会穿插在项目正文中。将其与图2右栏所示的去除水印文本的文件文本相对比,可见穿插了水印文本的项目提取文本的可阅读性较差,且容易造成后续进一步文本处理中错误,例如由于水印文本的穿插,导致后续对于项目内容的结构的提取或重构出现错误。尤其是在一些实际的项目文件中,水印的密度较大,严重影响提取内容的可阅读性,甚至造成无法提取到结构化的项目内容。
[0028]为了解决上述的技术问题,本公开实施例提出了一种水印文本的处理方法。在一个实施例中,首先获取文件页内的文本,以及文本中的各个字符以及字符的富文本信息(例如字符的字体、大小、位置等),根据字符的富文本信息将字符合并为若干文本块。然后,根据文本块的富文本信息,确定出各文本块具有的富文本特征。此后,根据各文本块的富文本特征、以及对应水印出现规律的水印文本判断规则,从中确定出水印文本块,并将水印文本块从文件页包含的文本中去除。利用该方法,可以在提取业务文件的文本内容后,准确的识别和去除其中的水印文本,从而获取更为准确的去水印的原始文本内容。
[0029]下面进一步描述该方法的详细过程。
[0030]图3示出了根据一个实施例的一种水印文本的处理方法的流程示意图。如图3所示,该方法至少包括如下步骤:
[0031]首先,在步骤S301,获取第一文件,第一文件可以包括目标页。
[0032]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水印文本的处理方法,包括:获取第一文件,所述第一文件包括目标页;提取所述目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。2.根据权利要求1所述的方法,还包括,从所述第一文本中去除所述水印文本块。3.根据权利要求1所述的方法,其中,所述第一富文本信息包括文字字符的若干种字符属性,所述若干种字符属性包括:文字字符的位置坐标、字体类型、字体高度、字体颜色、所在页编号中的一种或多种。4.根据权利要求1所述的方法,其中,所述第二富文本信息包括文本块的若干种文本块属性,所述若干种文本块属性包括:文本块位置坐标、文本块大小、文本块内容、文本块字体高度、文本块所在页编号中的一种或多种。5.根据权利要求3所述的方法,其中,根据第一富文本信息,确定所述第一文本中包括的多个文本块,包括:根据字符的位置坐标、字体类型、字体高度、字体颜色中的一种或多种,确定所述第一文本中包括的多个文本块。6.根据权利要求5所述的方法,其中,所述字符的位置坐标包括位置纵坐标;根据字符的位置坐标、字体类型、字体高度、字体颜色中的一种或多种,确定所述第一文本中包括的多个文本块,包括:将位置纵坐标相同,且字体类型、字体高度、字体颜色均相同的文字字符,各自合并为单一文本块。7.根据权利要求4所述的方法,其中,基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块,包括:根据所述若干种文本块属性中至少一种属性的组合,确定所述多个文本块中至少部分文件块具有的富文本特征;至少基于具有所述富文本特征的文本块的数量,确定所述第一文本中包含水印文本的水印文本块。8.根据权利要求7所述的方法,其中,所述富文本特征包括第一特征,所述第一特征指示具有第一字体和第一字体高度;所述至少基于具有所述富文本特征的文本块的数量,确定所述第一文本中包含水印文本的水印文本块,包括:响应于具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量小于第二预设参数,确定具有第一特征的单字符文件块为水印文件块。9.根据权利要求7所述的方法,其中,所述至少基于具有所述富文本特征的文本块的数量,确定...

【专利技术属性】
技术研发人员:罗玉杰
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1