一种pdf文件去水印方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38633607 阅读:17 留言:0更新日期:2023-08-31 18:31
本发明专利技术实施例公开了一种pdf文件去水印方法,包括以下步骤:S1:获取需要去除的水印信息;S2:获取用户在pdf第i页的页面上选定的目标去除区域j;其中,i和j均为自然数,i的取值范围为0<i≤pdf总页面数;S3:根据所述目标去除区域j,确定页面对象;S4:判断所述页面对象中是否包含所述水印信息:若是,则去除所述水印信息,后再返回执行S2;若否,则返回执行S2。该方法可以针对用户在pdf文档中选定的特定位置(包括但不限于视觉水印所在位置,只要用户认为是有必要的位置),都可以先进行水印识别操作,而且一旦识别到水印就可执行删除,水印去除效果较好。除效果较好。除效果较好。

【技术实现步骤摘要】
一种pdf文件去水印方法、装置、电子设备及存储介质


[0001]本专利技术属于pdf文件处理
,尤其涉及一种pdf文件去水印方法、装置、电子设备及存储介质。

技术介绍

[0002]随着网络技术的飞速发展,为了保护在互联网上传播的各种pdf文件的版权,pdf文件的版权所有人经常会在pdf文件中叠加可见的水印标记。但是,很多时候pdf文件的使用者是需要使用没有水印的文档,所以此时就需要对pdf文件进行去水印处理。
[0003]pdf文件去水印技术是指利用软件工具去除pdf文件中的水印信息,以便获得高质量的pdf文件。很多pdf编辑软件都是借助pdf规范中定义的水印对象去识别和删除水印,但是人们的视觉水印元素在pdf文件中并不是以pdf规范中定义的水印对象的形式存在的,这样就会导致去除水印的效果很差。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术实施例的专利技术目的在于提供一种pdf文件去水印方法、装置、电子设备及存储介质,其可以针对用户在pdf文档中选定的特定位置(包括但不限于视觉水印所在位置,只要用户认为是有必要的位置),都可以先进行水印识别操作,而且一旦识别到水印就可执行删除,水印去除效果较好。
[0005]为解决上述问题,本专利技术实施例第一方面公开了一种pdf文件去水印方法,包括以下步骤:
[0006]S1:获取需要去除的水印信息;
[0007]S2:获取用户在pdf第i页的页面上选定的目标去除区域j;其中,i和j均为自然数,i的取值范围为0<i≤pdf总页面数;
[0008]S3:根据所述目标去除区域j,确定页面对象;
[0009]S4:判断所述页面对象中是否包含所述水印信息:
[0010]若是,则去除所述水印信息,后再返回执行S2;
[0011]若否,则返回执行S2。
[0012]作为可选的方案,在本专利技术实施例的第一方面中,所述水印信息为文本;所述S3包括:
[0013]S31:遍历所述目标去除区域j中的页面对象;
[0014]S32:判断所述页面对象是否为文本:
[0015]若是,则执行S4;
[0016]若否,则执行S5。
[0017]作为可选的方案,在本专利技术实施例的第一方面中,所述S5包括:
[0018]判断所述页面对象是否为图片;
[0019]若是,则识别所述图片中的文字,后执行S4;
[0020]若否,则返回执行S31;
[0021]所述S4包括:
[0022]判断所识别出来的文字内容是否包含所述水印信息:
[0023]若是,则去除所述水印信息;
[0024]若否,则返回执行S31。
[0025]所述识别所述图片中的文字,包括:
[0026]作为可选的方案,在本专利技术实施例的第一方面中,采用OCR识别所述图片中的文字。
[0027]作为可选的方案,在本专利技术实施例的第一方面中,所述水印信息为图片;所述S3包括:
[0028]S31:遍历所述目标去除区域j中的页面对象;
[0029]S32:判断所述页面对象是否为图片:
[0030]若是,则计算页面对象与所述水印信息的相似度;
[0031]若否,则返回执行S31;
[0032]所述S4包括:
[0033]根据所述相似度,判断所述页面对象中是否包含所述水印信息。
[0034]作为可选的方案,在本专利技术实施例的第一方面中,所述根据所述相似度,判断所述页面对象中是否包含所述水印信息,包括:
[0035]若相似度大于或等于预设阈值时,则判定所述页面对象包含所述水印信息;
[0036]若相似度小于预设阈值时,则判定所述页面对象不包含所述水印信息。
[0037]作为可选的方案,在本专利技术实施例的第一方面中,所述计算页面对象与所述水印信息的相似度,包括:
[0038]采用图像相似度检测算法或模板匹配算法或特征提取算法或卷积神经网络算法来计算所述页面对象与所述水印信息的相似度。
[0039]本专利技术实施例第二方面公开了一种pdf文件去水印装置,包括:
[0040]第一获取模块,用于获取需要去除的水印信息;
[0041]第二获取模块,用于获取用户在pdf第i页的页面上选定的目标去除区域j;其中,i和j均为自然数,i的取值范围为0<i≤pdf总页面数;
[0042]分析模块,用于根据所述目标去除区域j,确定页面对象;
[0043]处理与反馈模块,用于判断所述页面对象中是否包含所述水印信息:
[0044]若是,则去除所述水印信息,后再返回第二获取模块;
[0045]若否,则返回第二获取模块。
[0046]本专利技术实施例第三方面公开了一种电子设备,包括存储器、处理器以及存储在所述存储器中并能在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的pdf文件去水印方法的步骤。
[0047]本专利技术实施例第四方面公开了一种计算机可读存储介质,其存储有计算机程序,其中,所述计算机程序使得计算机执行上述任意一项所述的pdf文件去水印方法的步骤。
[0048]与现有技术相比,本专利技术实施例的有益效果在于:
[0049]1.本专利技术实施例通过首先获取需要去除的水印信息和用户在pdf上选定的目标去
除区域j,再次根据所述目标去除区域j,确定页面对象,然后再判断所述页面对象中是否包含所述水印信息:若是,则删除水印;若无,则重新获取目标区域j,从而可以针对用户在pdf文档中选定的特定位置(包括但不限于视觉水印所在位置,只要用户认为是有必要的位置),都可以先进行水印识别操作,而且一旦识别到水印就可执行删除,水印去除效果较好,并且可以针对单个pdf页面上的单个目标去除区域,或者同一个pdf页面上的多个不同的目标去除区域,或者多个不同pdf页面上的单个目标去除区域,又或者多个不同pdf页面上的多个不同目标去除区域,进行水印识别后决定是否删除,适用范围广,同时使用灵活、方便。
[0050]2.本专利技术实施例能够有效去除用户选定区域的文本格式和图片格式的水印,成功率可以达到90%以上。
[0051]3.针对水印信息为文本或图片,有不同的处理流程步骤,满足pdf文档中不同格式的水印信息的使用需求,进一步提升本专利技术实施例的适用范围、使用灵活性和便捷度。
[0052]下面结合附图和具体实施方式对本专利技术作进一步详细说明。
附图说明
[0053]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0054]图1是本专利技术的一个示例性实施例提供的一种pdf文件去水印方法的流程示意图;
[0055]图2是本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种pdf文件去水印方法,其特征在于:包括以下步骤:S1:获取需要去除的水印信息;S2:获取用户在pdf第i页的页面上选定的目标去除区域j;其中,i和j均为自然数,i的取值范围为0<i≤pdf总页面数;S3:根据所述目标去除区域j,确定页面对象;S4:判断所述页面对象中是否包含所述水印信息:若是,则去除所述水印信息,后再返回执行S2;若否,则返回执行S2。2.根据权利要求1所述的pdf文件去水印方法,其特征在于:所述水印信息为文本;所述S3包括:S31:遍历所述目标去除区域j中的页面对象;S32:判断所述页面对象是否为文本:若是,则执行S4;若否,则执行S5。3.根据权利要求2所述的pdf文件去水印方法,其特征在于:所述S5包括:判断所述页面对象是否为图片;若是,则识别所述图片中的文字,后执行S4;若否,则返回执行S31;所述S4包括:判断所识别出来的文字内容是否包含所述水印信息:若是,则去除所述水印信息;若否,则返回执行S31。4.根据权利要求3所述的pdf文件去水印方法,其特征在于:所述识别所述图片中的文字,包括:采用OCR识别所述图片中的文字。5.根据权利要求1所述的pdf文件去水印方法,其特征在于:所述水印信息为图片;所述S3包括:S31:遍历所述目标去除区域j中的页面对象;S32:判断所述页面对象是否为图片:若是,则计算页面对象与所述水印信息的相似度;若否,则返回执行S31;所述S4包括:根据所述相似度,判断所述页面对象中是否包含所述水印信息。6.根据权利要...

【专利技术属性】
技术研发人员:许德峰
申请(专利权)人:赛博爱思上海软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1