PDF文档水印识别方法及系统技术方案

技术编号:38026165 阅读:10 留言:0更新日期:2023-06-30 10:52
本发明专利技术公开了一种PDF文档水印识别方法,包括获取现有的PDF文档并提取文本;对文本预处理得到语料数据;对语料数据进行分词并建立分词模型;对分词模型进行训练;采用训练后的分词模型对目标PDF进行处理,完成文字水印的识别。本发明专利技术还公开了一种实现所述PDF文档水印识别方法的系统。本发明专利技术采用自然语言处理技术与位图识别相结合的方法,能较好地提高识别的准确率,而且可靠性高、精确性好且快速安全。精确性好且快速安全。精确性好且快速安全。

【技术实现步骤摘要】
PDF文档水印识别方法及系统


[0001]本专利技术属于计算机
,具体涉及一种PDF文档水印识别方法及系统。

技术介绍

[0002]随着经济技术的发展和人们生活水平的提高,电力系统已经进入了数字化时代。
[0003]目前,国内外众多科研人员针对图像、音频、视频的相关保护做了大量研究,但是对于PDF电子文档数字水印的研究相对较少。PDF文档格式的数字水印已被广泛应用于电子政务网、企业信息网等各种内部网中,用于保护内部的涉密公文与文件。
[0004]目前,已有的识别PDF文档水印的方法,多采用统计学、图像处理的技术手段;基于统计学的水印识别方法虽然识别速率较快,但是这类方法主要关注字词出现的频次和位置,普遍存在准确率不高、鲁棒性较低的问题;基于图像处理的识别方法虽然适用于许多非文本水印的场景,但是该类方法对所读取文件的权限要求较高,而且识别速率相对较差。

技术实现思路

[0005]本专利技术的目的在于提供一种可靠性高、精确性好且快速安全的PDF文档水印识别方法。
[0006]本专利技术的目的之二在于提供一种实现所述PDF文档水印识别方法的系统。
[0007]本专利技术提供的这种PDF文档水印识别方法,包括如下步骤:
[0008]S1.获取现有的PDF文档并进行文本提取;
[0009]S2.对步骤S1提取的文本进行预处理,从而得到语料数据;
[0010]S3.对步骤S2得到的语料数据进行分词,并基于N

gram模型建立分词模型
[0011]S4.对步骤S3构建的分词模型进行训练;
[0012]S5.采用训练后的分词模型,对目标PDF进行处理,完成文字水印的识别。
[0013]步骤S1所述的获取现有的PDF文档并进行文本提取,具体包括如下步骤:
[0014]获取含有水印和不含水印的PDF文件,并提取PDF文件的文本内容;同时,提取PDF文件中的位图元素内容和对应的所在位置。
[0015]步骤S2所述的预处理,具体包括如下步骤:
[0016]删除文本内容的标点符号和特殊字符,并将文本处理得到字符串集合。
[0017]步骤S3所述的对步骤S2得到的语料数据进行分词,并基于N

gram模型建立分词模型,具体包括如下步骤:
[0018]采用标准词典作为分词词典,基于正向匹配算法和逆向匹配算法,建立N

gram模型,将字符串S=(w1,w2,...,w
x
)依次缩短,并于分词词典进行匹配分词,得到若干个候选词序列;找到序列中的不同部分,采用Bi

gram算法计算不同部分的概率;根据概率计算结果,选取概率最大的词序列作为最终的分词结果。
[0019]步骤S4所述的对步骤S3构建的分词模型进行训练,具体包括如下步骤:
[0020]采用如下算式计算一个句子(w1,w2,...,w
x
)的概率P(S):
[0021]P(S)=p(w1)p(w2|w1)...p(w
x
|w1,w2,...,w
x
‑1)
[0022]式中p(w1)为词w1在文本中出现的概率;p(w2|w1)为前一个词为w1同时后一个词为w2的组合在文本中出现的次数;p(w
x
|w1,w2,...,w
x
‑1)为词序列(w1,w2,...,w
x
‑1)后面为词w
x
的组合在文本中出现的次数;
[0023]计算时,引入马尔科夫假设,将上述计算问题转换为3

gram模型,并采用如下算式表示:
[0024][0025]式中p(w
i
|w
i
‑2,w
i
‑1)为w
i
出现时前面为(w
i
‑2,w
i
‑1)的概率;
[0026]建立KenLM算法来求解公式
[0027]在分词后的文本内容中的每一句话开头与结尾分别加上设定的起始符和设定的终止符;
[0028]初始计数:采用极大似然估计方法,得到其中,C(w
i
‑2w
i
‑1w
i
)为词序列(w
i
‑2w
i
‑1w
i
)出现的频次,C(w
i
‑2w
i
‑1)为词序列(w
i
‑2w
i
‑1)出现的频次;
[0029]调整初始计数:采用如下算式调整初始计数:
[0030][0031]式中为词序列(w
i
‑2w
i
‑1w
i
)的调整计数;将C(w
i
‑2w
i
‑1w
i
)记作v为表示词序列后面所接的词;为当词序列(w
i
‑2w
i
‑1w
i
)后所接的词为v时的词频;
[0032]计数打折:采用如下算式计算打折后的计数:
[0033][0034]式中D3(k)为3

gram的折扣值;k为某个3

gram词序列出现的次数;t
k
为出现了k次3

gram的个数;
[0035]计算伪概率:采用如下算式计算得到伪概率:
[0036][0037]式中为词序列(w
i
‑2,w
i
‑1)后面为w
i
的伪概率;为词序列(w
i
‑2w
i
‑1w
i
)的调整计数;为词序列(w
i
‑2,w
i
‑1,v)的调整计数;v代表任意一个可能跟在词序列后的词;
[0038]计算回退权值:采用如下算式计算回退权值:
[0039][0040]式中为词序列(w
i
‑2,w
i
‑1)的回退权值;为词序列(w
i
‑2,w
i
‑1,v)的调整计数为k的次数;
[0041]插值:采用如下插值公式计算最终的条件概率:
[0042][0043]式中p(w
i
|w
i
‑1,w
i
‑2)为最终的条件概率。
[0044]步骤S5所述的采用训练后的分词模型,对目标PDF进行处理,完成文字水印的识别,具体包括如下步骤:
[0045]文本水印识别:
[0046]采用训练后的分词模型,对目标PDF进行处理,以模型计算得到的语句通顺度作为指标:
[0047]若语句通顺度大于设定的阈值,则进行后续的图片水印识别步骤;...

【技术保护点】

【技术特征摘要】
1.一种PDF文档水印识别方法,包括如下步骤:S1.获取现有的PDF文档并进行文本提取;S2.对步骤S1提取的文本进行预处理,从而得到语料数据;S3.对步骤S2得到的语料数据进行分词,并基于N

gram模型建立分词模型;S4.对步骤S3构建的分词模型进行训练;S5.采用训练后的分词模型,对目标PDF进行处理,完成文字水印的识别。2.根据权利要求1所述的PDF文档水印识别方法,其特征在于步骤S1所述的获取现有的PDF文档并进行文本提取,具体包括如下步骤:获取含有水印和不含水印的PDF文件,并提取PDF文件的文本内容;同时,提取PDF文件中的位图元素内容和对应的所在位置。3.根据权利要求2所述的PDF文档水印识别方法,其特征在于步骤S2所述的预处理,具体包括如下步骤:删除文本内容的标点符号和特殊字符,并将文本处理得到字符串集合。4.根据权利要求3所述的PDF文档水印识别方法,其特征在于步骤S3所述的对步骤S2得到的语料数据进行分词,并基于N

gram模型建立分词模型,具体包括如下步骤:采用标准词典作为分词词典,基于正向匹配算法和逆向匹配算法,建立N

gram模型,将字符串S=(w1,w2,...,w
x
)依次缩短,并于分词词典进行匹配分词,得到若干个候选词序列;找到序列中的不同部分,采用Bi

gram算法计算不同部分的概率;根据概率计算结果,选取概率最大的词序列作为最终的分词结果。5.根据权利要求4所述的PDF文档水印识别方法,其特征在于步骤S4所述的对步骤S3构建的分词模型进行训练,具体包括如下步骤:采用如下算式计算一个句子(w1,w2,...,w
x
)的概率P(S):P(S)=p(w1)p(w2|w1)...p(w
x
|w1,w2,...,w
x
‑1)式中p(w1)为词w1在文本中出现的概率;p(w2|w1)为前一个词是w1同时后一个词是w2的组合在文本中出现的次数;p(w
x
|w1,w2,...,w
x
‑1)为词序列(w1,w2,...,w
x
‑1)后面为w
x
的组合在文本中出现的次数;计算时,引入马尔科夫假设,将上述计算问题转换为3

gram模型,并采用如下算式表示:式中p(w
i
|w
i
‑2,w
i
‑1)为w
i
出现时前面为(w
i
‑2,w
i
‑1)的概率;建立KenLM算法来求解公式在分词后的文本内容中的每一句话开头与结尾分别加上设定的起始符和设定的终止符;初始计数:采用极大似然估计方法,得到其中,C
(w
i
‑2w
i
‑1w
i
)为词序列(w
i
‑2w
i
‑1w
i
)出现的频次,C(w
i
‑2w
i
‑1)为词序列(w
...

【专利技术属性】
技术研发人员:刘锐孙毅臻李自尊田峥陈中伟李树杨欢驰蔡哲儒李永发田楠戴大维陶凯
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1