当前位置: 首页 > 专利查询>国网湖南省电力有限公司信息通信分公司国家电网有限公司专利>正文

PDF文档水印识别方法及系统技术方案

技术编号：38026165 阅读：10 留言：0更新日期：2023-06-30 10:52

本发明专利技术公开了一种PDF文档水印识别方法，包括获取现有的PDF文档并提取文本；对文本预处理得到语料数据；对语料数据进行分词并建立分词模型；对分词模型进行训练；采用训练后的分词模型对目标PDF进行处理，完成文字水印的识别。本发明专利技术还公开了一种实现所述PDF文档水印识别方法的系统。本发明专利技术采用自然语言处理技术与位图识别相结合的方法，能较好地提高识别的准确率，而且可靠性高、精确性好且快速安全。精确性好且快速安全。精确性好且快速安全。

全部详细技术资料下载

【技术实现步骤摘要】
PDF文档水印识别方法及系统

[0001]本专利技术属于计算机
，具体涉及一种PDF文档水印识别方法及系统。

技术介绍

[0002]随着经济技术的发展和人们生活水平的提高，电力系统已经进入了数字化时代。
[0003]目前，国内外众多科研人员针对图像、音频、视频的相关保护做了大量研究，但是对于PDF电子文档数字水印的研究相对较少。PDF文档格式的数字水印已被广泛应用于电子政务网、企业信息网等各种内部网中，用于保护内部的涉密公文与文件。
[0004]目前，已有的识别PDF文档水印的方法，多采用统计学、图像处理的技术手段；基于统计学的水印识别方法虽然识别速率较快，但是这类方法主要关注字词出现的频次和位置，普遍存在准确率不高、鲁棒性较低的问题；基于图像处理的识别方法虽然适用于许多非文本水印的场景，但是该类方法对所读取文件的权限要求较高，而且识别速率相对较差。

技术实现思路

[0005]本专利技术的目的在于提供一种可靠性高、精确性好且快速安全的PDF文档水印识别方法。
[0006]本专利技术的目的之二在于提供一种实现所述PDF文档水印识别方法的系统。
[0007]本专利技术提供的这种PDF文档水印识别方法，包括如下步骤：
[0008]S1.获取现有的PDF文档并进行文本提取；
[0009]S2.对步骤S1提取的文本进行预处理，从而得到语料数据；
[0010]S3.对步骤S2得到的语料数据进行分词，并基于N
‑
gram模型建立分词模型

【技术保护点】

【技术特征摘要】
1.一种PDF文档水印识别方法，包括如下步骤：S1.获取现有的PDF文档并进行文本提取；S2.对步骤S1提取的文本进行预处理，从而得到语料数据；S3.对步骤S2得到的语料数据进行分词，并基于N
‑
gram模型建立分词模型；S4.对步骤S3构建的分词模型进行训练；S5.采用训练后的分词模型，对目标PDF进行处理，完成文字水印的识别。2.根据权利要求1所述的PDF文档水印识别方法，其特征在于步骤S1所述的获取现有的PDF文档并进行文本提取，具体包括如下步骤：获取含有水印和不含水印的PDF文件，并提取PDF文件的文本内容；同时，提取PDF文件中的位图元素内容和对应的所在位置。3.根据权利要求2所述的PDF文档水印识别方法，其特征在于步骤S2所述的预处理，具体包括如下步骤：删除文本内容的标点符号和特殊字符，并将文本处理得到字符串集合。4.根据权利要求3所述的PDF文档水印识别方法，其特征在于步骤S3所述的对步骤S2得到的语料数据进行分词，并基于N
‑
gram模型建立分词模型，具体包括如下步骤：采用标准词典作为分词词典，基于正向匹配算法和逆向匹配算法，建立N
‑
gram模型，将字符串S＝(w1,w2,...,w
x
)依次缩短，并于分词词典进行匹配分词，得到若干个候选词序列；找到序列中的不同部分，采用Bi
‑
gram算法计算不同部分的概率；根据概率计算结果，选取概率最大的词序列作为最终的分词结果。5.根据权利要求4所述的PDF文档水印识别方法，其特征在于步骤S4所述的对步骤S3构建的分词模型进行训练，具体包括如下步骤：采用如下算式计算一个句子(w1,w2,...,w
x
)的概率P(S)：P(S)＝p(w1)p(w2|w1)...p(w
x
|w1,w2,...,w
x
‑1)式中p(w1)为词w1在文本中出现的概率；p(w2|w1)为前一个词是w1同时后一个词是w2的组合在文本中出现的次数；p(w
x
|w1,w2,...,w
x
‑1)为词序列(w1,w2,...,w
x
‑1)后面为w
x
的组合在文本中出现的次数；计算时，引入马尔科夫假设，将上述计算问题转换为3
‑
gram模型，并采用如下算式表示：式中p(w
i
|w
i
‑2,w
i
‑1)为w
i
出现时前面为(w
i
‑2,w
i
‑1)的概率；建立KenLM算法来求解公式在分词后的文本内容中的每一句话开头与结尾分别加上设定的起始符和设定的终止符；初始计数：采用极大似然估计方法，得到其中，C
(w
i
‑2w
i
‑1w
i
)为词序列(w
i
‑2w
i
‑1w
i
)出现的频次，C(w
i
‑2w
i
‑1)为词序列(w
...

【专利技术属性】
技术研发人员：刘锐，孙毅臻，李自尊，田峥，陈中伟，李树，杨欢驰，蔡哲儒，李永发，田楠，戴大维，陶凯，
申请(专利权)人：国网湖南省电力有限公司信息通信分公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人