一种用于OFD版式文档的加密方法及系统技术方案

技术编号：40629204 阅读：5 留言：0更新日期：2024-03-13 21:15

本发明专利技术涉及文档加密技术领域，具体涉及一种用于OFD版式文档的加密方法及系统，该方法包括：采集OFD版式文档文本数据并进行分词处理得到分词数据；计算各分词对应的各词语的局部出现概率；基于局部出现概率构建各分词的词语分布密度价值；计算分词之间的相关性，根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值；获取文本数据的信息熵及加密时各分词的模拟信息熵，进而构建加密时各分词的词语加密价值；结合各分词的词语加密价值采用多轮加密方式完成OFD文档的加密。从而实现对OFD版式文档的加密，提高加密复杂度，保证加密效果，提升对文档信息的保护。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文档加密，具体涉及一种用于ofd版式文档的加密方法及系统。

技术介绍

1、ofd文档是一种对标pdf文档的文件格式，具有格式独立、版面独立、固话呈现等版式文件的特点，不会因为设备的不同而出现不同显示效果，广泛用于电子商务、电子会议、档案管理等重要场合。由于ofd文档的使用过程中常用于传输重要文件，因此为保护文档信息安全，对ofd文档进行加密格外重要。

2、在对ofd文档数据进行加密过程中，有大量的文字信息是重复的低价值信息，并不能反应ofd文档的主要内容，如果对ofd文档中的所有文字内容都进行同样复杂度加密，会浪费大量的计算资源，并且增加ofd文档的传输消耗时间。

技术实现思路

1、为了解决上述技术问题，本专利技术的目的在于提供一种用于ofd版式文档的加密方法及系统，所采用的技术方案具体如下：

2、第一方面，本专利技术实施例提供了一种用于ofd版式文档的加密方法，该方法包括以下步骤：

3、采集ofd版式文档文本数据并进行分词处理，分词处理后的文本数据记为分词数据；

4、根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率；根据各分词在分词数据中的数量、分词数据中的词语总数量及各分词对应词语的局部出现概率得到各分词的词语分布密度价值；根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价

5、结合各分词的词语加密价值采用多轮加密方式完成ofd文档的加密。

6、进一步地，所述根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率，包括：

7、对于第种分词，统计第种分词的第个词语与其左、右两边最近出现第个词语之间间隔的词语数量之和，将2与所述词语数量之和的比值作为第种分词对应的第个词语的局部出现概率。

8、进一步地，所述各分词的词语分布密度价值包括：

9、对于第种分词，统计分词数据中第种分词的词语数量，计算第种分词的词语数量与分词数据中词语总数量的比值，将所述比值与第种分词中各词语的局部出现概率的差值绝对值，将第种分词中所有词语的所述差值绝对值的均值作为第种分词的词语分布密度价值。

10、进一步地，所述根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，包括：

11、统计分词数据中第种分词的词语数量以及分词数据中的词语总数量，第种分词与第种分词之间的相关性的表达式为：

12、

13、式中，是第种分词的第个词语的局部出现概率；是与第种分词的第个词语距离最近的第种分词的词语的局部出现概率，是第种分词的第个词语与所述第种分词词语的距离，所述距离为两个词语之间间隔的词语数量；是分词数据中所述第种分词的词语数量。

14、进一步地，所述根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值，包括：

15、对于第种分词，分别计算第种分词与其他分词之间的相关性的最大值、和值，分别获取所述最大值减去第种分词与其他分词之间的相关性的结果，计算所述结果与所述和值的比值，计算所述其他分词的词语分布密度价值与所述比值的乘积，将所有所述其他分词的所述乘积的和值作为第种分词的词语关联信息价值。

16、进一步地，所述获取文本数据的信息熵及加密时各分词的模拟信息熵，包括：

17、将文本数据中各个乱码片段均作为同一种分词，文本数据中每种分词作为一种字符，计算整个文本数据的信息熵；

18、对第轮加密前还未进行加密的第种分词，将所述第种分词替换为乱码，对替换后的文本数据计算信息熵作为第轮加密时第种分词的模拟信息熵。

19、进一步地，所述根据信息熵及模拟信息熵结合分词的词语分布密度价值、词语关联信息价值构建加密时各分词的词语加密价值，包括：

20、

21、式中，是第轮加密时第种分词的词语加密价值；是第轮加密前文本数据的信息熵；是第轮加密时第种分词的模拟信息熵；是第种分词的词语分布密度价值；是第种分词的词语关联信息价值；是分词数据中第种分词的词语数量。

22、进一步地，所述结合各分词的词语加密价值采用多轮加密方式完成ofd文档的加密，具体包括：

23、采用多轮加密的方式进行分级加密，每轮加密时选择词语加密价值最大的分词与已选择加密的数据一同进行加密过程，直到所有分词都进行加密为止。

24、进一步地，所述多轮加密包括：对每一轮加密采用rsa算法对数据进行加密。

25、第二方面，本专利技术实施例还提供了一种用于ofd版式文档的加密系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

26、本专利技术至少具有如下有益效果：

27、本专利技术通过ofd文档中文本数据出现位置的分布情况进行特征提取，结合文本数据中各词语种类的局部出现概率和整体出现概率之差，表征各词语种类的密度分布情况，分辨出密度分布不均匀的词语种类，作为拥有高加密价值的词语数据。进一步，根据各词语种类与其它词语种类的局部出现概率之差和出现位置的差异，作为表征各词语种类与其它词语种类的相关性大小，并以此为权重构建词语关联信息价值，表征与该词语种类的关联词语种类的加密价值大小，作为该词语种类的加密价值。进一步模拟未被加密的各词语分级在当前轮加密前后的信息熵变化情况，以及加密该词语所消耗的计算资源大小，结合词语密度分布价值和词语关联信息价值，构建词语加密价值，作为每轮加密过程中选取新的加密词语种类的指标，完成分级加密；

28、相比与传统的所有文字信息同时加密的ofd文档加密方法，本专利技术根据ofd文档中文字之间的概率关系，计算出不同词语种类的加密价值，并根据对加密价值高的词语种类进行复杂度更高的加密；本专利技术与传统加密方法相比，在节约计算资源的同时，对加密价值高的信息进行更好的保护，获取了更好的加密效果。

本文档来自技高网...

【技术保护点】

1.一种用于OFD版式文档的加密方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率，包括：

3.如权利要求2所述的一种用于OFD版式文档的加密方法，其特征在于，所述各分词的词语分布密度价值包括：

4.如权利要求1所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，包括：

5.如权利要求4所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值，包括：

6.如权利要求5所述的一种用于OFD版式文档的加密方法，其特征在于，所述获取文本数据的信息熵及加密时各分词的模拟信息熵，包括：

7.如权利要求6所述的一种用于OFD版式文档的加密方法，其特征在于，所述根据信息熵及模拟信息熵结合分词的词语分布密度价值、词语关

8.如权利要求1所述的一种用于OFD版式文档的加密方法，其特征在于，所述结合各分词的词语加密价值采用多轮加密方式完成OFD文档的加密，具体包括：

9.如权利要求8所述的一种用于OFD版式文档的加密方法，其特征在于，所述多轮加密包括：对每一轮加密采用RSA算法对数据进行加密。

10.一种用于OFD版式文档的加密系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种用于ofd版式文档的加密方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种用于ofd版式文档的加密方法，其特征在于，所述根据各分词对应的各词语与近邻词语之间的关系得到各分词对应的各词语的局部出现概率，包括：

3.如权利要求2所述的一种用于ofd版式文档的加密方法，其特征在于，所述各分词的词语分布密度价值包括：

4.如权利要求1所述的一种用于ofd版式文档的加密方法，其特征在于，所述根据局部出现概率、分词之间的词语间隔数量及分词对应的词语数量得到分词之间的相关性，包括：

5.如权利要求4所述的一种用于ofd版式文档的加密方法，其特征在于，所述根据各分词的词语分布密度价值、各分词与其他分词之间的相关性得到各分词的词语关联信息价值，包括：

6.如权利要求5所述的一种用于ofd版式文档的加密方...

【专利技术属性】
技术研发人员：杨瑞钦，郭尚，陆猛，朱静宇，赵云，庄玉龙，张伟，
申请(专利权)人：北京点聚信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人