一种电子公文处理方法及系统技术方案

技术编号：39069523 阅读：14 留言：0更新日期：2023-10-12 20:01

本发明专利技术涉及数据处理技术领域，具体涉及一种电子公文处理方法及系统，包括：采集电子公文数据并进行编码得到原数据，根据原数据得到原数据的字符序列，得到原数据的字符频率序列，根据原数据的字符频率序列得到原数据的混乱程度，获取第一数据段的混乱程度，根据高频字符索引序列得到第一数据段的混乱程度的权重，得到第一数据段的加权混乱程度，根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性，得到第一个最终数据段，得到所有最终数据段，将所有最终数据段利用算术编码分别进行压缩并存储。本发明专利技术通过对数据进行分段的操作，使各数据段的信息熵尽可能小，从而提高数据压缩率。从而提高数据压缩率。从而提高数据压缩率。

全部详细技术资料下载

【技术实现步骤摘要】
一种电子公文处理方法及系统

[0001]本专利技术涉及数据处理
，具体涉及一种电子公文处理方法及系统。

技术介绍

[0002]随着信息技术的迅速发展，电子公文的处理和管理成为了现代办公环境中的重要问题。传统的纸质公文处理方式存在着许多问题，如信息传递效率低、存储和检索困难、易丢失等。因此，开发一种高效、安全、可靠的电子公文处理方法和系统成为了迫切需求。
[0003]现有技术通过算术编码对电子公文数据进行压缩，传统的算术编码在对数据进行编码前统计数据中任意一类字符的出现频率并根据字符频率为字符分配概率区间进行编码。然而电子公文有着明确的主题，有较多关键词在公文内容中都被较多提及，且在整篇公文内容中的提及频率相近。通过分段的方式使数据段中字符分布的均匀程度较低，对数据进行分段算术编码，由于对数据进行分段后的每个数据段都需要额外存储编码表造成额外的存储开销，分段过多会导致较低的压缩率甚至是负压缩，分段过少又难以使数据段内字符的分布不均匀。因此需要对电子公文数据的分段方法进行改进，对数据进行自适应分段。

技术实现思路

[0004]本专利技术提供一种电子公文处理方法及系统，以解决现有的问题。
[0005]本专利技术的一种电子公文处理方法及系统采用如下技术方案：本专利技术一个实施例提供了一种电子公文处理方法，该方法包括以下步骤：采集电子公文数据，根据电子公文数据得到原数据，预设初始分段长度L，从原数据最左侧开始在原数据上截取长度为L的数据段记为第一数据段；根据原数据得到原数据的字符序列，根据...

【技术保护点】

【技术特征摘要】
1.一种电子公文处理方法，其特征在于，该方法包括以下步骤：采集电子公文数据，根据电子公文数据得到原数据，预设初始分段长度L，从原数据最左侧开始在原数据上截取长度为L的数据段记为第一数据段；根据原数据得到原数据的字符序列，根据原数据的字符序列得到原数据的字符频率序列，根据原数据的字符频率序列中每一个字符的出现频率得到原数据的混乱程度；根据第一数据段得到第一数据段的字符序列，根据第一数据段的字符序列得到第一数据段的字符频率序列，根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度；根据第一数据段的字符频率序列得到第一字符频率序列，根据第一字符频率序列得到高频字符索引序列，根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重；将第一数据段的混乱程度的权重与第一数据段的混乱程度的乘积作为第一数据段的加权混乱程度，根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性；根据第一数据段的分段必要性得到第一个最终数据段，从第一最终数据段的最右侧开始，在原数据上依次截取出若干个最终数据段；将所有最终数据段按照先后顺序利用算术编码分别进行压缩并存储。2.根据权利要求1所述一种电子公文处理方法，其特征在于，所述根据电子公文数据得到原数据，包括的具体步骤如下：利用Unicode编码将电子公文数据进行编码，将电子公文数据全部编码为Unicode编码中存在的字符，得到电子公文数据的编码数据，记为原数据。3.根据权利要求1所述一种电子公文处理方法，其特征在于，所述根据原数据得到原数据的字符序列，根据原数据的字符序列得到原数据的字符频率序列，包括的具体步骤如下：获取原数据中出现的字符种类，将原数据中出现的字符种类按照Unicode字符数据库中字符顺序进行排序，得到原数据的字符序列；获取原数据的字符序列中每一个字符在原数据中的出现频率，将原数据的字符序列中每一个字符在原数据中的出现频率按照字符顺序进行排列，得到原数据的字符频率序列。4.根据权利要求1所述一种电子公文处理方法，其特征在于，所述根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度，包括的具体步骤如下：式中，为原数据的字符频率序列中第i个字符的出现频率，为原数据的字符频率序列中字符总个数，为以为底的对数函数，为原数据的混乱程度。5.根据权利要求1所述一种电子公文处理方法，其特征在于，所述根据第一数据段得到第一数据段的字符序列，根据第一数据段的字符序列得到第一数据段的字符频率序列，包括的具体步骤如下：获取第一数据段中出现的字符种类，将第一数据段中出现的字符种类按照Unicode字
符数据库中字符顺序进行排序，得到第一数据段的字符序列；获取第一数据段的字符序列中每一个字符在第一数据段中的出现...

【专利技术属性】
技术研发人员：闫海涛，王炳章，王忠，王帅，杨阳，
申请(专利权)人：世窗信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人