【技术实现步骤摘要】
一种基于人工智能的智慧档案管理方法
[0001]本专利技术涉及数字电子档案数据处理
,具体涉及一种基于人工智能的智慧档案管理方法
。
技术介绍
[0002]智慧档案管理指对于数字电子档案的管理方法,数字电子档案是以数字格式存储的文件和记录,通常以电子文档或电子数据的形式存在
。
传统的电子档案管理存储方法在数字化时代面临一些挑战,包括空间占用和长期保存的问题
。
在长期管理存储电子档案时,压缩文件可以节省宝贵的存储空间,降低存储成本,尤其在信息化时代背景下对于大规模的归档和数据保留策略
。
同时较好的压缩方法对于提高大规模档案的备份与传输效率有着深刻意义
。
[0003]在现有技术中,利用游程编码对电子档案的文本数据进行压缩时有时会因为相邻文本数据的冗余程度较低导致压缩效率不高,而引入有损压缩可能会导致重要信息丢失,对精度要求比较高的档案进行储存时,无法同时做到在保留数据精度的同时提高游程编码的压缩效率
。
技术实现思路
[0004]为了解决对精度要求比较高的档案进行储存时,无法同时做到在保留数据精度的同时提高游程编码的压缩效率的技术问题,本专利技术的目的在于提供一种基于人工智能的智慧档案管理方法,所采用的技术方案具体如下:一种基于人工智能的智慧档案管理方法,该方法包括:获取档案文本数据;将所述档案文本数据分割,获得所有分割类型对应的区域分块;根据每个区域分块的重复字符数量与重复字符种类获得所有区域分块的整体冗余程度 ...
【技术保护点】
【技术特征摘要】
1.
一种基于人工智能的智慧档案管理方法,其特征在于,所述方法包括:获取档案文本数据;将所述档案文本数据分割,获得所有分割类型对应的区域分块;根据每个区域分块的重复字符数量与重复字符种类获得所有区域分块的整体冗余程度;根据所述整体冗余程度筛选出最优分割类型并获得最终区域分块;将每个最终区域分块内的档案文本数据划分为多个数据数量相同的行序列,将每个行序列作为待测行序列;获得待测行序列的相似行序列,根据待测行序列和其他行序列之间的重复数据数量与相似行序列数量,获得待测行序列的整体相似程度;根据相同行序列数量与整体相似程度,获得所有行序列的可能冗余程度;将可能冗余程度最大的行序列作为最优二维矩阵的首行序列;从所述首行序列开始,根据排序规则依次将每个行序列进行排序,获得最优二维矩阵;所述排序规则包括:将未参与排序的所述行序列作为待排序行序列,根据待排序行序列与已排序的每个行序列之间的对应位置数据的最大相同数量,获得所述待排序行序列的向上延续性;根据所述待排序行序列之间的相同数据数量,获得待排序行序列的向下延续性;根据所述向上延续性与所述向下延续性获得所述待排序行序列的延续相似程度;根据所述首行序列与所述延续相似程度将所述待排序行序列排序到所述最优二维矩阵中;根据最优二维矩阵获得最优压缩序列;使用游程编码对所述最优压缩序列进行压缩管理
。2.
根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述整体冗余程度的获取方法包括:预设第一权值与第二权值分别对每个区域分块内的重复字符数量与重复字符种类进行加权;将加权后的重复字符数量与加权后的重复字符种类的比值作为每个区域分块的区域冗余度;将每个分割类型对应的所有区域分块内的所述区域冗余度求和,获得每个分割类型对应的所有区域分块内的整体冗余程度
。3.
根据权利要求2所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述最终区域分块获得方法包括:将所述整体冗余程度最大的分割类型对应的每个区域分块作为最终区域分块
。4.
根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述相似行序列获取方法包括:若待测行序列与其余任意一个行序列之间存在相同数据,则将存在相同数据的行序列作为待测行序列的相似行序列
。5.
根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述可能冗余程度的获取方法包括:根据可能冗余程度计算公式获取所述可能冗余程度,所述可能冗余程度计算公式如下所示:;式中,表示区域分块内待测行序列的可能冗余程度;表示待测行
序列的相同行序列数量;表示行序列中数据的数量;表示...
【专利技术属性】
技术研发人员:刘宗伟,蒋宗师,王春忠,陈超,
申请(专利权)人:中科数创临沂数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。