基于文件分割与特征提取的档案管理系统及方法技术方案

技术编号：25690269 阅读：37 留言：0更新日期：2020-09-18 21:02

本发明专利技术属于文件处理技术领域，具体为基于文件分割与特征提取的档案管理系统及方法，所述系统包括：文件分割单元，用于将数字化的档案文件进行分割，将分割后的子文件分别存储在不同的硬盘分区中，同时针对该档案文件的分割后的子文件基于子文件顺序，建立一个索引关联族；特征提取单元，用于分别对每一个档案文件进行特征提取，获取档案文件特征，同时，针对该文件分割后的每个子文件进行特征提取，获取子文件特征，将每一个子文件特征与档案文件特征进行关联，形成以档案文件特征为起始节点，子文件特征为分支节点的特征树；文件检索单元，根据用户提供的关键字，基于特征树进行检索，将检索到的文件发送给用户。提升了资源空间利用率，同时提升了检索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于文件分割与特征提取的档案管理系统及方法
本专利技术属于档案管理
，具体涉及基于文件分割与特征提取的档案管理系统及方法。
技术介绍
档案的收集、整理、保管、鉴定、统计和提供利用的活动。包括：档案收集、档案整理、档案价值鉴定、档案保管、档案编目和档案检索、档案统计、档案编辑和研究(见档案文献编纂)、档案提供利用。这8项工作的划分只是相对稳定而不是绝对的，也有分为6个环节的，也有分为基础工作和利用工作两大部分的。由于现代档案管理工作已成为复杂的系统，故也有按多层次进行划分的方法。其第一层次分档案实体管理和档案信息开发两个子系统，各子系统又下分若干层次小系统。档案实体管理分收集、整理、鉴定、保管、统计等工作环节；档案信息开发又分信息加工和信息输出两部分，信息加工由编制目录、编辑文献汇编和编写参考资料构成，信息输出由提供阅览、复制、咨询、函调、外借以及出版、展览等多项服务活动构成。整个档案管理系统及其子系统在运行中都形成反馈机制。随着档案管理现代化的发展，还将对档案管理工作的结构产生新的影响。档案管理的最终目的是提供档案信息...

【技术保护点】
1.基于文件分割与特征提取的档案管理系统，其特征在于，所述系统包括：文件分割单元，用于将数字化的档案文件进行分割，将分割后的子文件分别存储在不同的硬盘分区中，同时针对该档案文件的分割后的子文件基于子文件顺序，建立一个索引关联族；特征提取单元，用于分别对每一个档案文件进行特征提取，获取档案文件特征，同时，针对该文件分割后的每个子文件进行特征提取，获取子文件特征，将每一个子文件特征与档案文件特征进行关联，形成以档案文件特征为起始节点，子文件特征为分支节点的特征树；文件检索单元，根据用户提供的关键字，基于特征树进行检索，将检索到的文件发送给用户；文件拼接单元，用于响应用户的文件获取命令，将目标文件对...

【技术特征摘要】
1.基于文件分割与特征提取的档案管理系统，其特征在于，所述系统包括：文件分割单元，用于将数字化的档案文件进行分割，将分割后的子文件分别存储在不同的硬盘分区中，同时针对该档案文件的分割后的子文件基于子文件顺序，建立一个索引关联族；特征提取单元，用于分别对每一个档案文件进行特征提取，获取档案文件特征，同时，针对该文件分割后的每个子文件进行特征提取，获取子文件特征，将每一个子文件特征与档案文件特征进行关联，形成以档案文件特征为起始节点，子文件特征为分支节点的特征树；文件检索单元，根据用户提供的关键字，基于特征树进行检索，将检索到的文件发送给用户；文件拼接单元，用于响应用户的文件获取命令，将目标文件对应的索引关联族中的所有文件按照索引关联族，以子文件顺序拼接顺序，进行在子文件拼接，将拼接后的文件发送给用户。

2.如权利要求1所述的系统，其特征在于，所述文件分割单元将数字化的档案文件进行分割，将分割后的子文件分别存储在不同的硬盘分区中，同时针对该档案文件的分割后的子文件基于子文件顺序，建立一个索引关联族的方法执行以下步骤：文件分割单元将收到的档案文件进行固定大小的切片处理，并为每一个档案文件块生成唯一的哈希值，同时将这些档案文件块以默克尔有向无环图的档案文件结构进行联系起来，并生成一个根哈希作为该文件的哈希标识；生成档案文件块哈希及根哈希的算法根据文件档案文件实际内容来生成，不同的文件会产生不同的哈希值；完成该文件的写入后，提示写入档案文件成功；在新的文件写入时，通过设置多个文件分割单元，所述多个文件分割单元同步写入任务，执行写入任务的文件分割单元均会对文件以同样的算法进行切片后进行存储，当验证网络中存在N个档案文件副本后，写入档案文件任务终止；每个文件分割单元将会创建分布式哈希表，在分布式哈希表中包含文件分割单元信息、本文件分割单元下存储的所有档案文件及档案文件结构关系、档案文件存储的文件分割单元信息；当写入新档案文件时，更新哈希表，并与其它文件分割单元同步信息；完成文件分割后，基于每个子文件对应的哈希表，以该文件在哈希表中的地址建立索引关联族。

3.如权利要求2所述的系统，其特征在于，所述特征提取单元，分别对每一个档案文件进行特征提取，获取档案文件特征，同时，针对该文件分割后的每个子文件进行特征提取，获取子文件特征，将每一个子文件特征与档案文件特征进行关联，形成以档案文件特征为起始节点，子文件特征为分支节点的特征树的方法执行以下步骤：确定特征量级G和模糊权重M，随机初始化特征原型，每个特征原型代表一个智能体，确定种群大小，令进化代数E＝0；利用如下公式对隶属度进行更新：其中，i、j和s分别表示特征类别，V为特征中心，vi表示第i类的特征中心，vj表示第j类的特征中心，vs表示第s类的特征中心；a、和b和c分别表示对应于三维灰度信息的每一个维度的当前待特征数据的标号，xk为标准标号；根据更新的隶属度计算特征种群中的个体能量，进而得到特征标签，根据得到的特征标签进行子文件的特征；基于该文件特征，建立档案文件特征为起始节点，子文件特征为分支节点的特征树。

4.如权利要求1所述的装置，其特征在于，所述根据更新的隶属度计算特征种群中的个体能量，进而得到特征标签的方法执行以下步骤：使用如下公式计算种群中的个体能量：其中，ζ为调整常数，取值范围为30～50；根据获得的个体能量值，将特征种群中的个体平均分为三类，为三类个体分别设置不同的特征标签。

5.如权利要求4所述的系统，其特征在于，所述文件检索单元，根据用户提供的关键字，基于特征树进行检索，将检索到的文件发送给用户的方法执行以下步骤：获取完整的特征树，将特征树中的所有节点均进行标号，将标号进行连接后组成地图信息，所述地图信息包括起始点的信息、目标点的信息和阻挡节点的信息，所述阻挡节点的信息包括多个中间节点；根据所述起始点和所述中间节点，得到多个第一路径；根据所述第一路径确定出，所述中间节点中与所述起始点最近的第一距离节点；根据所...

【专利技术属性】
技术研发人员：车晓轩，童晓风，吴高峰，林曾丰，周雅琴，
申请(专利权)人：浙江海洋大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人