基于文件分割与特征提取的档案管理系统及方法技术方案

技术编号:25690269 阅读:27 留言:0更新日期:2020-09-18 21:02
本发明专利技术属于文件处理技术领域,具体为基于文件分割与特征提取的档案管理系统及方法,所述系统包括:文件分割单元,用于将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族;特征提取单元,用于分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件分割后的每个子文件进行特征提取,获取子文件特征,将每一个子文件特征与档案文件特征进行关联,形成以档案文件特征为起始节点,子文件特征为分支节点的特征树;文件检索单元,根据用户提供的关键字,基于特征树进行检索,将检索到的文件发送给用户。提升了资源空间利用率,同时提升了检索的效率。

【技术实现步骤摘要】
基于文件分割与特征提取的档案管理系统及方法
本专利技术属于档案管理
,具体涉及基于文件分割与特征提取的档案管理系统及方法。
技术介绍
档案的收集、整理、保管、鉴定、统计和提供利用的活动。包括:档案收集、档案整理、档案价值鉴定、档案保管、档案编目和档案检索、档案统计、档案编辑和研究(见档案文献编纂)、档案提供利用。这8项工作的划分只是相对稳定而不是绝对的,也有分为6个环节的,也有分为基础工作和利用工作两大部分的。由于现代档案管理工作已成为复杂的系统,故也有按多层次进行划分的方法。其第一层次分档案实体管理和档案信息开发两个子系统,各子系统又下分若干层次小系统。档案实体管理分收集、整理、鉴定、保管、统计等工作环节;档案信息开发又分信息加工和信息输出两部分,信息加工由编制目录、编辑文献汇编和编写参考资料构成,信息输出由提供阅览、复制、咨询、函调、外借以及出版、展览等多项服务活动构成。整个档案管理系统及其子系统在运行中都形成反馈机制。随着档案管理现代化的发展,还将对档案管理工作的结构产生新的影响。档案管理的最终目的是提供档案信息为社会实践服务,档案管理系统的结构即根据这一目的而设置。其中每项工作都必不可少,并有一定程序。它们组成一个有机整体,为实现档案管理系统整体功能而发挥各自的作用,同时也相互关联、相互制约。例如价值鉴定工作有时与收集、整理工作结合进行,甚至在文件立卷归档时就进行初步鉴定。社会现代化的发展,办公自动化、无纸化等事物的出现,使档案的生成方式发生很大变化。其档案管理在系统中,诸如文件的起草、签发、催办、归档等运作过程在计算机和通讯线路中进行,这样档案的前身必须以机读文件为主要形态,那么档案也自然以机读形式存在,这些档案的利用方式与纸质载体档案的利用方式有很大差异。这种变化预示着档案工作者将面对更多的机读形式以磁盘为载体的档案。广大信息检索者关心的是信息的内容,这些信息可能来自不同的机读形式的档案中。把这些档案信息综合系统地提供出来是档案工作者义不容辞的责任。不失时机地提供有价值的档案信息。必须有一个精选的过程,使得机读形式的档案信息具有系统性,真实性、有价值性,用户才能获得更为完善的服务。由此看来,档案信息电子化是档案利用工作发展的必然趋势。
技术实现思路
本专利技术的主要目的在于提供基于文件分割与特征提取的档案管理系统及方法,基于文件分割和特征提取,提升了资源空间利用率,同时提升了检索的效率。为达到上述目的,本专利技术的技术方案是这样实现的:基于文件分割与特征提取的档案管理系统,所述系统包括:文件分割单元,用于将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族;特征提取单元,用于分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件分割后的每个子文件进行特征提取,获取子文件特征,将每一个子文件特征与档案文件特征进行关联,形成以档案文件特征为起始节点,子文件特征为分支节点的特征树;文件检索单元,根据用户提供的关键字,基于特征树进行检索,将检索到的文件发送给用户;文件拼接单元,用于响应用户的文件获取命令,将目标文件对应的索引关联族中的所有文件按照索引关联族,以子文件顺序拼接顺序,进行在子文件拼接,将拼接后的文件发送给用户。进一步的,所述文件分割单元将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族的方法执行以下步骤:文件分割单元将收到的档案文件进行固定大小的切片处理,并为每一个档案文件块生成唯一的哈希值,同时将这些档案文件块以默克尔有向无环图的档案文件结构进行联系起来,并生成一个根哈希作为该文件的哈希标识;生成档案文件块哈希及根哈希的算法根据文件档案文件实际内容来生成,不同的文件会产生不同的哈希值;完成该文件的写入后,提示写入档案文件成功;在新的文件写入时,通过设置多个文件分割单元,所述多个文件分割单元同步写入任务,执行写入任务的文件分割单元均会对文件以同样的算法进行切片后进行存储,当验证网络中存在N个档案文件副本后,写入档案文件任务终止;每个文件分割单元将会创建分布式哈希表,在分布式哈希表中包含文件分割单元信息、本文件分割单元下存储的所有档案文件及档案文件结构关系、档案文件存储的文件分割单元信息;当写入新档案文件时,更新哈希表,并与其它文件分割单元同步信息;完成文件分割后,基于每个子文件对应的哈希表,以该文件在哈希表中的地址建立索引关联族。进一步的,所述特征提取单元,分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件分割后的每个子文件进行特征提取,获取子文件特征,将每一个子文件特征与档案文件特征进行关联,形成以档案文件特征为起始节点,子文件特征为分支节点的特征树的方法执行以下步骤:确定特征量级G和模糊权重M,随机初始化特征原型,每个特征原型代表一个智能体,确定种群大小,令进化代数E=0;利用如下公式对隶属度进行更新:其中,i、j和s分别表示特征类别,V为特征中心,vi表示第i类的特征中心,vj表示第j类的特征中心,vs表示第s类的特征中心;a、和b和c分别表示对应于三维灰度信息的每一个维度的当前待特征数据的标号,xk为标准标号;根据更新的隶属度计算特征种群中的个体能量,进而得到特征标签,根据得到的特征标签进行子文件的特征;基于该文件特征,建立档案文件特征为起始节点,子文件特征为分支节点的特征树。进一步的,所述根据更新的隶属度计算特征种群中的个体能量,进而得到特征标签的方法执行以下步骤:使用如下公式计算种群中的个体能量:其中,ζ为调整常数,取值范围为30~50;根据获得的个体能量值,将特征种群中的个体平均分为三类,为三类个体分别设置不同的特征标签。进一步的,所述文件检索单元,根据用户提供的关键字,基于特征树进行检索,将检索到的文件发送给用户的方法执行以下步骤:获取完整的特征树,将特征树中的所有节点均进行标号,将标号进行连接后组成地图信息,所述地图信息包括起始点的信息、目标点的信息和阻挡节点的信息,所述阻挡节点的信息包括多个中间节点;根据所述起始点和所述中间节点,得到多个第一路径;根据所述第一路径确定出,所述中间节点中与所述起始点最近的第一距离节点;根据所述目标点和所述中间节点,得到多个第二路径;根据所述第二路径确定出,所述中间节点中与所述目标点最近的第二距离节点;根据信息对照表依次匹配得到,所述第一距离节点到所述第二距离节点之间的所有其他中间节点;根据所述第一距离节点、匹配得到的所有其他中间节点、第二距离节点,得到所述起始点到所述目标点之间的最佳路径,以该最佳路径进行检索。一种基于文件分割与特征提取的档案管理方法,所述方法执行以下步骤:文件分割单元,将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族;特征提取单元,分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件本文档来自技高网
...

【技术保护点】
1.基于文件分割与特征提取的档案管理系统,其特征在于,所述系统包括:文件分割单元,用于将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族;特征提取单元,用于分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件分割后的每个子文件进行特征提取,获取子文件特征,将每一个子文件特征与档案文件特征进行关联,形成以档案文件特征为起始节点,子文件特征为分支节点的特征树;文件检索单元,根据用户提供的关键字,基于特征树进行检索,将检索到的文件发送给用户;文件拼接单元,用于响应用户的文件获取命令,将目标文件对应的索引关联族中的所有文件按照索引关联族,以子文件顺序拼接顺序,进行在子文件拼接,将拼接后的文件发送给用户。/n

【技术特征摘要】
1.基于文件分割与特征提取的档案管理系统,其特征在于,所述系统包括:文件分割单元,用于将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族;特征提取单元,用于分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件分割后的每个子文件进行特征提取,获取子文件特征,将每一个子文件特征与档案文件特征进行关联,形成以档案文件特征为起始节点,子文件特征为分支节点的特征树;文件检索单元,根据用户提供的关键字,基于特征树进行检索,将检索到的文件发送给用户;文件拼接单元,用于响应用户的文件获取命令,将目标文件对应的索引关联族中的所有文件按照索引关联族,以子文件顺序拼接顺序,进行在子文件拼接,将拼接后的文件发送给用户。


2.如权利要求1所述的系统,其特征在于,所述文件分割单元将数字化的档案文件进行分割,将分割后的子文件分别存储在不同的硬盘分区中,同时针对该档案文件的分割后的子文件基于子文件顺序,建立一个索引关联族的方法执行以下步骤:文件分割单元将收到的档案文件进行固定大小的切片处理,并为每一个档案文件块生成唯一的哈希值,同时将这些档案文件块以默克尔有向无环图的档案文件结构进行联系起来,并生成一个根哈希作为该文件的哈希标识;生成档案文件块哈希及根哈希的算法根据文件档案文件实际内容来生成,不同的文件会产生不同的哈希值;完成该文件的写入后,提示写入档案文件成功;在新的文件写入时,通过设置多个文件分割单元,所述多个文件分割单元同步写入任务,执行写入任务的文件分割单元均会对文件以同样的算法进行切片后进行存储,当验证网络中存在N个档案文件副本后,写入档案文件任务终止;每个文件分割单元将会创建分布式哈希表,在分布式哈希表中包含文件分割单元信息、本文件分割单元下存储的所有档案文件及档案文件结构关系、档案文件存储的文件分割单元信息;当写入新档案文件时,更新哈希表,并与其它文件分割单元同步信息;完成文件分割后,基于每个子文件对应的哈希表,以该文件在哈希表中的地址建立索引关联族。


3.如权利要求2所述的系统,其特征在于,所述特征提取单元,分别对每一个档案文件进行特征提取,获取档案文件特征,同时,针对该文件分割后的每个子文件进行特征提取,获取子文件特征,将每一个子文件特征与档案文件特征进行关联,形成以档案文件特征为起始节点,子文件特征为分支节点的特征树的方法执行以下步骤:确定特征量级G和模糊权重M,随机初始化特征原型,每个特征原型代表一个智能体,确定种群大小,令进化代数E=0;利用如下公式对隶属度进行更新:其中,i、j和s分别表示特征类别,V为特征中心,vi表示第i类的特征中心,vj表示第j类的特征中心,vs表示第s类的特征中心;a、和b和c分别表示对应于三维灰度信息的每一个维度的当前待特征数据的标号,xk为标准标号;根据更新的隶属度计算特征种群中的个体能量,进而得到特征标签,根据得到的特征标签进行子文件的特征;基于该文件特征,建立档案文件特征为起始节点,子文件特征为分支节点的特征树。


4.如权利要求1所述的装置,其特征在于,所述根据更新的隶属度计算特征种群中的个体能量,进而得到特征标签的方法执行以下步骤:使用如下公式计算种群中的个体能量:其中,ζ为调整常数,取值范围为30~50;根据获得的个体能量值,将特征种群中的个体平均分为三类,为三类个体分别设置不同的特征标签。


5.如权利要求4所述的系统,其特征在于,所述文件检索单元,根据用户提供的关键字,基于特征树进行检索,将检索到的文件发送给用户的方法执行以下步骤:获取完整的特征树,将特征树中的所有节点均进行标号,将标号进行连接后组成地图信息,所述地图信息包括起始点的信息、目标点的信息和阻挡节点的信息,所述阻挡节点的信息包括多个中间节点;根据所述起始点和所述中间节点,得到多个第一路径;根据所述第一路径确定出,所述中间节点中与所述起始点最近的第一距离节点;根据所...

【专利技术属性】
技术研发人员:车晓轩童晓风吴高峰林曾丰周雅琴
申请(专利权)人:浙江海洋大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1