一种文件处理方法及装置制造方法及图纸

技术编号:19857660 阅读:15 留言:0更新日期:2018-12-22 11:44
本发明专利技术实施例涉及数据处理技术领域,尤其涉及一种文件处理方法及装置,用以减少对空间的占用,节省资源。本发明专利技术实施例包括:针对目标文件中的第一节点数据,若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,并确定所述第一节点数据在所述目标文件中的第一位置;所述第一节点数据为所述目标文件中的任一节点数据;形成所述第一位置与所述第一节点数据的内容的映射关系;将所述映射关系加入所述数据库的索引文件。

【技术实现步骤摘要】
一种文件处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种文件处理方法及装置。
技术介绍
随着信息技术的不断发展,文件的收发、存储已成为信息处理中的重要环节。一般,对文件存储和压缩的过程中,会出现将多个文件一起存储或传输的情况。在发送文件之前,会对原始文件进行压缩,得到比原始文件小的压缩包,对压缩包进行传输。在接收到压缩包之后,通过对压缩包进行解压得到原始文件,这样可以在文件传输过程中减少资源损耗。在遇到需要处理大量相似文件时,如对于电子合同,通常是将一系列文件直接进行存储或压缩,这样会占用大量的空间,造成资源的浪费。
技术实现思路
本申请提供一种文件处理方法及装置,用以减少对空间的占用,节省资源。本专利技术实施例提供的一种文件处理方法,包括:针对目标文件中的第一节点数据,若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,并确定所述第一节点数据在所述目标文件中的第一位置;所述第一节点数据为所述目标文件中的任一节点数据;形成所述第一位置与所述第一节点数据的内容的映射关系;将所述映射关系加入所述数据库的索引文件。可选的,还包括:若确定所述数据库中存储的第二节点数据的内容与所述第一节点数据的内容相同,则形成所述第一位置与所述第二节点数据的内容的映射关系;将所述映射关系加入所述数据库的索引文件。可选的,所述索引文件的映射关系还包括节点数据的内容对应的哈希值;所述若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,包括:根据所述第一节点数据的内容确定所述第一节点数据的哈希值;确定所述数据库中是否存在与所述第一节点数据的哈希值相同的哈希值;若不存在,则将所述第一节点数据存储在所述数据库中,并将所述第一节点数据的哈希值加入所述索引文件中;所述形成所述第一位置与所述第一节点数据内容的映射关系,包括:形成所述第一位置与所述第一节点数据的哈希值之间的映射关系。可选的,所述目标文件为多个待处理文件中的任一文件,所述多个待处理文件的文件类型相同;所述数据库中存储的节点数据为所述多个待处理文件中任一文件的节点数据。可选的,所述将所述第一节点数据存储在所述数据库中,包括:将所述第一节点数据的内容进行压缩后存储在所述数据库中;所述将所述映射关系加入所述数据库的索引文件之后,还包括:将所述索引文件进行压缩并存储在所述数据库中。本专利技术实施例还提供一种文件处理装置,包括:存储单元,用于针对目标文件中的第一节点数据,若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,并确定所述第一节点数据在所述目标文件中的第一位置;所述第一节点数据为所述目标文件中的任一节点数据;映射单元,用于形成所述第一位置与所述第一节点数据的内容的映射关系;索引单元,用于将所述映射关系加入所述数据库的索引文件。可选的,所述映射单元,还用于:若确定所述数据库中存储的第二节点数据的内容与所述第一节点数据的内容相同,则形成所述第一位置与所述第二节点数据的内容的映射关系。可选的,所述索引文件的映射关系还包括节点数据的内容对应的哈希值;所述存储单元,还用于:根据所述第一节点数据的内容确定所述第一节点数据的哈希值;确定所述数据库中是否存在与所述第一节点数据的哈希值相同的哈希值;若不存在,则将所述第一节点数据存储在所述数据库中,并将所述第一节点数据的哈希值加入所述索引文件中;所述映射单元,还用于:形成所述第一位置与所述第一节点数据的哈希值之间的映射关系。可选的,所述目标文件为多个待处理文件中的任一文件,所述多个待处理文件的文件类型相同;所述数据库中存储的节点数据为所述多个待处理文件中任一文件的节点数据。可选的,还包括压缩单元,用于:将所述第一节点数据的内容进行压缩;将所述索引文件进行压缩。本专利技术实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。本专利技术实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述方法。本专利技术实施例中,将目标文件中的任一节点数据作为第一节点数据,针对第一节点数据,将第一节点数据与数据库中存储的所有节点数据进行对比,若确定第一节点数据的内容与存储的节点数据的内容均不相同,则将第一节点数据存储在数据库中,并确定第一节点数据在目标文件中的第一位置,形成第一位置与第一节点数据的内容的映射关系,并将该映射关系加入数据库的索引文件中。这样,只将数据库中没有的节点数据进行存储,避免存储重复的文件内容,可以节省数据的存储空间以及传输资源。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种文件处理方法的流程示意图;图2为本专利技术实施例一提供的具体的文件处理分类方法的流程示意图;图3为本专利技术实施例二提供的PDF文件的结构示意图;图4至图8分别为本专利技术实施例二提供的文件1至文件5的节点数据的树状结构图;图9为本专利技术实施例提供的一种文件处理的文本分类装置的结构示意图;图10为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种文件处理方法。如图1所示,本专利技术实施例提供的文件处理方法,包括以下步骤:步骤101、针对目标文件中的第一节点数据,若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,并确定所述第一节点数据在所述目标文件中的第一位置;所述第一节点数据为所述目标文件中的任一节点数据。步骤102、形成所述第一位置与所述第一节点数据的内容的映射关系。步骤103、将所述映射关系加入所述数据库的索引文件。本专利技术实施例中,将目标文件中的任一节点数据作为第一节点数据,针对第一节点数据,将第一节点数据与数据库中存储的所有节点数据进行对比,若确定第一节点数据的内容与存储的节点数据的内容均不相同,则将第一节点数据存储在数据库中,并确定第一节点数据在目标文件中的第一位置,形成第一位置与第一节点数据的内容的映射关系,并将该映射关系加入数据库的索引文件中。这样,只将数据库中没有的节点数据进行存储,避免存储重复的文件内容,可以节省数据的存储空间以及传输资源。上述步骤中,第一节点数据的内容与数据库中存储的节点数据的内容均不相同。此外,还存在第一节点数据的内容与数据库中存储的某一节点数据的内容相同的情况。本专利技术实施例还包括:若确定所述数据本文档来自技高网...

【技术保护点】
1.一种文件处理方法,其特征在于,包括:针对目标文件中的第一节点数据,若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,并确定所述第一节点数据在所述目标文件中的第一位置;所述第一节点数据为所述目标文件中的任一节点数据;形成所述第一位置与所述第一节点数据的内容的映射关系;将所述映射关系加入所述数据库的索引文件。

【技术特征摘要】
1.一种文件处理方法,其特征在于,包括:针对目标文件中的第一节点数据,若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,并确定所述第一节点数据在所述目标文件中的第一位置;所述第一节点数据为所述目标文件中的任一节点数据;形成所述第一位置与所述第一节点数据的内容的映射关系;将所述映射关系加入所述数据库的索引文件。2.如权利要求1所述的方法,其特征在于,还包括:若确定所述数据库中存储的第二节点数据的内容与所述第一节点数据的内容相同,则形成所述第一位置与所述第二节点数据的内容的映射关系;将所述映射关系加入所述数据库的索引文件。3.如权利要求1所述的方法,其特征在于,所述索引文件的映射关系还包括节点数据的内容对应的哈希值;所述若确定所述第一节点数据的内容与数据库中存储的节点数据的内容均不相同,则将所述第一节点数据存储在所述数据库中,包括:根据所述第一节点数据的内容确定所述第一节点数据的哈希值;确定所述数据库中是否存在与所述第一节点数据的哈希值相同的哈希值;若不存在,则将所述第一节点数据存储在所述数据库中,并将所述第一节点数据的哈希值加入所述索引文件中;所述形成所述第一位置与所述第一节点数据内容的映射关系,包括:形成所述第一位置与所述第一节点数据的哈希值之间的映射关系。4.如权利要求1至3任一项所述的方法,其特征在于,所述目标文件为多个待处理文件中的任一文件,所述多个待处理文件的文件类型相同;所述数据库中存储的节点数据为所述多个待处理文件中任一文件的节点数据。5.如权利要求4所述的方法,其特征在于,所述将所述第一节点数据存储在所述数据库中,包括:将所述第一节点数据的内容进行压缩后...

【专利技术属性】
技术研发人员:冉世友陈正殷舒刘胜
申请(专利权)人:联动优势科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1