本发明专利技术属于文件存储管理技术领域,具体公开了一种根据文件特征码为文件自动添加文件标签的方法及系统。本发明专利技术方法是根据第一文件的内容信息获得与所述第一文件内容一一对应的文件特征码信息,再根据第一文件的属性信息生成第一文件标签集合,在文件特征码数据存储系统中查找是否已经存在与所述第一文件相同的文件特征码信息,若已存在,则将存在于所述第一文件标签集合中且不存在于第二文件标签集合中的文件标签信息添加到第二文件标签集合中;若不存在,则将所述第一文件的文件特征码信息、文件内容和文件标签集合分别存储至所述文件特征码数据存储系统中。本发明专利技术方法和系统可实现文件的多重信息存储管理,提高文件的分类管理和查找效率。
【技术实现步骤摘要】
本专利技术属于文件存储管理
,具体涉及一种根据文件特征码为文件自动添加文件标签的方法及系统。
技术介绍
文件管理是操作系统的五大职能之一,主要涉及文件的逻辑组织和物理组织,目录的结构和管理。所谓文件管理,就是操作系统中实现文件统一管理的一组软件、被管理的文件以及为实施文件管理所需要的一些数据结构的总称(是操作系统中负责存取和管理文件信息的机构)从系统角度来看,文件系统是对文件存储器的存储空间进行组织,分配和回收,负责文件的存储,检索,共享和保护。现有的文件存储管理技术是以文件路径和文件名作为条件去判断文件的唯一性,进而实现文件的存储,同时需要手动为文件添加标签,未能实现文件多重信息的标签归类,不利于文件的分类管理和查找。比如A文件夹中存储有第一季度的财务报告、第一季度的生产报告、第一季度的安全报告等等,在B文件夹中存储有第二季度的财务报告、第二季度的生产报告、第二季度的安全报告等等,如果用户要查看财务报告,就需要到每个文件夹去查找出来再集合到一块供用户使用。这种依靠文件路径和文件名的方式,使得文件查找和管理效率低下,尤其是数据庞大的时候,比如调取十年的财务报告。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种根据文件特征码为文件自动添加文件标签的方法及系统,以优化文件分类管理和查找。为了实现上述专利技术目的,本专利技术所采取的技术方案如下一种根据文件特征码为文件自动添加文件标签的方法,包括以下步骤根据第一文件的内容信息获得与所述第一文件内容一一对应的文件特征码信息;根据第一文件的属性信息生成第一文件标签集合,所述第一文件标签集合中包括有多个文件标签;在文件特征码数据存储系统中查找是否已经存在与所述第一文件相同的文件特征码信息,所述文件特征码数据存储系统包括一存储文件内容的文件内容存储单元、一存储文件特征码信息的文件特征码信息存储单元、以及一存储文件标签集合的文件标签集合存储单元,在所述文件特征码数据存储系统中同一文件的文件特征码信息、文件内容和文件标签集合具有一一对应绑定关系;若已存在,则根据所述文件特征码信息在所述文件特征码数据存储系统中查找出与该文件特征码信息一一对应的第二文件标签集合,比对所述第一文件标签集合与第二文件标签集合,并将存在于所述第一文件标签集合中且不存在于第二文件标签集合中的文件标签信息添加到第二文件标签集合中;若不存在,则将所述第一文件的文件特征码信息、文件内容和文件标签集合分别存储至所述文件特征码数据存储系统的文件特征码信息存储单元、文件内容存储单元和文件标签集合存储单元中。进一步的,所述根据第一文件的内容信息获得与所述第一文件内容--对应的文件特征码信息,具体是根据第一文件内容信息采用散列算法计算获得与所述第一文件内容一一对应的文件特征码信息。进一步的,所述散列算法为MD5算法或者SHAl算法。进一步的,所述文件特征码数据存储系统为数组与链表的集合、或者数据库。一种根据文件特征码为文件自动添加文件标签的系统,包括以下模块文件特征码信息生成模块,用于根据第一文件的内容信息获得与所述第一文件内 容一一对应的文件特征码信息;文件标签集合生成模块,用于根据第一文件的属性信息生成第一文件标签集合,所述第一文件标签集合中包括有多个文件标签;相同文件特征码查询模块,用于在文件特征码数据存储系统中查找是否已经存在与所述第一文件相同的文件特征码信息;若已存在,则执行文件标签集合更新模块;若不存在,则执行文件添加模块;所述文件特征码数据存储系统包括一存储文件内容的文件内容存储单元、一存储文件特征码信息的文件特征码信息存储单元、以及一存储文件标签集合的文件标签集合存储单元,在所述文件特征码数据存储系统中同一文件的文件特征码信息、文件内容和文件标签集合具有对应绑定关系;文件标签集合更新模块,用于根据所述文件特征码信息在所述文件特征码数据存储系统中查找出与该文件特征码信息一一对应的第二文件标签集合,比对所述第一文件标签集合与第二文件标签集合,并将存在于所述第一文件标签集合中且不存在于第二文件标签集合中的文件标签信息添加到第二文件标签集合中;文件添加模块,用于将所述第一文件的文件特征码信息、文件内容和文件标签集合分别存储至所述文件特征码数据存储系统的文件特征码信息存储单元、文件内容存储单元和文件标签集合存储单元中。进一步的,所述文件特征码信息生成模块根据第一文件的内容信息获得与所述第一文件内容一一对应的文件特征码信息,具体是根据第一文件内容信息采用散列算法计算获得与所述第一文件内容一一对应的文件特征码信息。进一步的,所述散列算法为MD5算法或者SHAl算法。进一步的,所述文件特征码数据存储系统为数组与链表的集合、或者数据库。本专利技术利用文件特征码算法为每一文件根据文件内容计算特征码,确定文件的唯一性,在此基础上为文件自动添加文件标签,实现文件、文件特征码、文件标签的绑定存储。进而利用同一文件的文件特征码信息、文件内容和文件标签集合具有一一对应绑定关系,实现文件的多重信息存储管理,可让使用者根据自己对文档文件已知的文件标签信息快速查找目标文件。因此,采用本专利技术方法和系统,可实现文件的多重信息存储管理,提高文件的分类管理和查找效率。附图说明此附图说明所提供的图片用来辅助对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的不当限定,在附图中图1是本专利技术方法的流程图;图2是本专利技术系统对应的框图。具体实施例方式如图1所示,本实施例公开了一种根据文件特征码为文件自动添加文件标签的方法,包括以下步骤(I)根据第一文件的内容信息获得与所述第一文件内容一一对应的文件特征码信息;本步骤的目的在于获取与文件内容唯一对应的文件特征码,文件特征码的计算方法可以采用现有散列算法,如MD5算法或者SHAl算法,两种算法都是根据文件内容计算获得所述文件特征码;本步骤所述的第一文件即是需要添加文件标签的文件,所述第一文件的内容信息是指存储在外部介质上的数据的集合,比如一个word文件,其中记录I万字的故事,那么这一万字就是文件内容信息;因为文件特征码具有唯一性,可以通过本步骤获得文件特征码唯一标识和查找文件,比如两个不同名称的文件,其文件内容是完全相同的,如果采用了文件特征码来标识它,就不会混乱,在管理时也可以避免同一文件放在不同目录或者应用不同名称重复存储占用存储空间,进而有利于优化文件存储管理;(2)根据第一文件的属性信息生成第一文件标签集合,所述第一文件标签集合中包括有多个文件标签;所述第一文件的属性信息包括文件名、文件大小、文件创建时间、查看时间、文字数量、全文摘要等等,包括文件固有的属性信息和用户自定义的属性信息两部分,固有属性信息如页数、作者、标题、文件大小、文字数量、可自动总结的全文摘要等,自定义属性信息主要是指外界为文件添加的其他属性信息如操作系统记录的文件创建时间、操作系统记录的文件修改时间、操作系统记录的文件查看时间、操作系统记录的文件名、手动添加的作者名、手动添加的摘要、手动指定的关键词、手动标明的用途等;文件标签,就是与某个文件属性相对应的、用以表针文件特性的标签,比如文件页码数为A、文件作者为B的属性信息就对应生成“A”与“B”的文件标签;需要说明的是,文件标签与文件属性不是完全一一对应的本文档来自技高网...
【技术保护点】
一种根据文件特征码为文件自动添加文件标签的方法,其特征在于包括以下步骤:根据第一文件的内容信息获得与所述第一文件内容一一对应的文件特征码信息;根据第一文件的属性信息生成第一文件标签集合,所述第一文件标签集合中包括有多个文件标签;在文件特征码数据存储系统中查找是否已经存在与所述第一文件相同的文件特征码信息,所述文件特征码数据存储系统包括一存储文件内容的文件内容存储单元、一存储文件特征码信息的文件特征码信息存储单元、以及一存储文件标签集合的文件标签集合存储单元,在所述文件特征码数据存储系统中同一文件的文件特征码信息、文件内容和文件标签集合具有一一对应绑定关系;若已存在,则根据所述文件特征码信息在所述文件特征码数据存储系统中查找出与该文件特征码信息一一对应的第二文件标签集合,比对所述第一文件标签集合与第二文件标签集合,并将存在于所述第一文件标签集合中且不存在于第二文件标签集合中的文件标签信息添加到第二文件标签集合中;若不存在,则将所述第一文件的文件特征码信息、文件内容和文件标签集合分别存储至所述文件特征码数据存储系统的文件特征码信息存储单元、文件内容存储单元和文件标签集合存储单元中。
【技术特征摘要】
【专利技术属性】
技术研发人员:王晖,黄祖莹,
申请(专利权)人:珠海金山办公软件有限公司,北京金山办公软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。