一种文件标记和排重分析方法、终端设备及存储介质技术

技术编号:19057621 阅读:52 留言:0更新日期:2018-09-29 12:19
本发明专利技术涉及一种文件标记和排重分析方法、终端设备及存储介质,在该方法中,首先记录待分析文件的文件信息,其次其所在路径下是否存在标记文件,如无,则新建标记文件,如有,再次判断标记文件中是否包含该待分析文件对应的标记信息,如无,则新建标记信息,如有,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如相等,则不需分析,如文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件的标记文件记录的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析。本发明专利技术通过只对文件的新增加的内容进行分析,不对文件没有变更的内容进行重复分析来达到文件排重分析的目的。

【技术实现步骤摘要】
一种文件标记和排重分析方法、终端设备及存储介质
本专利技术涉及文件分析领域,尤其涉及一种文件标记和排重分析方法、终端设备及存储介质。
技术介绍
随着科技的发展,数据信息的更新速度越来越快,在某些特定的应用场景下,同一路径下的同一文件每个一段时间就会有新数据被追加在文件的末尾,例如存放上网历史记录的文件,由于文件的内容再实时更新,因此需要不断的对文件内容进行分析,而文件在此过程中变得越来越大,如果每次都对文件的全部内容进行分析,就会造成时间、人力和资源的极大浪费。
技术实现思路
针对上述问题,本专利技术旨在提供一种文件标记和排重分析方法、终端设备及存储介质,通过只对文件的新增加的内容进行分析,不对文件没有变更的内容进行重复分析来达到文件排重分析的目的。具体方案如下:一种文件标记和排重分析方法,包括以下步骤:S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小;S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400;S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小和文件已被分析的大小,进入S700;S400:查找所述标记文件中是否存在待分析文件的标记信息,当不存在时,进入S500,否则,进入S600;S500:对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入标记文件内,进入S700;S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如果相等,进入S700,如果文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如果文件信息中的文件总大小小于标记信息中的文件总大小,对待分析文件的全部内容进行分析,分析完成后更新标记文件中该文件对应的文件已被分析的大小的内容,进入S700;S700:重复步骤S100-S600,进行下一个待分析文件的排重分析,当扫描到标记文件时,跳过该文件不进行分析,对路径下的所有文件循环进行排重分析。进一步的,所述标记文件通过与待分析文件使用不同命名方式和使用不同后缀名方式两种方式中的一种来区别于被分析文件。进一步的,所述文件名特征值为文件名哈希值。进一步的,所述标记信息写入标记文件的方式为根据写入格式:文件名哈希值占16字节,文件总大小占8字节,文件已被分析的大小占8字节,按顺序将待分析文件的标记信息写入标记文件内。进一步的,步骤S400中所述查找方法为使用文件名特征值来查找。一种文件标记和排重分析终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。本专利技术采用如上技术方案,通过在被分析文件所在的同一路径下创建一个标记文件来保存该路径下所有被分析文件的标记信息,然后对比标记信息的方式对文件进行排重分析,通过本方案可以高效的判断和快速的定位并分析文件中新追加的数据,防止对已分析内容进行重复分析,大大提高了分析效率。附图说明图1所示为本专利技术实施例一的流程示意图。具体实施方式为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。现结合附图和具体实施方式对本专利技术进一步说明。实施例一:参考图1所示,本专利技术提供了一种文件标记和排重分析方法,包括以下步骤:S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小。所述文件名特征值用于对文件名进行记录,可以使用各种常用的算法对其进行记录,该实施例中使用哈希算法计算文件名的哈希值,则所述文件名特征值为文件名哈希值。S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400。所述标记文件通过特殊命名或用特殊后缀以区别于被分析文件,即与待分析文件使用不同命名方式或使用不同后缀名。S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小、文件已被分析的大小,进入S700。其中,该实施例中的写入格式为:文件名的特征值即文件名哈希值占16字节,文件总大小占8字节,文件已被分析的大小占8字节,按照上述格式和顺序将待分析文件的标记信息写入标记文件内;另外,此处的待分析文件已经在步骤S100中分析完毕,因此所述文件已被分析的大小与文件总大小相等。S400:查找所述标记文件中是否存在待分析文件的标记信息,所述查找方法可以使用文件名特征值来查找,该实施例中使用文件名哈希值来查找,当不存在时,进入S500,否则,进入S600。S500:对该待分析文件全部内容进行分析后,将其标记信息写入标记文件中,进入S700,此处的写入方法与步骤S300的写入方法相同。S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如相等,进入S700,如文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记文件记录的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如文件信息中的文件总大小小于标记信息中的文件总大小,此时属于异常情况,例如清空了上网历史记录就是此情况,此时,对待分析文件的全部内容进行分析,分析完成分析后根据该待分析文件更新标记文件中该文件对应的文件已被分析的大小的内容,即此处的文件已被分析的大小等于该待分析文件的文件总大小。通过上述三种情况,可以一方面避免对文件已分析的内容进行重复分析,另一方面保证文件被误删除时可以重新分析,避免遗漏。S700:重复步骤S100-S600,对待分析文件所在的路径下的所有文件循环进行排重分析,当扫描到标记文件时,跳过该文件不进行分析。本专利技术实施例一通过在被分析文件所在的同一路径下创建一个标记文件来保存该路径下所有被分析文件的标记信息,然后对比标记信息的方式对文件进行排重分析,通过本方案可以高效的判断和快速的定位并分析文件中新追加的数据,防止对已分析内容进行重复分析,大大提高了分析效率。实施例二:本专利技术还提供一种文件标记和排重分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例一的上述方法实施例中的步骤。进一步地,作为一个可执行方案,所述文件标记和排重分析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文件标记和排重分析终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述文件标记和排重分析终端设备的组成结构仅仅是文件标记和排重分析终端设备的示例,并不构成对文件标记和排重分析终端设备的限定,可以本文档来自技高网...

【技术保护点】
1.一种文件标记和排重分析方法,其特征在于:包括以下步骤:S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小;S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400;S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小和文件已被分析的大小,进入S700;S400:查找所述标记文件中是否存在待分析文件的标记信息,当不存在时,进入S500,否则,进入S600;S500:对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入标记文件内,进入S700;S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如果相等,进入S700,如果文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如果文件信息中的文件总大小小于标记信息中的文件总大小,对待分析文件的全部内容进行分析,分析完成后更新标记文件中该文件对应的文件已被分析的大小的内容,进入S700;S700:重复步骤S100‑S600,对待分析文件所在的路径下的所有文件循环进行排重分析,当扫描到标记文件时,跳过该文件不进行分析。...

【技术特征摘要】
1.一种文件标记和排重分析方法,其特征在于:包括以下步骤:S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小;S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400;S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小和文件已被分析的大小,进入S700;S400:查找所述标记文件中是否存在待分析文件的标记信息,当不存在时,进入S500,否则,进入S600;S500:对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入标记文件内,进入S700;S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如果相等,进入S700,如果文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如果文件信息中的文件总大小小于标记信息中的文件总大小,对待分析文件的全部内容进行分析,分析完成后更新标记文件中该文件对应的文件已被分析的大小的内容,进入S700;...

【专利技术属性】
技术研发人员:陈良彬吴鸿伟周成祖李山张永光
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1