文件解析方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29063589 阅读:22 留言:0更新日期:2021-06-30 09:08
本申请涉及一种文件解析方法、装置、计算机设备和存储介质。该方法包括:获取待解析文件的待解析文件数据;采用文件识别引擎识别所述待解析文件数据,得到文件类型;根据所述文件类型确定与所述文件类型匹配的目标解析引擎;采用所述目标解析引擎对所述待解析文件数据进行解析。本方法的应用场景丰富,鲁棒性强。鲁棒性强。鲁棒性强。

【技术实现步骤摘要】
文件解析方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种文件解析方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着科技的发展,人们的工作和生活中信息传递量急剧增加。在信息交互传递过程中,电子文件作为一种有效的载体,称为信息传递的主要形式。
[0003]电子文件与人们的工作业务关联,不同的组织对电子文件的管理需求不同,因此对电子文件进行审计作为一项重要的工作受到重点关注,对电子文件进行解析是电子文件的审计过程中的重要步骤。通常需要审计的电子文件格式互不统一,因此电子文件的解析方法有多种,不同的方法针对不同类型的文件进行解析。
[0004]由于传统的电子文件的解析方法,每种只能用来解析的文件类型的数量非常有限,因此使用场景单一。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够适用于多种场景下的文件解析方法、装置、计算机设备和存储介质。
[0006]第一方面,本申请实施例提供一种文件解析方法,所述方法包括:
[0007]获取待解析文件的待解析文件数据;
[0008]采用文件识别引擎识别所述待解析文件数据,得到文件类型;
[0009]根据所述文件类型确定与所述文件类型匹配的目标解析引擎;
[0010]采用所述目标解析引擎对所述待解析文件数据进行解析。
[0011]在其中一个实施例中,所述获取待解析文件的待解析文件数据之后,还包括:
[0012]判断所述待解析文件是否为加密文件;
[0013]若是,则对所述待解析文件添加加密标识,并停止解析,返回停止文件解析的信息;
[0014]若否,则执行所述采用文件识别引擎对识别所述待解析文件数据,得到文件类型的步骤。
[0015]在其中一个实施例中,所述获取待解析文件的待解析文件数据之后,还包括:
[0016]判断所述待解析文件是否为压缩文件;
[0017]若是,则对所述待解析文件进行解压,对解压后的文件数据执行所述采用文件识别引擎对识别所述待解析文件数据,得到文件类型的步骤;
[0018]若否,则直接执行所述采用文件识别引擎对识别所述待解析文件数据,得到文件类型的步骤。
[0019]在其中一个实施例中,所述采用所述目标解析引擎对所述待解析文件数据进行解析之前,包括:
[0020]根据所述文件类别判断所述待解析文件是否为可被提取文本内容的类别;
[0021]若是,则执行所述采用所述目标解析引擎对所述待解析文件数据进行解析的步骤;
[0022]若否,则停止解析返回停止文件解析的信息。
[0023]在其中一个实施例中,所述采用所述目标解析引擎对所述待解析文件数据进行解析之前,还包括:
[0024]在所述待解析文件中包含子文件的情况下,提取所述子文件和所述子文件在所述待解析文件中的路径;
[0025]所述采用文件识别引擎识别所述待解析文件数据,得到文件类型包括:
[0026]采用文件识别引擎,根据所述待解析文件中各子文件的路径识别所述待解析文件数据中各个子文件的文件类型。
[0027]在其中一个实施例中,所述方法还包括:
[0028]确定与各所述子文件的文件类型匹配的目标解析引擎。
[0029]在其中一个实施例中,所述方法还包括:
[0030]采用各所述子文件的文件类型匹配的目标解析引擎对相应的子文件进行解析。
[0031]第二方面,本申请实施例提供一种文件解析装置,所述装置包括:
[0032]获取模块,用于获取待解析文件的待解析文件数据;
[0033]识别模块,用于采用文件识别引擎识别所述待解析文件数据,得到文件类型;
[0034]匹配模块,用于根据所述文件类型确定与所述文件类型匹配的目标解析引擎;
[0035]解析模块,用于采用所述目标解析引擎对所述待解析文件数据进行解析。
[0036]第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0037]获取待解析文件的待解析文件数据;
[0038]采用文件识别引擎识别所述待解析文件数据,得到文件类型;
[0039]根据所述文件类型确定与所述文件类型匹配的目标解析引擎;
[0040]采用所述目标解析引擎对所述待解析文件数据进行解析。
[0041]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0042]获取待解析文件的待解析文件数据;
[0043]采用文件识别引擎识别所述待解析文件数据,得到文件类型;
[0044]根据所述文件类型确定与所述文件类型匹配的目标解析引擎;
[0045]采用所述目标解析引擎对所述待解析文件数据进行解析。
[0046]上述文件解析方法、装置、计算机设备和存储介质,通过计算机设备通过获取待解析文件的待解析文件数据,并采用文件识别引擎识别待解析文件数据,得到文件类型,然后根据文件类型确定与文件类型匹配的目标解析引擎,从而采用与待解析文件的文件类型匹配的目标解析引擎对待解析文件数据进行解析,因此能够避免传统的文件解析方法只能解析单一种类的文件导致的应用场景单一的问题。本实施例所提供的方法,由于能够根据文件类型选择匹配的目标解析引擎从而实现对不同类型的文件进行解析,因此该方法能够不受文件类型的限制,因此使用场景丰富,鲁棒性大大提高。同时,该方法通过文件类型确定
与文件类型匹配的目标解析引擎,从而采用与待解析文件的文件类型匹配的目标解析引擎对待解析文件数据进行解析,因此该方法无须受运行环境的限制,能够适用于多种运行环境,应用极为广泛。
附图说明
[0047]图1为一个实施例中计算机设备的内部结构图;
[0048]图2为一个实施例提供的文件解析方法的流程示意图;
[0049]图3为一个实施例所示的文件解析的流程图;
[0050]图4为又一个实施例提供的文件解析的示意图;
[0051]图5为一个实施例提供的文件解析装置的结构示意图。
具体实施方式
[0052]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0053]本申请实施例提供的文件解析方法,可以适用于图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、数据库、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件解析方法,其特征在于,所述方法包括:获取待解析文件的待解析文件数据;采用文件识别引擎识别所述待解析文件数据,得到文件类型;根据所述文件类型确定与所述文件类型匹配的目标解析引擎;采用所述目标解析引擎对所述待解析文件数据进行解析。2.根据权利要求1所述的方法,其特征在于,所述获取待解析文件的待解析文件数据之后,还包括:判断所述待解析文件是否为加密文件;若是,则对所述待解析文件添加加密标识,并停止解析,返回停止文件解析的信息;若否,则执行所述采用文件识别引擎对识别所述待解析文件数据,得到文件类型的步骤。3.根据权利要求1所述的方法,其特征在于,所述获取待解析文件的待解析文件数据之后,还包括:判断所述待解析文件是否为压缩文件;若是,则对所述待解析文件进行解压,对解压后的文件数据执行所述采用文件识别引擎对识别所述待解析文件数据,得到文件类型的步骤;若否,则执行所述采用文件识别引擎对识别所述待解析文件数据,得到文件类型的步骤。4.根据权利要求1所述的方法,其特征在于,所述采用所述目标解析引擎对所述待解析文件数据进行解析之前,包括:根据所述文件类别判断所述待解析文件是否为可被提取文本内容的类别;若是,则执行所述采用所述目标解析引擎对所述待解析文件数据进行解析的步骤;若否,则停止解析返回停止文件解析的信息。5.根据权利要求1任意一项所述的方法,其特征在于,所述采用所述目标解析引擎对所述待解析...

【专利技术属性】
技术研发人员:童陈敏
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1