【技术实现步骤摘要】
PDF文件解析方法、装置、设备及计算机可读存储介质
本专利技术主要涉及文件解析
,具体地说,涉及一种PDF文件解析方法、装置、设备及计算机可读存储介质。
技术介绍
目前随着大数据技术的发展,数据的统计分析已经深入到社会的各个层面,如公司的月报表、年报表、个人的借贷信息、税务信息等。此类数据部分来源于PDF文件,而此部分PDF文件中的数据,可通过对PDF文件进行解析获得,目前解析通过统一的方式对PDF文件逐一进行,对于不同类型的PDF文件,解析方式没有针对性,解析效率低,容易出现数据解析不完整的问题。
技术实现思路
本专利技术的主要目的是提供一种PDF文件解析方法、装置、设备及计算机可读存储介质,旨在解决现有技术中对不同类型PDF文件的解析没有针对性,而导致解析效率低,数据不完整的问题。为实现上述目的,本专利技术提供一种PDF文件解析方法,所述PDF文件解析方法包括以下步骤:当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析 ...
【技术保护点】
1.一种PDF文件解析方法,其特征在于,所述PDF文件解析方法包括以下步骤:当接收到待解析便携式文档格式PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
【技术特征摘要】
1.一种PDF文件解析方法,其特征在于,所述PDF文件解析方法包括以下步骤:当接收到待解析便携式文档格式PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。2.如权利要求1所述的PDF文件解析方法,其特征在于,所述生成解析数据的步骤之后包括:将生成的解析数据传输到临时数据库中,并对所述临时数据库中的解析数据进行碎片数据过滤,将经过滤的解析数据设为目标解析数据;将所述目标解析数据发送到目标数据库中存储,并每间隔预设时间从所述目标数据库中获取所述目标解析数据生成数据示意图。3.如权利要求1所述的PDF文件解析方法,其特征在于,所述调用与所述内容类型对应的各解析模板的步骤之后包括:根据预设标识符确定各解析模板中的标准模板,并读取所述标准模板的各预设关键字;读取所述待解析PDF文件的各待解析项,并判断各所述待解析项是否与各所述预设关键字一致,若各所述待解析项与各所述预设关键字一致,则将所述标准模板确定为目标解析模板;若各所述待解析项与各所述预设关键字不一致,则执行将所述待解析PDF文件分别与各解析模板匹配的步骤,其中将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板的步骤包括:将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板。4.如权利要求3所述的PDF文件解析方法,其特征在于,所述将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板的步骤包括:读取各所述衍生解析模板的各预设关键字,并将所述待解析PDF文件的各所述待解析项逐一与各所述衍生解析模板的各预设关键字对比,确定各所述待解析项与各所述衍生解析模板中各预设关键字一致的数量,以生成与各衍生解析模板匹配的匹配率;将各所述匹配率进行比较,确定数值最大的匹配率,并将与所述...
【专利技术属性】
技术研发人员:夏良超,王盼,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。