PDF文件处理方法及装置制造方法及图纸

技术编号:27059830 阅读:19 留言:0更新日期:2021-01-15 14:39
本发明专利技术公开了一种PDF文件处理方法及装置,其中,PDF文件处理方法包括PDF文件中的恶意代码识别方法及PDF文件保存方法,该处理方法通过对接收到的第一PDF文件利用python的pdfid.py工具进行扫描,判断所述文件信息中是否包含有JavaScript字段,从而能够及时发现嵌入在第一PDF文件中的JavaScript代码。通常恶意的PDF文件都嵌套有JavaScript代码,可以及时发现接收的第一PDF文件的异常情况,避免用户在未检测计算机病毒情况下打开文件,造成电脑中毒的风险。

【技术实现步骤摘要】
PDF文件处理方法及装置
本专利技术涉及PDF文件处理
,特别涉及一种PDF文件处理方法及装置。
技术介绍
随着信息技术发展,很多政府或企业的政策文件都采用PDF文件的形式替代了纸质文件进行颁发。例如,对于汽车销售企业而言,汽车销售商家会经常接收到由上一级网点发送的新的汽车销售返利政策的PDF文件,以便于根据新的政策文件调整销售策略。现有技术中,商家在接收到新的PDF文件时,一般通过在电脑上手动打开PDF文件的方式确认文件的内容,但是这样容易使电脑感染计算机病毒。
技术实现思路
本专利技术的目的在于提供一种PDF文件中的恶意代码识别方法及装置、一种PDF文件保存方法及装置、计算机可读存储介质以及电子设备,能够对接收到的PDF文件进行检测,及时发现其中携带的计算机病毒,降低在电脑上打开PDF文件时感染计算机病毒的几率。第一方面,本专利技术实施例提供一种PDF文件中的恶意代码识别方法,所述识别方法包括以下步骤:利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;若是,则判定接收到的所述第一PDF文件中含有恶意代码。进一步的,所述识别方法还包括以下步骤:在判定接收到的所述第一PDF文件中含有恶意代码的情况下,向报警装置发送提示信号。第二方面,本专利技术实施例提供一种PDF文件保存方法,所述保存方法包括以下步骤:利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;若否,则判定接收到的所述第一PDF文件中不含有恶意代码并将所述第一PDF文件保存至本地存储。进一步的,在判定接收到的所述第一PDF文件中不含有恶意代码的步骤之后,并在将所述第一PDF文件保存至本地存储的步骤之前,还包括以下步骤:将接收到的所述第一PDF文件与本地存储中的多个第二PDF文件进行文件数据比较;根据所述文件数据比较的结果,判断接收到的所述第一PDF文件是否为已存在于本地存储中的第二PDF文件;若否,则执行将所述第一PDF文件保存至本地存储的步骤。进一步的,所述保存方法还包括以下步骤:在判断接收到的所述第一PDF文件为已存在于本地存储中的第二PDF文件的情况下,将所述第一PDF文件标记为已接收PDF文件。进一步的,所述文件数据包括文本内容,所述文件数据比较包括以下步骤:提取所述第一PDF文件的文本内容;将所述第一PDF文件的文本内容依次与多个所述第二PDF文件的文本内容进行文本内容比较;根据所述文本内容比较的结果生成所述文件数据比较的结果。进一步的,所述文件数据包括文件附属信息,所述文件附属信息包括文件创建日期信息、文件大小信息以及PDF文件的Header信息,所述文件数据比较包括以下步骤:将所述第一PDF文件的文件附属信息依次与多个所述第二PDF文件的文件附属信息进行文件附属信息比较;根据所述文件附属信息比较的结果生成所述文件数据比较的结果。第三方面,本专利技术实施例提供一种PDF文件中的恶意代码识别装置,所述识别装置包括:第一扫描模块,用于利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;第一判断模块,用于判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;第一判定模块,用于在所述文件信息中包含有JavaScript字段的情况下,判定接收到的所述第一PDF文件中含有恶意代码。第四方面,本专利技术实施例提供一种PDF文件保存装置,所述保存装置包括:第二扫描模块,用于利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;第二判断模块,用于判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;保存模块,用于在所述文件信息中不包含有JavaScript字段的情况下,判定接收到的所述第一PDF文件中不含有恶意代码并将所述第一PDF文件保存至本地存储。第五方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述的PDF文件中的恶意代码识别方法或上述任一项所述的PDF文件保存方法。第六方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述任一项所述的PDF文件中的恶意代码识别方法或上述任一项所述的PDF文件保存方法。相较于现有技术,本专利技术提供的一种PDF文件中的恶意代码识别方法及装置、一种PDF文件保存方法及装置、计算机可读存储介质以及电子设备,对接收到的第一PDF文件利用python的pdfid.py工具进行扫描,判断所述文件信息中是否包含有JavaScript字段,从而能够及时发现嵌入在第一PDF文件中的JavaScript代码。通常恶意的PDF文件都嵌套有JavaScript代码,可以及时发现接收的第一PDF文件的异常情况,避免用户在未检测计算机病毒情况下打开文件,造成电脑中毒的风险。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明下面结合附图和实施例对本专利技术进一步地说明;图1为一个实施例中PDF文件处理方法的应用环境图。图2为其中一个实施例中的PDF文件中的恶意代码识别方法的流程示意图。图3为另一个实施例中的PDF文件中的恶意代码识别方法的流程示意图。图4为一个实施例中的PDF文件保存方法的流程示意图。图5为一个实施例中的PDF文件保存方法的流程示意图。图6为一个实施例中的PDF文件保存方法的流程示意图。图7为一个实施例中的文件数据比较的流程示意图;图8为另一个实施例中的文件数据比较的流程示意图;图9为本文档来自技高网...

【技术保护点】
1.一种PDF文件中的恶意代码识别方法,其特征在于,所述识别方法包括以下步骤:/n利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;/n判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;/n若是,则判定接收到的所述第一PDF文件中含有恶意代码。/n

【技术特征摘要】
1.一种PDF文件中的恶意代码识别方法,其特征在于,所述识别方法包括以下步骤:
利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;
判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;
若是,则判定接收到的所述第一PDF文件中含有恶意代码。


2.根据权利要求1所述的一种PDF文件中的恶意代码识别方法,其特征在于,所述识别方法还包括以下步骤:
在判定接收到的所述第一PDF文件中含有恶意代码的情况下,向报警装置发送提示信号。


3.一种PDF文件保存方法,其特征在于,所述保存方法包括以下步骤:
利用python的pdfid.py工具扫描接收到的第一PDF文件,以获得所述第一PDF文件的文件信息;其中,所述文件信息包括多个字段,每个所述字段用于指示所述第一PDF文件的相关信息;
判断所述文件信息中是否包含有JavaScript字段;其中,所述JavaScript字段用于指示所述第一PDF文件中嵌有JavaScript代码;
若否,则判定接收到的所述第一PDF文件中不含有恶意代码并将所述第一PDF文件保存至本地存储。


4.根据权利要求3所述的一种PDF文件保存方法,其特征在于,在判定接收到的所述第一PDF文件中不含有恶意代码的步骤之后,并在将所述第一PDF文件保存至本地存储的步骤之前,还包括以下步骤:
将接收到的所述第一PDF文件与本地存储中的多个第二PDF文件进行文件数据比较;
根据所述文件数据比较的结果,判断接收到的所述第一PDF文件是否为已存在于本地存储中的第二PDF文件;
若否,则执行将所述第一PDF文件保存至本地存储的步骤。


5.根据权利要求4所述的一种PDF文件保存方法,其特征在于,所述保存方法还包括以下步骤:
在判断接收到的所述第一PDF文件为已存在于本地存储中的第二PDF文件的情况下,将所述第一PDF文件标记为已接收PDF文件。


6.根据权利要求4所述的一种PDF文件保存方法,其特征在于,所述文件数据包括文本内容,所述文件数据比较包括以下步骤:

【专利技术属性】
技术研发人员:李奏换陈婉君李香月汪龙节李振韬梁维新
申请(专利权)人:广州威尔森信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1