应用于电子设备的文件类型识别方法和装置、电子设备制造方法及图纸

技术编号:24122268 阅读:33 留言:0更新日期:2020-05-13 03:26
本公开提供了一种应用于电子设备的文件类型识别方法。该方法包括:确定接收到的文件的内容是否为文本信息;如果确定文件的内容为文本信息,则确定所述电子设备的类型和/或版本信息;以及根据所述电子设备的类型和/或版本信息识别所述文件的类型。本公开还提供了一种应用于电子设备的文件类型识别装置、电子设备和可读存储介质。

【技术实现步骤摘要】
应用于电子设备的文件类型识别方法和装置、电子设备
本公开涉及文件处理
,更具体地,涉及一种应用于电子设备的文件类型识别方法和装置、电子设备和可读存储介质。
技术介绍
文件有多种多样的类型,常见文件类型包括word、excel、powerpoint等。在信息安全领域,电子设备在接收到文件后首先需要准确识别出文件的类型,针对不同类型的文件做不同处理,提取出文件内容以检测该文件是否是木马或病毒等攻击性文件。因此,文件类型的识别在病毒防护、入侵检测系统等应用领域具有重要意义。目前,相关技术中通常采用单一的识别方法来判断文件的类型。例如,通过内容特定格式来判断,或者通过文件扩展名来判断。但是,很多情况下文件内容的格式或文件扩展名可能不是常规的形式,单一的判断方式无法准确确定出文件的类型。
技术实现思路
有鉴于此,本公开提供了一种应用于电子设备的文件类型识别方法和装置、电子设备和可读存储介质。本公开的一个方面提供了一种应用于电子设备的文件类型识别方法,包括:确定接收到的文件的内容是否为文本信息;如果确定文件的内容为文本信息,则确定所述电子设备的类型和/或版本信息;以及根据所述电子设备的类型和/或版本信息识别所述文件的类型。根据本公开的实施例,所述确定接收到的文件的内容是否为文本信息包括:从所述文件的内容中获取具有指定长度的字符串;确定所述字符串中的每个字符是否都是可见字符;以及如果确定所述每个字符都是可见字符,则确定所述文件的内容为文本信息。根据本公开的实施例,所述确定所述字符串中的每个字符是否都是可见字符包括:确定所述每个字符对应的ASCII码值;确定所述每个字符的ASCII码值是否都小于预设数值;以及如果确定所述每个字符的ASCII码值都小于所述预设数值,则确定所述每个字符都是可见字符。根据本公开的实施例,所述方法还包括:如果确定所述指定长度的字符串中不都是可见字符,则将所述指定长度的字符串转换为多种文本编码格式的字符串;以及如果所述指定长度的字符串在转换为第一编码格式的字符串之后没有发生变化,则确定所述文件的内容为文本信息,其中,所述第一编码格式为所述多种文本编码格式中的任意一种。根据本公开实施例,所述根据所述电子设备的类型和/或版本信息识别所述文件的类型包括:根据不同类型和/或版本信息的服务器用于解析文件扩展名的规则,确定所述文件的类型。根据本公开实施例,在确定接收到的文件的内容是否为文本信息之前,所述方法还包括:获取所述接收到的文件的内容的格式特征;判断所述文件的内容的格式特征在预先构建的类型识别列表中是否有相匹配的格式特征,其中,所述类型识别列表中存储有格式特征与文件的类型间的对应关系;如果确定所述文件的内容的格式特征在预先构建的类型识别列表中有相匹配的格式特征,则将相匹配的格式特征对应的文件的类型确定为所述接收到的文件的类型。根据本公开实施例,如果确定所述文件的内容的格式特征在预先构建的类型识别列表中没有相匹配的格式特征,则确定所述接收到的文件的内容是否为文本信息。本公开的另一个方面提供了一种应用于电子设备的文件类型识别装置,包括:第一确定模块,用于确定接收到的文件的内容是否为文本信息;第二确定模块,用于如果确定文件的内容为文本信息,则确定所述电子设备的类型和/或版本信息;以及识别模块,用于根据所述电子设备的类型和/或版本信息识别所述文件的类型。根据本公开的实施例,所述第一确定模块包括:第一获取单元,用于从所述文件的内容中获取具有指定长度的字符串;第一确定单元,用于确定所述字符串中的每个字符是否都是可见字符;以及第二确定单元,用于如果确定所述每个字符都是可见字符,则确定所述文件的内容为文本信息。本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。根据本公开的实施例,采用了确定接收到的文件的内容是否为文本信息,如果确定文件的内容为文本信息,则确定电子设备的类型和/或版本信息,可以根据电子设备的类型和/或版本信息识别文件的类型的技术手段。由于在确定接收到的文件的内容为文本信息的情况下,可以根据接收文件的电子设备的类型和/或版本信息识别该文件的类型,所以至少部分地克服了相关技术中采用单一的识别方法无法识别出文件的类型的技术问题,进而达到了针对文件的内容的格式特征或文件的扩展名为非常规的形式的情况下有效识别出文件类型的技术效果。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开实施例的应用于电子设备的文件类型识别方法的流程图;图2示意性示出了根据本公开实施例的确定接收到的文件的内容是否为文本信息方法的流程图;图3示意性示出了根据本公开实施例的确定字符串中的每个字符是否都是可见字符的方法的流程图;图4示意性示出了根据本公开另一实施例的确定接收到的文件的内容是否为文本信息方法的流程图;图5示意性示出了根据本公开另一实施例的用于电子设备的文件类型识方法的流程图;图6示意性示出了根据本公开的实施例的用于电子设备的文件类型识别装置的框图;以及图7示意性示出了根据本公开实施例的适于实现应用于电子设备的文件类型识别方法的电子设备的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至本文档来自技高网...

【技术保护点】
1.一种应用于电子设备的文件类型识别方法,包括:/n确定接收到的文件的内容是否为文本信息;/n如果确定文件的内容为文本信息,则确定所述电子设备的类型和/或版本信息;以及/n根据所述电子设备的类型和/或版本信息识别所述文件的类型。/n

【技术特征摘要】
1.一种应用于电子设备的文件类型识别方法,包括:
确定接收到的文件的内容是否为文本信息;
如果确定文件的内容为文本信息,则确定所述电子设备的类型和/或版本信息;以及
根据所述电子设备的类型和/或版本信息识别所述文件的类型。


2.根据权利要求1所述的方法,其中,所述确定接收到的文件的内容是否为文本信息包括:
从所述文件的内容中获取具有指定长度的字符串;
确定所述字符串中的每个字符是否都是可见字符;以及
如果确定所述每个字符都是可见字符,则确定所述文件的内容为文本信息。


3.根据权利要求2所述的方法,其中,所述确定所述字符串中的每个字符是否都是可见字符包括:
确定所述每个字符对应的ASCII码值;
确定所述每个字符的ASCII码值是否都小于预设数值;以及
如果确定所述每个字符的ASCII码值都小于所述预设数值,则确定所述每个字符都是可见字符。


4.根据权利要求2所述的方法,还包括:
如果确定所述指定长度的字符串中不都是可见字符,则将所述指定长度的字符串转换为多种文本编码格式的字符串;以及
如果所述指定长度的字符串在转换为第一编码格式的字符串之后没有发生变化,则确定所述文件的内容为文本信息,其中,所述第一编码格式为所述多种文本编码格式中的任意一种。


5.根据权利要求1所述的方法,其中,所述根据所述电子设备的类型和/或版本信息识别所述文件的类型包括:
根据不同类型和/或版本信息的服务器用于解析文件扩展名的规则,确定所述文件的类型。


6.根据权利要求1所...

【专利技术属性】
技术研发人员:王子恒陈大钊王利新刘诗源
申请(专利权)人:奇安信科技集团股份有限公司网神信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1