一种文件格式识别方法、装置、电子设备及介质制造方法及图纸

技术编号:32009805 阅读:27 留言:0更新日期:2022-01-22 18:26
本发明专利技术的实施例公开一种文件格式识别方法、装置、电子设备及介质,涉及计算机技术领域,能够使文本格式识别结果更加精确、识别效率更高。所述文件格式识别方法包括提取待识别文件中的头特征,根据头特征判断待识别文件的文件类型,所述文件类型包括文本文件和非文本文件,若待识别文件为文本文件,则遍历待识别文件以获取至少一个文本格式识别特征,根据至少一个文本格式识别特征确定待识别文件的具体文本格式信息。本发明专利技术适用于精确识别各类文件格式的电子设备。件格式的电子设备。件格式的电子设备。

【技术实现步骤摘要】
一种文件格式识别方法、装置、电子设备及介质


[0001]本专利技术涉及计算机
,尤其涉及一种文件格式识别方法、装置、电子设备及介质。

技术介绍

[0002]格式识别技术是网络信息安全
重要的基础技术,且格式识别对病毒查杀、漏洞检测等后续工作的进行有很大的辅助作用。传统的文件格式识别方法例如基于文件名称识别文件格式的方法,只能宽泛的识别文件的大类格式,如PE格式文件,UTF

8格式文本等,但是针对文本格式大类中具体格式信息,其识别能力较弱,然而在实际业务中,许多功能需求是需要明确知道未知文件的具体格式信息的,因此宽泛的格式识别方法无法满足具体格式信息的识别需求。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种文件格式识别方法、装置、电子设备及介质,以解决现有的文件格式识别方法无法满足具体格式信息识别需求的问题。
[0004]第一方面,本专利技术实施例提供一种文件格式识别方法,包括:
[0005]提取待识别文件中的头特征;
[0006]根据所述头特征判断待识别文件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文件格式识别方法,其特征在于,应用于电子设备;所述方法包括:提取待识别文件中的头特征;根据所述头特征判断待识别文件的文件类型,所述文件类型包括文本文件和非文本文件;若待识别文件为文本文件,则遍历所述待识别文件以获取至少一个文本格式识别特征;根据所述至少一个文本格式识别特征确定所述待识别文件的具体文本格式信息。2.根据权利要求1所述的文件格式识别方法,其特征在于,所述根据所述头特征判断待识别文件的文件类型,包括:查询所述头特征是否与预设的头特征与非文本文件类型映射表中的非文本头特征匹配;若是,则判定所述待识别文件为非文本文件;否则,则判定所述待识别文件为文本文件。3.根据权利要求2所述的文件格式识别方法,其特征在于,还包括:若待识别文件为非文本文件,则根据所述头特征与所述预设的头特征与非文本文件类型映射表中的映射关系确定所述待识别文件的具体文件格式信息。4.根据权利要求1所述的文件格式识别方法,其特征在于,所述根据所述至少一个文本格式识别特征确定所述待识别文件的具体文本格式信息,包括:判断所述至少一个文本格式识别特征是否包括强特征,所述强特征为只存在于一种文本格式中的特征;若是,根据所述强特征确定所述待识别文件的具体文本格式信息。5.根据权利要求4所述的文件格式识别方法,其特征在于,所述根据所述强特征确定所述待识别文件的具体文本格式信息,包括:获取所述至少一个识别特征中强特征的个数;若只有一个强特征,则根据所述强特征确定所述待识别文件的具体文本格式信息;若存在至少两个强特征,则根据预设强特征对应格式优先级对所述至少两个强特征进行排序得到第一排序结果;根据所述第一排序结果确定所述待识别文件的具体文本格式信息。6.根据权利要求5所述的文件格式识别方法,其特征在于,所述若只有一个强特征,则根据所述强特征确定所述待识别文件的具体文本格式信息,包括:将所述强特征只存在的文本格式作为所述待识别文件的具体文本格式信息。7.根据权利要求5所述的文件格式识别方法,其特征在于,所述强特征对应格式优先级包括:包含关系中的包含格式优先级高于被包含格式的优先级。8.根据权利要求4所述的文件格式识别方法,其特征在于,还包括:若所述至少一个文本格式识别特征不包括强特征,则判断所述至少一个文本格式识别特征是否包括弱特征,所述弱特征为存在于至少两种文本格式中的特征;若是,根据所述弱特征确定所述待识别文件的具体文本格式信息。9....

【专利技术属性】
技术研发人员:陈恩俊李石磊童志明
申请(专利权)人:安天科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1