文件分类方法、设备、存储介质及装置制造方法及图纸

技术编号:27579520 阅读:13 留言:0更新日期:2021-03-09 22:31
本发明专利技术公开了一种文件分类方法、设备、存储介质及装置,该方法包括:获取待处理文件,以及待处理文件的文件信息,对待处理文件进行字符信息提取,获得待处理文件的结构字符信息,根据结构字符信息以及文件信息确定文件索引值,并根据文件索引值对待处理文件进行分类;相较于现有的人工分析样本文件的代码特征,以对样本文件进行分类的方式,本发明专利技术中,通过待处理文件的文件信息以及结构字符信息确定文件索引值,并根据文件索引值对待处理文件进行分类,克服了现有技术中文件归类效率低、可靠性差的缺陷,从而能够优化文件分类过程,提高文件分类效率,保证文件分类可靠性。保证文件分类可靠性。保证文件分类可靠性。

【技术实现步骤摘要】
文件分类方法、设备、存储介质及装置


[0001]本专利技术涉及互联网
,尤其涉及一种文件分类方法、设备、存储介质及装置。

技术介绍

[0002]目前,用户在进行样本文件分析时,通常是将样本文件下载到本地计算机,然后人工分析样本文件的代码特征,以对样本文件进行分类。
[0003]但是,上述方式由于需要人工分析样本文件,从而导致文件归类效率低、可靠性差。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种文件分类方法、设备、存储介质及装置,旨在解决如何优化文件分类过程的技术问题。
[0006]为实现上述目的,本专利技术提供一种文件分类方法,所述文件分类方法包括以下步骤:
[0007]获取待处理文件,以及所述待处理文件的文件信息;
[0008]对所述待处理文件进行字符信息提取,获得所述待处理文件的结构字符信息;
[0009]根据所述结构字符信息以及所述文件信息确定文件索引值,并根据所述文件索引值对所述待处理文件进行分类。
[0010]可选地,所述根据所述结构字符信息以及所述文件信息确定文件索引值,并根据所述文件索引值对所述待处理文件进行分类的步骤,具体包括:
[0011]获取所述待处理文件的入口数据,并根据所述入口数据以及所述结构字符信息生成一级索引值;
[0012]根据所述文件信息生成所述待处理文件的二级索引值;
[0013]根据所述一级索引值以及所述二级索引值生成文件索引值,并根据所述文件索引值对所述待处理文件进行分类。
[0014]可选地,所述获取所述待处理文件的入口数据,并根据所述入口数据以及所述结构字符信息生成一级索引值的步骤,具体包括:
[0015]根据所述结构字符信息确定签名字符、标志字符以及文件属性信息;
[0016]根据所述签名字符、所述标志字符以及所述文件属性信息确定所述待处理文件的属性数据索引值;
[0017]获取所述待处理文件的入口数据,并查找所述入口数据对应的入口数据索引值;
[0018]根据所述属性数据索引值以及所述入口数据索引值生成一级索引值。
[0019]可选地,所述根据所述结构字符信息确定签名字符、标志字符以及文件属性信息
的步骤,具体包括:
[0020]根据所述结构字符信息确定头部字符位置信息、标志字符、文件属性信息;
[0021]根据所述头部字符位置信息确定签名字符位置信息,并根据所述签名字符位置信息确定签名字符。
[0022]可选地,所述根据所述签名字符、所述标志字符以及所述文件属性信息确定所述待处理文件的属性数据索引值的步骤,具体包括:
[0023]根据所述签名字符判断所述待处理文件是否为合法文件,获得文件判断结果;
[0024]根据所述标志字符确定标志字段,并根据所述标志字段确定待处理文件的文件位数信息;
[0025]根据所述文件判断结果、所述文件位数信息以及所述文件属性信息确定所述待处理文件的属性数据索引值。
[0026]可选地,所述根据所述文件判断结果、所述文件位数信息以及所述文件属性信息确定所述待处理文件的属性数据索引值的步骤,具体包括:
[0027]对所述属性信息进行信息提取,获得基础信息、平台信息、调试信息、资源信息、重定位表信息、导出表信息、版本信息、程序执行入口信息以及节表信息;
[0028]将所述平台信息、所述调试信息、所述资源信息、所述重定位表信息以及导出表信息进行信息融合,获得融合信息;
[0029]根据所述基础信息、所述融合信息、所述版本信息、所述程序执行入口信息以及所述节表信息确定文件属性索引值。
[0030]可选地,所述根据所述基础信息、所述融合信息、所述版本信息、所述程序执行入口信息以及所述节表信息确定文件属性索引值的步骤,具体包括:
[0031]根据所述基础信息对所述待处理文件进行分类,并根据分类结果确定基础信息索引值;
[0032]根据所述融合信息确定融合数据,并根据所述融合数据确定融合信息索引值;
[0033]根据所述版本信息确定版本索引值;
[0034]根据所述程序执行入口信息确定程序入口种类,并根据所述程序入口种类确定程序入口索引值;
[0035]对所述节表信息进行特征提取,获得节表特征信息,并根据所述节表特征信息确定节表索引值;
[0036]根据所述基础信息索引值、所述融合信息索引值、所述版本索引值、所述程序入口索引值以及所述节表索引值确定文件属性索引值。
[0037]可选地,所述根据所述版本信息确定版本索引值的步骤,具体包括:
[0038]对所述版本信息进行信息筛选,获得主版本号信息以及次版本号信息;
[0039]根据所述主版本号信息以及所述次版本号信息生成版本索引值。
[0040]可选地,所述根据所述文件信息生成所述待处理文件的二级索引值的步骤,具体包括:
[0041]对所述文件信息进行信息提取,获得文件导入表信息以及导出信息;
[0042]根据所述文件导入表信息确定文件导入表索引值;
[0043]根据所述导出信息以及所述资源信息确定数据分类索引值;
[0044]根据所述数据分类索引值以及所述资源判断索引值生成所述待处理文件的二级索引值。
[0045]可选地,所述根据所述导出信息以及所述资源信息确定数据分类索引值的步骤,具体包括:
[0046]根据所述导出信息判断所述待处理文件是否包含导出函数,获得函数判断结果;
[0047]根据所述资源信息判断所述待处理文件是否包含资源数据,获得资源判断结果;
[0048]根据所述函数判断结果以及所述资源判断结果确定数据分类索引值。
[0049]可选地,所述根据所述一级索引值以及所述二级索引值生成文件索引值,并根据所述文件索引值对所述待处理文件进行分类的步骤,具体包括:
[0050]根据所述一级索引值以及所述二级索引值生成文件索引值;
[0051]对所述待处理文件进行遍历,并遍历到的待处理文件作为当前文件;
[0052]将除所述当前文件之外的待处理文件作为待匹配文件,并将所述当前文件的文件索引值与所述待匹配文件的文件索引值进行匹配,获得匹配结果;
[0053]在对所述待处理文件遍历结束后,根据所述匹配结果对所述待处理文件进行分类。
[0054]可选地,所述对所述待处理文件进行字符信息提取,获得所述待处理文件的结构字符信息的步骤之前,所述文件分类方法还包括:
[0055]对所述待处理文件进行特征提取,获得所述待处理文件的文件特征;
[0056]将所述文件特征与预设病毒库中的样本特征进行匹配,获得匹配结果;
[0057]相应地,所述对所述待处理文件进行字符信息提取,获得所述待处理文件的结构字符信息的步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件分类方法,其特征在于,所述文件分类方法包括以下步骤:获取待处理文件,以及所述待处理文件的文件信息;对所述待处理文件进行字符信息提取,获得所述待处理文件的结构字符信息;根据所述结构字符信息以及所述文件信息确定文件索引值,并根据所述文件索引值对所述待处理文件进行分类。2.如权利要求1所述的文件分类方法,其特征在于,所述根据所述结构字符信息以及所述文件信息确定文件索引值,并根据所述文件索引值对所述待处理文件进行分类的步骤,具体包括:获取所述待处理文件的入口数据,并根据所述入口数据以及所述结构字符信息生成一级索引值;根据所述文件信息生成所述待处理文件的二级索引值;根据所述一级索引值以及所述二级索引值生成文件索引值,并根据所述文件索引值对所述待处理文件进行分类。3.如权利要求2所述的文件分类方法,其特征在于,所述获取所述待处理文件的入口数据,并根据所述入口数据以及所述结构字符信息生成一级索引值的步骤,具体包括:根据所述结构字符信息确定签名字符、标志字符以及文件属性信息;根据所述签名字符、所述标志字符以及所述文件属性信息确定所述待处理文件的属性数据索引值;获取所述待处理文件的入口数据,并查找所述入口数据对应的入口数据索引值;根据所述属性数据索引值以及所述入口数据索引值生成一级索引值。4.如权利要求3所述的文件分类方法,其特征在于,所述根据所述结构字符信息确定签名字符、标志字符以及文件属性信息的步骤,具体包括:根据所述结构字符信息确定头部字符位置信息、标志字符、文件属性信息;根据所述头部字符位置信息确定签名字符位置信息,并根据所述签名字符位置信息确定签名字符。5.如权利要求4所述的文件分类方法,其特征在于,所述根据所述签名字符、所述标志字符以及所述文件属性信息确定所述待处理文件的属性数据索引值的步骤,具体包括:根据所述签名字符判断所述待处理文件是否为合法文件,获得文件判断结果;根据所述标志字符确定标志字段,并根据所述标志字段确定待处理文件的文件位数信息;根据所述文件判断结果、所述文件位数信息以及所述文件属性信息确定所述待处理文件的属性数据索引值。6.如权利要求5所述的文件分类方法,其特征在于,所述...

【专利技术属性】
技术研发人员:徐传宇党亮王士聪
申请(专利权)人:北京鸿腾智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1