病毒文件检测方法、装置及设备制造方法及图纸

技术编号:23497993 阅读:20 留言:0更新日期:2020-03-13 13:07
本申请提供一种病毒文件检测方法、装置及设备。该方法包括:对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵;针对所述特征矩阵中的每一元素,将所述元素的值转换为灰度值,得到所述待检测文件对应的待检测灰度图;将所述待检测灰度图输入已训练好的病毒分类器;根据所述病毒分类器输出的分类结果,确定所述待检测文件是否为病毒文件。可以看出,本申请将文件识别转换为图像识别,利用分类器识别准确度高的特点,将稍作改动或升级的病毒文件识别出来,从而降低病毒文件的漏检概率。

Virus file detection method, device and equipment

【技术实现步骤摘要】
病毒文件检测方法、装置及设备
本申请涉及网络通信
,尤其涉及一种病毒文件检测方法、装置及设备。
技术介绍
病毒文件对计算机的危害不可小觑。比如,非法获取计算机权限、非法访问私人计算机、非法控制计算机资源、劫持用户资产等。为了防范病毒文件,需要对病毒文件进行识别。目前,检测病毒文件的方法主要包括以下两种:方法一,从病毒样本中提取部分文本或字符串作为特征码,将特征码存储到病毒库中。当接收到待检测文件时,采用相同的提取方式提取文件的特征码,与病毒库中的特征码进行比对。若存在一致的特征码,则确定该待检测文件为病毒文件。方法二,对病毒样本进行哈希运算,将哈希值存储到病毒库中。当接收到待检测文件时,对待检测文件执行相同的哈希运算。将待检测文件对应的哈希值与病毒库中的哈希值进行比对。若存在一致的哈希值,则确定该待检测文件为病毒文件。但上述两种方法只有在待检测文件与病毒样本完全一致的情况下,才能识别出病毒文件。若该待检测文件为在已知病毒样本基础上稍作改动或升级后的文件,则现有检测方法将无法识别出病毒文件,造成漏检。申请内容有鉴于此,本申请提出一种病毒文件检测方法、装置及设备,用以降低病毒文件的漏检概率。为实现上述申请目的,本申请提供了如下技术方案:第一方面,本申请提供一种病毒文件检测方法,所述方法包括:对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵;针对所述特征矩阵中的每一元素,将所述元素的值转换为灰度值,得到所述待检测文件对应的待检测灰度图;将所述待检测灰度图输入已训练好的病毒分类器;根据所述病毒分类器输出的分类结果,确定所述待检测文件是否为病毒文件。可选的,所述将所述待检测灰度图输入已训练好的病毒分类器之前,所述方法还包括:将病毒样本集划分为训练样本集和测试样本集,所述病毒样本集包含多个已知病毒样本;利用训练样本集中的病毒样本,对深度学习模型进行训练,得到病毒分类器;对训练得到的病毒分类器,利用测试样本集中的病毒样本验证病毒分类器的分类准确率;若分类准确率达到预设的准确率阈值,则确定该病毒分类器已训练好。可选的,所述方法还包括:若分类准确率未达到预设的准确率阈值,从测试样本集中选取部分病毒样本继续对所述深度学习模型进行训练,直至训练得到的病毒分类器的分类准确率达到预设的准确率阈值。可选的,所述对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵,包括:依据将预设数量个字符划分为一个分词特征、且字符串中位置相邻的两个分词特征不包括相同位置字符的原则,将所述待检测文件表征的字符串划分成N个分词特征,所述N为正整数;基于所述N个分词特征,构建待检测文件的特征矩阵。可选的,所述将所述元素的值转换为灰度值,包括:基于灰度取值范围,将所述元素的值进行归一化处理,得到对应灰度值。第二方面,本申请提供一种病毒文件检测装置,所述装置包括:分词单元,用于对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵;转换单元,用于针对所述特征矩阵中的每一元素,将所述元素的值转换为灰度值,得到所述待检测文件对应的待检测灰度图;输入单元,用于将所述待检测灰度图输入已训练好的病毒分类器;第一确定单元,用于根据所述病毒分类器输出的分类结果,确定所述待检测文件是否为病毒文件。可选的,所述装置还包括:划分单元,用于将病毒样本集划分为训练样本集和测试样本集,所述病毒样本集包含多个已知病毒样本;训练单元,用于利用训练样本集中的病毒样本,对深度学习模型进行训练,得到病毒分类器;验证单元,用于对训练得到的病毒分类器,利用测试样本集中的病毒样本验证病毒分类器的分类准确率;第二确定单元,用于若分类准确率达到预设的准确率阈值,则确定该病毒分类器已训练好。可选的,所述训练单元,还用于若分类准确率未达到预设的准确率阈值,从测试样本集中选取部分病毒样本继续对所述深度学习模型进行训练,直至训练得到的病毒分类器的分类准确率达到预设的准确率阈值。可选的,所述分词单元对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵,包括:依据将预设数量个字符划分为一个分词特征、且字符串中位置相邻的两个分词特征不包括相同位置字符的原则,将所述待检测文件表征的字符串划分成N个分词特征,所述N为正整数;基于所述N个分词特征,构建待检测文件的特征矩阵。可选的,所述转换单元将所述元素的值转换为灰度值,包括:基于灰度取值范围,将所述元素的值进行归一化处理,得到对应灰度值。第三方面,本申请提供一种设备,所述设备包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使实现上述病毒文件检测方法。第四方面,本申请提供一种机器可读存储介质,所述机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现上述病毒文件检测方法。由以上描述可以看出,本申请中,将文件识别转换为图像识别,利用分类器识别准确度高的特点,可将稍作改动或升级的病毒文件识别出来,从而降低病毒文件的漏检概率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例示出的一种病毒文件检测方法流程图;图2是本申请实施例示出的一种训练病毒分类器的实现流程;图3是本申请实施例示出的一种步骤101的实现流程;图4是本申请实施例示出的一种病毒文件检测装置的结构示意图;图5是本申请实施例示出的一种设备的硬件结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限本文档来自技高网...

【技术保护点】
1.一种病毒文件检测方法,其特征在于,所述方法包括:/n对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵;/n针对所述特征矩阵中的每一元素,将所述元素的值转换为灰度值,得到所述待检测文件对应的待检测灰度图;/n将所述待检测灰度图输入已训练好的病毒分类器;/n根据所述病毒分类器输出的分类结果,确定所述待检测文件是否为病毒文件。/n

【技术特征摘要】
1.一种病毒文件检测方法,其特征在于,所述方法包括:
对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵;
针对所述特征矩阵中的每一元素,将所述元素的值转换为灰度值,得到所述待检测文件对应的待检测灰度图;
将所述待检测灰度图输入已训练好的病毒分类器;
根据所述病毒分类器输出的分类结果,确定所述待检测文件是否为病毒文件。


2.如权利要求1所述的方法,其特征在于,所述将所述待检测灰度图输入已训练好的病毒分类器之前,所述方法还包括:
将病毒样本集划分为训练样本集和测试样本集,所述病毒样本集包含多个已知病毒样本;
利用训练样本集中的病毒样本,对深度学习模型进行训练,得到病毒分类器;
对训练得到的病毒分类器,利用测试样本集中的病毒样本验证病毒分类器的分类准确率;
若分类准确率达到预设的准确率阈值,则确定该病毒分类器已训练好。


3.如权利要求2所述的方法,其特征在于,所述方法还包括:
若分类准确率未达到预设的准确率阈值,从测试样本集中选取部分病毒样本继续对所述深度学习模型进行训练,直至训练得到的病毒分类器的分类准确率达到预设的准确率阈值。


4.如权利要求1所述的方法,其特征在于,所述对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵,包括:
依据将预设数量个字符划分为一个分词特征、且字符串中位置相邻的两个分词特征不包括相同位置字符的原则,将所述待检测文件表征的字符串划分成N个分词特征,所述N为正整数;
基于所述N个分词特征,构建待检测文件的特征矩阵。


5.如权利要求1所述的方法,其特征在于,所述将所述元素的值转换为灰度值,包括:
基于灰度取值范围,将所述元素的值进行归一化处理,得到对应灰度值。


6.一种病毒文件检测装置,其特征在于,所述装置包括:
分词单元,用于对待检测文件表征的字符串进行分词处理,得到所述待检测文件的分词特征以及所述待检测文件的特征矩阵;
转换单元,用于针对所述特征矩阵中的每一元素,将所述元素的值...

【专利技术属性】
技术研发人员:王春磊
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1