特征的提取方法和装置制造方法及图纸

技术编号:14828669 阅读:111 留言:0更新日期:2017-03-16 15:06
本发明专利技术提供了一种特征的提取方法和装置,涉及特征提取的技术领域,包括:对至少一个恶意软件中的每个恶意软件的源文件和预设文件进行扫描,得到每个恶意软件的初始关键词组,以及初始关键词组中每个初始关键词在每个恶意软件中的出现频率;根据出现频率计算初始关键词组中任意两个关键词之间的相似距离,得到目标距离矩阵;根据目标距离矩阵中记录的相似距离对初始关键词组进行筛选,筛选得到目标关键词组,其中,目标关键词组中任意两个关键词之间的相似距离满足预设分类值;确定目标关键词组为每个恶意软件的特征信息,解决了现有技术中在对恶意软件进行查杀时,查杀不全面的技术问题。

【技术实现步骤摘要】

本专利技术计算机的
,尤其是涉及一种特征的提取方法和装置
技术介绍
随着互联网时代的到来,智能手机在世界上的普及率也越来越高,智能手机的系统主要包括Android和IOS系统,其中,Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶意软件也出现在了市场当中,危害用户的信息安全。各大安全实验室也渐渐把手机安全保护作为重点研究,但如何有效的查杀新型恶意软件及恶意软件的变种一直是个难题。现有技术中,在查杀传统恶意软件时,主要通过特征码提取方法确定恶意软件,进而,对该恶意软件进行查杀,其中,上述特征码提取方法主要是基于程序二进制文本。基于程序二进制文本的特征提取方法,只能对传统的恶意软件进行查杀,无法侦测新型恶意软件和变异恶意软件。
技术实现思路
本专利技术的目的在于提供一种特征的提取方法和装置,以缓解现有技术中在对恶意软件进行查杀时,查杀不全面的技术问题。根据本专利技术实施例的一个方面,提供了一种特征的提取方法,包括:对至少一个恶意软件中的每个恶意软件的源文件和预设文件进行扫描,得到每个所述恶意软件的初始关键词组,以及所述初始关键词组中每个初始关键词在所述每个恶意软件中的出现频率;根据所述出现频率计算所述初始关键词组中任意两个关键词之间的相似距离,得到目标距离矩阵;根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组,其中,所述目标关键词组中任意两个关键词之间的相似距离满足预设分类值;确定所述目标关键词组为所述每个恶意软件的特征信息。进一步地,根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组包括:以所述初始关键词组中的每个关键词为根节点,对所述根节点进行优先搜索操作,得到目标搜索结果,其中,所述目标搜索结果中任意两个关键词之间的相似距离小于或者等于所述预设分类值,并且所述目标搜索结果中任意两个关键词之间相互关联;在所述目标搜索结果查找目标关键词,组成所述目标关键词组,其中,所述目标搜索结果中包含至少一个与所述目标关键词的相似距离小于所述预设分类值的关键词,并且,所述目标关键词和所述目标搜索结果中的关键词属于相同的类别。进一步地,根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组还包括:通过支持向量机算法对所述初始关键词组进行学习处理,得到目标学习结果,其中,所述目标学习结果中任意两个关键词之间的相似距离小于或者等于所述预设分类值,并且所述目标学习结果中任意两个关键词之间相互关联;在所述目标学习结果查找目标关键词,组成所述目标关键词组,其中,所述目标学习结果中包含至少一个与所述目标关键词的相似距离小于所述预设分类值的关键词,并且,所述目标关键词和所述目标学习结果中的关键词属于相同的类别。进一步地,根据所述出现频率计算初始关键词组中任意两个关键词之间的相似距离包括:通过Google距离计算公式计算所述初始关键词组中任意两个关键词之间的相似距离,得到所述目标距离矩阵,其中,fC1表示初始关键词C1在所述每个恶意软件中的出现频率,fC2表示初始关键词C2在所述每个恶意软件中的出现频率,f(C1,C2)表示在所述每个恶意软件中同时出现所述初始关键词C1和所述初始关键词C2的频率。进一步地,所述预设文件包括功能配置文件,在对至少一个恶意软件的源文件和预设文件进行扫描之前,所述方法还包括:通过开源软件对每个所述恶意软件进行反编译,得到所述每个恶意软件的功能配置文件和所述每个恶意软件的源文件。进一步地,在确定所述目标关键词组为所述每个恶意软件的特征信息之后,所述方法还包括:获取非恶意软件的多组关键词分类结果;将每个所述目标关键词与所述多组关键词分类结果中相同类型的分类结果进行对比,得到对比结果;根据所述对比结果确定每个所述目标关键词组的真实性。进一步地,在确定所述目标关键词组为所述每个恶意软件的特征信息之后,所述方法还包括:获取至少一个待检测的软件;通过提取到的所述特征信息对所述至少一个待检测软件进行分析,以确定所述至少一个待检测软件是否为恶意软件。根据本专利技术实施例的一个方面,提供了一种一种特征的提取装置,包括:扫描单元,用于对至少一个恶意软件中每个恶意软件的源文件和预设文件进行扫描,得到所述每个恶意软件的初始关键词组,以及所述初始关键词组中每个初始关键词在所述每个恶意软件中的出现频率;计算单元,用于根据所述出现频率计算所述初始关键词组中任意两个关键词之间的相似距离,得到目标距离矩阵;筛选单元,用于根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组,其中,所述目标关键词组中任意两个关键词之间的相似距离满足预设分类值;第一确定单元,用于确定所述目标关键词组为所述每个恶意软件的特征信息。进一步地,所述筛选单元包括:第一处理模块,用于以所述初始关键词组中的每个关键词为根节点,对所述根节点进行优先搜索操作,得到目标搜索结果,其中,所述目标搜索结果中任意两个关键词之间的相似距离小于或者等于所述预设分类值,并且所述目标搜索结果中任意两个关键词之间相互关联;第一查找模块,用于在所述目标搜索结果查找目标关键词,组成所述目标关键词组,其中,所述目标搜索结果中包含至少一个与所述目标关键词的相似距离小于所述预设分类值的关键词,并且,所述目标关键词和所述目标搜索结果中的关键词属于相同的类别。进一步地,所述筛选单元还包括:第二处理模块,用于通过支持向量机算法对所述初始关键词组进行学习处理,得到目标学习结果,其中,所述目标学习结果中任意两个关键词之间的相似距离小于或者等于所述预设分类值,并且所述目标学习结果中任意两个关键词之间相互关联;第二查找模块,用于在所述目标学习结果查找目标关键词,组成所述目标关键词组,其中,所述目标学习结果中包含至少一个与所述目标关键词的相似距离小于所述预设分类值的关键词,并且,所述目标关键词和所述目标学习结果中的关键词属于相同的类别。在本专利技术实施例中,首先对恶意软件的源文件和功能配置文件进行扫描,以得到每个恶意软件的初始关键词组及其中每个初始关键词在预设文件中的出现频率;然后,根据出现频率计算初始关键词组中任意两个关键词之间的相似距离,得到目标距离矩阵;接下来,根据相似距离对初始关键词组进行筛选,筛选得到满足要求的关键词,得到目标关键词组;最后,确定目标关键词组即为该类恶意软件的特征信息。在本专利技术实施例中,通过计算恶意软件中关键词的相似距离,不仅能够确定传统的恶意软件,还能够识别变异的恶意软件和新型恶意软件,相对于现有技术中的特征提取方法,达到了全面检测恶意软件的目的,进而缓解了现有技术中在对恶意软件进行查杀时,查杀不全面的技术问题,从而实现了提高了对恶意软件检测的全面性的技术效果。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的一种特征的提取方法的流程图;图2是本文档来自技高网...
特征的提取方法和装置

【技术保护点】
一种特征的提取方法,其特征在于,包括:对至少一个恶意软件中的每个恶意软件的源文件和预设文件进行扫描,得到所述每个恶意软件的初始关键词组,以及所述初始关键词组中每个初始关键词在所述每个恶意软件中的出现频率;根据所述出现频率计算所述初始关键词组中任意两个关键词之间的相似距离,得到目标距离矩阵;根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组,其中,所述目标关键词组中任意两个关键词之间的相似距离满足预设分类值;确定所述目标关键词组为所述每个恶意软件的特征信息。

【技术特征摘要】
1.一种特征的提取方法,其特征在于,包括:对至少一个恶意软件中的每个恶意软件的源文件和预设文件进行扫描,得到所述每个恶意软件的初始关键词组,以及所述初始关键词组中每个初始关键词在所述每个恶意软件中的出现频率;根据所述出现频率计算所述初始关键词组中任意两个关键词之间的相似距离,得到目标距离矩阵;根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组,其中,所述目标关键词组中任意两个关键词之间的相似距离满足预设分类值;确定所述目标关键词组为所述每个恶意软件的特征信息。2.根据权利要求1所述的提取方法,其特征在于,根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组包括:以所述初始关键词组中的每个关键词为根节点,对所述根节点进行优先搜索操作,得到目标搜索结果,其中,所述目标搜索结果中任意两个关键词之间的相似距离小于或者等于所述预设分类值,并且所述目标搜索结果中任意两个关键词之间相互关联;在所述目标搜索结果查找目标关键词,组成所述目标关键词组,其中,所述目标搜索结果中包含至少一个与所述目标关键词的相似距离小于所述预设分类值的关键词,并且所述目标关键词和所述目标搜索结果中的关键词属于相同的类别。3.根据权利要求1所述的提取方法,其特征在于,根据所述目标距离矩阵中记录的所述相似距离对所述初始关键词组进行筛选,筛选得到目标关键词组还包括:通过支持向量机算法对所述初始关键词组进行学习处理,得到目标学习结果,其中,所述目标学习结果中任意两个关键词之间的相似距离小于或者等于所述预设分类值,并且所述目标学习结果中任意两个关键词之间相互关联;在所述目标学习结果查找目标关键词,组成所述目标关键词组,其中,所述目标学习结果中包含至少一个与所述目标关键词的相似距离小于所述预设分类值的关键词,并且,所述目标关键词和所述目标学习结果中的关键词属于相同的类别。4.根据权利要求1至3中任一项所述的提取方法,其特征在于,根据所述出现频率计算初始关键词组中任意两个关键词之间的相似距离包括:通过Google距离计算公式计算所述初始关键词组中任意两个关键词之间的相似距离,得到所述目标距离矩阵,其中,fC1表示初始关键词C1在所述每个恶意软件中的出现频率,fC2表示初始关键词C2在所述每个恶意软件中的出现频率,f(C1,C2)表示在所述每个恶意软件中同时出现所述初始关键词C1和所述初始关键词C2的频率。5.根据权利要求1所述的提取方法,其特征在于,所述预设文件包括功能配置文件,在对至少一个恶意软件的源文件和预设文件进行扫描之前,所述方法还包括:通过开源软件对每个所...

【专利技术属性】
技术研发人员:孙军梅杨春雷
申请(专利权)人:杭州师范大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1