宏病毒识别方法、装置、存储介质及处理器制造方法及图纸

技术编号:19858562 阅读:42 留言:0更新日期:2018-12-22 11:55
本发明专利技术公开了一种宏病毒识别方法、装置、存储介质及处理器。其中,该方法包括:获取待检测文件的待检测宏程序;使用决策模型对待检测宏程序进行分析,识别待检测宏程序是否为病毒宏程序,其中,决策模型为使用多组训练数据通过机器学习算法训练出的,多组训练数据包括第一类数据和第二类数据,第一类数据中的每组训练数据均包括:病毒宏程序和标识该宏程序为病毒的标签;第二类数据中的每组训练数据均包括:非病毒宏程序和标识该宏程序不为病毒的标签;在确定待检测宏程序属于病毒宏程序的情况下,确定待检测宏程序对应待检测文件为病毒文件。本发明专利技术解决了现有宏病毒识别效率低的技术问题。

【技术实现步骤摘要】
宏病毒识别方法、装置、存储介质及处理器
本专利技术涉及网络安全领域,具体而言,涉及一种宏病毒识别方法、装置、存储介质及处理器。
技术介绍
目前,在进行宏病毒查杀的过程中所使用的传统方案是,通过传统特征提取技术,提取宏病毒的特征码,并存入数据库。在病毒检测时,提取需要进行病毒检测的文件中的宏程序,并将该宏程序与数据库中的特征进行匹配,以此来判定文件中是否存在病毒。但是,通过上述方案提取的特征,通常只能针对于特定的病毒家族,以及该病毒家族的变种,容易被病毒作者绕过。另外,提取宏病毒的工作需要训练有素的病毒分析人员来完成,因此,传统的宏病毒查杀技术需要投入较多人力才能实现对宏病毒的识别,导致宏病毒的识别效率低,进而影响宏病毒的查杀效率。针对上述现有宏病毒识别效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种宏病毒识别方法、装置、存储介质及处理器,以至少解决现有宏病毒识别效率低的技术问题。根据本专利技术实施例的一个方面,提供了一种宏病毒识别方法,包括:获取待检测文件的待检测宏程序;使用决策模型对所述待检测宏程序进行分析,识别所述待检测宏程序是否为病毒宏程序,其中,所述决策模型为使用多组训练数据通过机器学习算法训练出的,所述多组训练数据包括第一类数据和第二类数据,所述第一类数据中的每组训练数据均包括:病毒宏程序和标识该宏程序为病毒的标签;所述第二类数据中的每组训练数据均包括:非病毒宏程序和标识该宏程序不为病毒的标签;在确定所述待检测宏程序属于病毒宏程序的情况下,确定所述待检测宏程序对应所述待检测文件为病毒文件。进一步地,获取待检测文件的待检测宏程序包括:获取待检测文件集合,其中,所述待检测文件集合中包括至少一个文件;识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。进一步地,获取待检测文件的待检测宏程序包括:判断每个所述待检测文件中的宏程序是否为多个;在所述待检测文件的宏程序为多个的情况下,将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。进一步地,所述决策模型通过以下方式训练得出:从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序作为样本集数据,其中,所述样本集数据包括:训练集数据和测试集数据;使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型;使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证;在所述训练模型的验证结果为准确的情况下,确定所述训练模型为所述决策模型;在所述训练模型的验证结果为不准确的情况下,根据所述验证结果调整所述训练模型。根据本专利技术实施例的另一个方面,提供了一种宏病毒识别装置,包括:获取单元,用于获取待检测文件的待检测宏程序;识别单元,用于使用决策模型对所述待检测宏程序进行分析,识别所述待检测宏程序是否为病毒宏程序,其中,所述决策模型为使用多组训练数据通过机器学习算法训练出的,所述多组训练数据包括第一类数据和第二类数据,所述第一类数据中的每组训练数据均包括:病毒宏程序和标识该宏程序为病毒的标签;所述第二类数据中的每组训练数据均包括:非病毒宏程序和标识该宏程序不为病毒的标签;确定单元,用于在确定所述待检测宏程序属于病毒宏程序的情况下,确定所述待检测宏程序对应所述待检测文件为病毒文件。进一步地,所述获取单元包括:获取模块,用于获取待检测文件集合,其中,所述待检测文件集合中包括至少一个文件;识别模块,用于识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。进一步地,所述获取单元包括:判断模块,用于判断每个所述待检测文件中的宏程序是否为多个;整合模块,用于在所述待检测文件的宏程序为多个的情况下,将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。进一步地,所述决策模型通过以下方式训练得出:选取模块,用于从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序,其中,所述样本集数据包括:训练集数据和测试集数据;训练模块,用于使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型;验证模块,用于使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证;确定模块,用于在所述训练模型的验证结果为准确的情况下,确定所述训练模型为所述决策模型;调整模块,用于在所述训练模型的验证结果为不准确的情况下,根据所述验证结果调整所述训练模型。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述任一项所述的宏病毒识别方法。根据本专利技术的又一个实施例,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任一项所述的宏病毒识别方法。在本专利技术实施例中,获取待检测文件中的待检测宏程序,再使用预先通过机器学习训练出的决策模型对待检测宏程序进行识别,判断待检测宏程序是否为病毒宏程序,然后再进一步对包含病毒宏程序的待检测文件进行处理,达到了快速确定用于识别病毒的决策模型的目的,从而根据机器训练得到的决策模型可以实现快速识别病毒宏程序的技术效果,进而解决了现有宏病毒识别效率低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种宏病毒识别方法的示意图;图2是根据本专利技术实施例的一种基于机器学习的Office宏病毒识别方法的示意图;图3是根据本专利技术实施例的一种宏病毒识别装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种宏病毒识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的一种宏病毒识别方法的示意图,如图1所示,该方法包括如下步骤:步骤S102,获取待检测文件的待检测宏程序;步骤S104,使用决策模型对待检测宏程序进行分析,识别待检测宏程序是否为病毒宏程序,其中,决策模型为使用多组训练数据通过机器学习算法训练出的,多组训练数据包本文档来自技高网
...

【技术保护点】
1.一种宏病毒识别方法,其特征在于,包括:获取待检测文件的待检测宏程序;使用决策模型对所述待检测宏程序进行分析,识别所述待检测宏程序是否为病毒宏程序,其中,所述决策模型为使用多组训练数据通过机器学习算法训练出的,所述多组训练数据包括第一类数据和第二类数据,所述第一类数据中的每组训练数据均包括:病毒宏程序和标识该宏程序为病毒的标签;所述第二类数据中的每组训练数据均包括:非病毒宏程序和标识该宏程序不为病毒的标签;在确定所述待检测宏程序属于病毒宏程序的情况下,确定所述待检测宏程序对应所述待检测文件为病毒文件。

【技术特征摘要】
1.一种宏病毒识别方法,其特征在于,包括:获取待检测文件的待检测宏程序;使用决策模型对所述待检测宏程序进行分析,识别所述待检测宏程序是否为病毒宏程序,其中,所述决策模型为使用多组训练数据通过机器学习算法训练出的,所述多组训练数据包括第一类数据和第二类数据,所述第一类数据中的每组训练数据均包括:病毒宏程序和标识该宏程序为病毒的标签;所述第二类数据中的每组训练数据均包括:非病毒宏程序和标识该宏程序不为病毒的标签;在确定所述待检测宏程序属于病毒宏程序的情况下,确定所述待检测宏程序对应所述待检测文件为病毒文件。2.根据权利要求1所述的方法,其特征在于,获取待检测文件的待检测宏程序包括:获取待检测文件集合,其中,所述待检测文件集合中包括至少一个文件;识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。3.根据权利要求1所述的方法,其特征在于,获取待检测文件的待检测宏程序包括:判断每个所述待检测文件中的宏程序是否为多个;在所述待检测文件的宏程序为多个的情况下,将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。4.根据权利要求1所述的方法,其特征在于,所述决策模型通过以下方式训练得出:从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序作为样本集数据,其中,所述样本集数据包括:训练集数据和测试集数据;使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型;使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证;在所述训练模型的验证结果为准确的情况下,确定所述训练模型为所述决策模型;在所述训练模型的验证结果为不准确的情况下,根据所述验证结果调整所述训练模型。5.一种宏病毒识别装置,其特征在于,包括:获取单元,用于获取待检测文件的待检测宏程序;识别单元,用于使用决策模型对所述待检测宏程序进行分析,识别所述待检测宏程序是否为病毒宏程序,其中,所述决...

【专利技术属性】
技术研发人员:丁亢李小青谭国苹
申请(专利权)人:博彦科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1