基于机器学习的样本预测方法、装置及服务器制造方法及图纸

技术编号:17033330 阅读:17 留言:0更新日期:2018-01-13 19:38
本发明专利技术公开了一种基于机器学习的样本预测方法、装置、服务器及计算机存储介质,其中,该方法包括:针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量;存储所述待预测样本库中每一个待预测样本的特征向量;获取经训练得到的训练模型,利用所述训练模型扫描已存储的每一个待预测样本的特征向量,得到待预测样本的预测结果。根据本发明专利技术提供的方案,通过提取待预测样本的特征向量,并且每一次预测时都只需要利用训练模型去扫描已经提取的特征向量,而无需根据新的训练模型去扫描待预测样本全文,并且再次提取特征向量,因此本方案可以极大地提高扫描预测的速度。

【技术实现步骤摘要】
基于机器学习的样本预测方法、装置及服务器
本专利技术涉及计算机
,具体涉及一种基于机器学习的样本预测方法、装置、服务器及计算机存储介质。
技术介绍
恶意程序通常是指带有攻击意图的一段程序,是编制者在计算机程序中插入破坏计算机功能或者破坏数据,影响计算机使用并且能够自我复制的一组计算机指令或者程序代码。现有技术中,对于恶意程序的识别常用的手段是在程序文件的特定位置提取待识别程序的特征添加到病毒库中,并利用该病毒库进行识别,而由于对应不同的病毒库其所需提取的特征位置是不同的,因此,现有技术必须在每一次获取到新的病毒库之后,对程序文件重新扫描。但是,随着待识别样本数量增多,每次重新获取待识别样本全文,并进行扫描的过程将会耗时很长,该扫描方式受限制于待识别样本大小以及病毒库的大小,因而会极大降低从大量待识别样本中识别出恶意程序的速度,导致因识别不及时而对计算机功能或数据造成破坏的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于机器学习的样本预测方法、装置、服务器及计算机存储介质。根据本专利技术的一个方面,提供了一种基于机器学习的样本预测方法,该方法包括:针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量;存储待预测样本库中每一个待预测样本的特征向量;获取经训练得到的训练模型,利用训练模型扫描已存储的每一个待预测样本的特征向量,得到待预测样本的预测结果。可选地,提取该待预测样本的特征,得到待预测样本的特征向量进一步包括:提取该待预测样本的至少一个特征;对待预测样本的至少一个特征进行降维运算,得到待预测样本的特征向量。可选地,待预测样本的特征包括:类行为特征、编译器特征和/或加壳特征。可选地,存储待预测样本库中每一个待预测样本的特征向量具体为:将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。可选地,在利用训练模型扫描已存储的每一个待预测样本的特征向量之前,方法还包括:将训练模型置入分布式集群中的数个节点中;利用训练模型扫描已存储的每一个待预测样本的特征向量具体为:数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。可选地,针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量具体为:针对待预测样本库中的每一个待预测样本,利用n种特征提取算法提取该待预测样本的n种特征,得到待预测样本的n组特征向量,其中一种特征对应一组特征向量;获取经训练得到的训练模型,利用训练模型扫描已存储的每一个待预测样本的特征向量,得到待预测样本的预测结果进一步包括:获取经训练得到的n个训练模型,其中一个训练模型对应一种特征;利用n个训练模型分别扫描已存储的每一个待预测样本的对应的n组特征向量,得到待预测样本的n个预测结果;将待预测样本的n个预测结果取并集,得到待预测样本的整体预测结果。根据本专利技术的另一方面,提供了一种基于机器学习的样本预测装置,该装置包括:提取模块,适于针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量;存储模块,适于存储待预测样本库中每一个待预测样本的特征向量;预测模块,适于获取经训练得到的训练模型,利用训练模型扫描已存储的每一个待预测样本的特征向量,得到待预测样本的预测结果。可选地,提取模块进一步适于:提取该待预测样本的至少一个特征;对待预测样本的至少一个特征进行降维运算,得到待预测样本的特征向量。可选地,待预测样本的特征包括:类行为特征、编译器特征和/或加壳特征。可选地,存储模块进一步适于:将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。可选地,装置还包括:置入模块,适于将训练模型置入分布式集群中的数个节点中;预测模块进一步适于:数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。可选地,提取模块进一步适于:针对待预测样本库中的每一个待预测样本,利用n种特征提取算法提取该待预测样本的n种特征,得到待预测样本的n组特征向量,其中一种特征对应一组特征向量;预测模块进一步适于:获取经训练得到的n个训练模型,其中一个训练模型对应一种特征;利用n个训练模型分别扫描已存储的每一个待预测样本的对应的n组特征向量,得到待预测样本的n个预测结果;将待预测样本的n个预测结果取并集,得到待预测样本的整体预测结果。根据本专利技术的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于机器学习的样本预测方法对应的操作。根据本专利技术的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于机器学习的样本预测方法对应的操作。根据本专利技术的基于机器学习的样本预测方法、装置、服务器及计算机存储介质,考虑到特征向量具有稳定性,通过提取待预测样本的特征向量,并且每一次预测时都只需要利用训练模型去扫描已经提取的特征向量就能预测出待预测样本库中的每一个待预测样本是否为恶意程序;而无需根据每次训练出的新的训练模型去扫描待预测样本全文,并且根据新的训练模型再次提取特征向量以进行待预测样本的扫描预测。即利用本方案,在待预测样本的特征向量的提取算法确定之后,特征向量只需要被计算一次就能够完成多次预测,并且特征向量的提取非常耗时,因此本方案可以极大的提高扫描预测的速度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的基于机器学习的样本预测方法的流程图;图2示出了根据本专利技术另一个实施例的基于机器学习的样本预测方法的流程图;图3示出了根据本专利技术又一个实施例的基于机器学习的样本预测方法的流程图;图4示出了根据本专利技术一个实施例的基于机器学习的样本预测装置的功能框图;图5示出了根据本专利技术另一个实施例的基于机器学习的样本预测装置的功能框图;图6示出了根据本专利技术的一种服务器的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术方案中,只需要针对待预测样本库中的每一个待预测样本提取一次待预测样本的特征向量,由于提取的待预测样本的特征向量已包含足够多的待预测样本的特征信息,即使训练模型发生改变,仍然可以用已提取的待预测样本的特征向量进行预测,而不需要根据训练模型重新提取待预测样本的特征向量,因此就能利用一次提取的特征向量完成对同本文档来自技高网...
基于机器学习的样本预测方法、装置及服务器

【技术保护点】
一种基于机器学习的样本预测方法,包括:针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量;存储所述待预测样本库中每一个待预测样本的特征向量;获取经训练得到的训练模型,利用所述训练模型扫描已存储的每一个待预测样本的特征向量,得到待预测样本的预测结果。

【技术特征摘要】
1.一种基于机器学习的样本预测方法,包括:针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量;存储所述待预测样本库中每一个待预测样本的特征向量;获取经训练得到的训练模型,利用所述训练模型扫描已存储的每一个待预测样本的特征向量,得到待预测样本的预测结果。2.根据权利要求1所述的方法,所述提取该待预测样本的特征,得到待预测样本的特征向量进一步包括:提取该待预测样本的至少一个特征;对所述待预测样本的至少一个特征进行降维运算,得到待预测样本的特征向量。3.根据权利要求1或2所述的方法,所述待预测样本的特征包括:类行为特征、编译器特征和/或加壳特征。4.根据权利要求1-3任一项所述的方法,所述存储所述待预测样本库中每一个待预测样本的特征向量具体为:将所述待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。5.根据权利要求4所述的方法,在所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量之前,所述方法还包括:将训练模型置入分布式集群中的所述数个节点中;所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量具体为:所述数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。6.根据权利要求1-5任一项所述的方法,所述针对待预测样本库中的每一个待预测样本,提取该待预测样本的特征,得到待预测样本的特征向量具体为:针对待预测样本库中的每一个待预测样本,利用n种特征提取算法提取该待预测样本的n种特征,得到待预测...

【专利技术属性】
技术研发人员:华元彬陈宇龙
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1