基于机器学习的样本预测方法、装置及服务器制造方法及图纸

技术编号：17033330 阅读：17 留言：0更新日期：2018-01-13 19:38

本发明专利技术公开了一种基于机器学习的样本预测方法、装置、服务器及计算机存储介质，其中，该方法包括：针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；存储所述待预测样本库中每一个待预测样本的特征向量；获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。根据本发明专利技术提供的方案，通过提取待预测样本的特征向量，并且每一次预测时都只需要利用训练模型去扫描已经提取的特征向量，而无需根据新的训练模型去扫描待预测样本全文，并且再次提取特征向量，因此本方案可以极大地提高扫描预测的速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的样本预测方法、装置及服务器
本专利技术涉及计算机
，具体涉及一种基于机器学习的样本预测方法、装置、服务器及计算机存储介质。
技术介绍
恶意程序通常是指带有攻击意图的一段程序，是编制者在计算机程序中插入破坏计算机功能或者破坏数据，影响计算机使用并且能够自我复制的一组计算机指令或者程序代码。现有技术中，对于恶意程序的识别常用的手段是在程序文件的特定位置提取待识别程序的特征添加到病毒库中，并利用该病毒库进行识别，而由于对应不同的病毒库其所需提取的特征位置是不同的，因此，现有技术必须在每一次获取到新的病毒库之后，对程序文件重新扫描。但是，随着待识别样本数量增多，每次重新获取待识别样本全文，并进行扫描的过程将会耗时很长，该扫描方式受限制于待识别样本大小以及病毒库的大小，因而会极大降低从大量待识别样本中识别出恶意程序的速度，导致因识别不及时而对计算机功能或数据造成破坏的问题。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于机器学习的样本预测方法、装置、服务器及计算机存储介质。根据本专利技术的一个方面，提供了一种基于机器学习的样本预测方法，该方法包括：针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；存储待预测样本库中每一个待预测样本的特征向量；获取经训练得到的训练模型，利用训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。可选地，提取该待预测样本的特征，得到待预测样本的特征向量进一步包括：提取该待预测样本的至少一个特征；对待预测样本的至少...
基于机器学习的样本预测方法、装置及服务器

【技术保护点】
一种基于机器学习的样本预测方法，包括：针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；存储所述待预测样本库中每一个待预测样本的特征向量；获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

【技术特征摘要】
1.一种基于机器学习的样本预测方法，包括：针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；存储所述待预测样本库中每一个待预测样本的特征向量；获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。2.根据权利要求1所述的方法，所述提取该待预测样本的特征，得到待预测样本的特征向量进一步包括：提取该待预测样本的至少一个特征；对所述待预测样本的至少一个特征进行降维运算，得到待预测样本的特征向量。3.根据权利要求1或2所述的方法，所述待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。4.根据权利要求1-3任一项所述的方法，所述存储所述待预测样本库中每一个待预测样本的特征向量具体为：将所述待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。5.根据权利要求4所述的方法，在所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量之前，所述方法还包括：将训练模型置入分布式集群中的所述数个节点中；所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量具体为：所述数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。6.根据权利要求1-5任一项所述的方法，所述针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量具体为：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测...

【专利技术属性】
技术研发人员：华元彬，陈宇龙，
申请(专利权)人：北京奇虎科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人