风险识别方法及装置和电子设备制造方法及图纸

技术编号：35207754 阅读：17 留言：0更新日期：2022-10-15 10:19

本说明书实施例提供一种风险识别方法及装置和电子设备。所述方法包括：获取白样本集和黑样本集；对所述黑样本集和白样本集中的字符串进行聚类，得到多个黑样本字符簇和多个白样本字符簇；计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值，并将假正例值符合要求的黑样本字符簇中的字符串进行组合，得到字符串组合；基于所述字符串组合生成对应的风险规则，识别网络中存在的恶意软件。件。件。

全部详细技术资料下载

【技术实现步骤摘要】
风险识别方法及装置和电子设备

[0001]本说明书实施例涉及计算机
，尤其涉及一种风险识别方法及装置和电子设备。

技术介绍

[0002]在众多的网络攻击中，恶意软件是一种常见的攻击手段。而且，随着不法利益的增加，恶意软件的种类和数量呈现连年增长的趋势。
[0003]鉴于恶意软件对网络安全的威胁越来越大，业内推出了许多针对恶意软件的识别方案；其中使用最多的包括基于规则的识别方式。
[0004]这种基于规则的识别方式通常需要构建风险特征库，即通过人工从恶意软件中提取风险特征，并基于风险特征库中的风险特征来构建识别规则；这样，各种自动化的风险识别工具就可以基于所述识别规则，自动对网络中的软件进行检测识别；当某个软件符合所述识别规则，就可以确定该软件为恶意软件。
[0005]然而，如前所述恶意软件的种类和数量呈现连年增长的趋势，在网络上每时每刻都可能会出现新增的恶意软件；有某些安全机构做过统计每年可能有1.2亿新的恶意软件出现，如此换算每分钟大约有200个新的恶意软件。这种数量规模下，传统人工提取风险特征的方式完全无法应对，导致识别规则的构建速度往往落后于恶意软件的出现速度，最终使得基于人工规则的识别方式下无法及时识别新出行的恶意软件。

技术实现思路

[0006]本说明书实施例提供的一种风险识别方法及装置和电子设备。
[0007]根据本说明书实施例的第一方面，提供一种风险识别方法，所述方法包括：
[0008]获取白样本集和黑样本集；
[0009]对所述黑样...

【技术保护点】

【技术特征摘要】
1.一种风险识别方法，所述方法包括：获取白样本集和黑样本集；对所述黑样本集和白样本集中的字符串进行聚类，得到多个黑样本字符簇和多个白样本字符簇；计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值，并将假正例值符合要求的黑样本字符簇中的字符串进行组合，得到字符串组合；基于所述字符串组合生成对应的风险规则，识别网络中存在的恶意软件。2.根据权利要求1所述的方法，还包括：将所述黑样本集和白样本集输入到预先构建的集成模型中进行计算，以得到所述集成模型从所述黑样本集中识别的属于自然语言类型的字符串，和从所述白样本集中识别的属于自然语言类型的字符串；其中，所述集成模型包括多个自然语言模型进行集成学习得到的模型；将从所述黑样本集中识别的属于自然语言类型的字符串构建新的黑样本集；以及将从所述白样本集中识别的属于自然语言类型的字符串构建新的白样本集；所述对所述黑样本集和白样本集中的字符串进行聚类，包括：对所述新的黑样本集和新的白样本集中的字符串进行聚类。3.根据权利要求1所述的方法，还包括：过滤所述多个白样本字符簇中未包含黑样本集中的字符串的白样本字符簇；所述计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值，包括：计算所述多个黑样本字符簇中的字符串在过滤后的白样本字符簇中的假正例值。4.根据权利要求1所述的方法，在所述对所述黑样本集和白样本集中的字符串进行聚类之前，还包括：对所述黑样本集中的相似字符串进行去重。5.根据权利要求4所述的方法，所述对所述黑样本集中的相似字符串进行去重，包括：获取所述黑样本集中的各个字符串对应的重要度；其中，所述重要度表征的是字符串的重要程度；基于重要度对黑样本集中的字符串进行聚类，将相同重要度的字符串加入到一个聚类簇中；计算各个聚类簇中的字符串在白样本集中的假正例值；基于所述假正例值从各个聚类簇中确定出目标字符串，并将各个聚类簇中除所述目标字符串之外的字符串从所述黑样本集中删除。6.根据权利要求1所述的方法，在所述对所述黑样本集和白样本集中的字符串进行聚类，得到多个黑样本字符簇和多个白样本字符簇之后，还包括：在所述黑样本字符簇中的字符串的个数少于阈值时，为所述黑样本字符簇补足剩余个数的字符串；其中，所述剩余个数为所述黑样本字符簇中的字符串的个数与...

【专利技术属性】
技术研发人员：孟雷，
申请(专利权)人：阿里云计算有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人