风险识别方法及装置和电子设备制造方法及图纸

技术编号:35207754 阅读:17 留言:0更新日期:2022-10-15 10:19
本说明书实施例提供一种风险识别方法及装置和电子设备。所述方法包括:获取白样本集和黑样本集;对所述黑样本集和白样本集中的字符串进行聚类,得到多个黑样本字符簇和多个白样本字符簇;计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值,并将假正例值符合要求的黑样本字符簇中的字符串进行组合,得到字符串组合;基于所述字符串组合生成对应的风险规则,识别网络中存在的恶意软件。件。件。

【技术实现步骤摘要】
风险识别方法及装置和电子设备


[0001]本说明书实施例涉及计算机
,尤其涉及一种风险识别方法及装置和电子设备。

技术介绍

[0002]在众多的网络攻击中,恶意软件是一种常见的攻击手段。而且,随着不法利益的增加,恶意软件的种类和数量呈现连年增长的趋势。
[0003]鉴于恶意软件对网络安全的威胁越来越大,业内推出了许多针对恶意软件的识别方案;其中使用最多的包括基于规则的识别方式。
[0004]这种基于规则的识别方式通常需要构建风险特征库,即通过人工从恶意软件中提取风险特征,并基于风险特征库中的风险特征来构建识别规则;这样,各种自动化的风险识别工具就可以基于所述识别规则,自动对网络中的软件进行检测识别;当某个软件符合所述识别规则,就可以确定该软件为恶意软件。
[0005]然而,如前所述恶意软件的种类和数量呈现连年增长的趋势,在网络上每时每刻都可能会出现新增的恶意软件;有某些安全机构做过统计每年可能有1.2亿新的恶意软件出现,如此换算每分钟大约有200个新的恶意软件。这种数量规模下,传统人工提取风险特征的方式完全无法应对,导致识别规则的构建速度往往落后于恶意软件的出现速度,最终使得基于人工规则的识别方式下无法及时识别新出行的恶意软件。

技术实现思路

[0006]本说明书实施例提供的一种风险识别方法及装置和电子设备。
[0007]根据本说明书实施例的第一方面,提供一种风险识别方法,所述方法包括:
[0008]获取白样本集和黑样本集;
[0009]对所述黑样本集和白样本集中的字符串进行聚类,得到多个黑样本字符簇和多个白样本字符簇;
[0010]计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值,并将假正例值符合要求的黑样本字符簇中的字符串进行组合,得到字符串组合;
[0011]基于所述字符串组合生成对应的风险规则,识别网络中存在的恶意软件。
[0012]可选的,还包括:
[0013]将所述黑样本集和白样本集输入到预先构建的集成模型中进行计算,以得到所述集成模型从所述黑样本集中识别的属于自然语言类型的字符串,和从所述白样本集中识别的属于自然语言类型的字符串;其中,所述集成模型包括多个自然语言模型进行集成学习得到的模型;
[0014]将从所述黑样本集中识别的属于自然语言类型的字符串构建新的黑样本集;以及将从所述白样本集中识别的属于自然语言类型的字符串构建新的白样本集;
[0015]所述对所述黑样本集和白样本集中的字符串进行聚类,包括:
[0016]对所述新的黑样本集和新的白样本集中的字符串进行聚类。
[0017]可选的,还包括:
[0018]过滤所述多个白样本字符簇中未包含黑样本集中的字符串的白样本字符簇;
[0019]所述计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值,包括:
[0020]计算所述多个黑样本字符簇中的字符串在过滤后的白样本字符簇中的假正例值。
[0021]可选的,在所述对所述黑样本集和白样本集中的字符串进行聚类之前,还包括:
[0022]对所述黑样本集中的相似字符串进行去重。
[0023]可选的,所述对所述黑样本集中的相似字符串进行去重,包括:
[0024]获取所述黑样本集中的各个字符串对应的重要度;其中,所述重要度表征的是字符串的重要程度;
[0025]基于重要度对黑样本集中的字符串进行聚类,将相同重要度的字符串加入到一个聚类簇中;
[0026]计算各个聚类簇中的字符串在白样本集中的假正例值;
[0027]基于所述假正例值从各个聚类簇中确定出目标字符串,并将各个聚类簇中除所述目标字符串之外的字符串从所述黑样本集中删除。
[0028]可选的,在所述对所述黑样本集和白样本集中的字符串进行聚类,得到多个黑样本字符簇和多个白样本字符簇之后,还包括:
[0029]在所述黑样本字符簇中的字符串的个数少于阈值时,为所述黑样本字符簇补足剩余个数的字符串;其中,所述剩余个数为所述黑样本字符簇中的字符串的个数与阈值之间的差值。
[0030]可选的,所述为所述黑样本字符簇补足剩余个数的字符串,包括:
[0031]查询所述黑样本字符簇中的字符串是否位于白样本字符簇;
[0032]如果是,将所述白样本字符簇中的字符串补充到所述黑样本中,直至所述黑样本中的字符串的个数达到阈值。
[0033]可选的,在基于所述字符串组合生成对应的风险规则之后,还包括:
[0034]对生成的风险规则进行压缩,以减少相同或相似的风险规则的数据量。
[0035]可选的,所述对生成的风险规则进行压缩,包括:
[0036]当任一风险规则包含另一个风险规则时,保留最小长度的风险规则;
[0037]当任一风险规则命中的文件集覆盖另一个风险规则命中的文件集时,保留命中文件集数量最多的风险规则;
[0038]当多个风险规则存在交集时,提取相同部分的规则内容,不同部分的规则内容用逻辑或组合,合并为新的风险规则。
[0039]可选的,所述对生成的风险规则进行压缩,包括:
[0040]在属于相同样本簇的多个风险规则中存在相同部分的规则内容时,将所述相同部分的规则内容替换为同一标识,并为该标识唯一关联被替换的规则内容。
[0041]可选的,所述将所述风险规则加入已有的风险规则集合中,包括:
[0042]获取已有的风险规则集合对应的风控平台支持的规则格式;
[0043]将所生成的风险规则转换为所述风控平台支持的规则格式的风险规则,并将转换
后的风险规则加入所述风控平台中已有的风险规则集合中。
[0044]根据本说明书实施例的第二方面,提供一种风险识别装置,所述装置包括:
[0045]获取单元,获取白样本集和黑样本集;
[0046]聚类单元,对所述黑样本集和白样本集中的字符串进行聚类,得到多个黑样本字符簇和多个白样本字符簇;
[0047]计算单元,计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值,将假正例值符合要求的黑样本字符簇中的字符串进行组合,得到字符串组合;
[0048]识别单元,基于所述字符串组合生成对应的风险规则,识别网络中存在的恶意软件。
[0049]根据本说明书实施例的第三方面,提供一种电子设备,包括:
[0050]处理器;
[0051]用于存储处理器可执行指令的存储器;
[0052]其中,所述处理器被配置为上述任一项风险识别方法。
[0053]根据本说明书实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一项风险识别方法。
[0054]本说明书实施例,提供了一种风险识别方案,利用黑样本字符簇中的字符串在白样本字符簇中的假正例值来判断黑样本字符本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种风险识别方法,所述方法包括:获取白样本集和黑样本集;对所述黑样本集和白样本集中的字符串进行聚类,得到多个黑样本字符簇和多个白样本字符簇;计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值,并将假正例值符合要求的黑样本字符簇中的字符串进行组合,得到字符串组合;基于所述字符串组合生成对应的风险规则,识别网络中存在的恶意软件。2.根据权利要求1所述的方法,还包括:将所述黑样本集和白样本集输入到预先构建的集成模型中进行计算,以得到所述集成模型从所述黑样本集中识别的属于自然语言类型的字符串,和从所述白样本集中识别的属于自然语言类型的字符串;其中,所述集成模型包括多个自然语言模型进行集成学习得到的模型;将从所述黑样本集中识别的属于自然语言类型的字符串构建新的黑样本集;以及将从所述白样本集中识别的属于自然语言类型的字符串构建新的白样本集;所述对所述黑样本集和白样本集中的字符串进行聚类,包括:对所述新的黑样本集和新的白样本集中的字符串进行聚类。3.根据权利要求1所述的方法,还包括:过滤所述多个白样本字符簇中未包含黑样本集中的字符串的白样本字符簇;所述计算所述多个黑样本字符簇中的字符串在所述白样本字符簇中的假正例值,包括:计算所述多个黑样本字符簇中的字符串在过滤后的白样本字符簇中的假正例值。4.根据权利要求1所述的方法,在所述对所述黑样本集和白样本集中的字符串进行聚类之前,还包括:对所述黑样本集中的相似字符串进行去重。5.根据权利要求4所述的方法,所述对所述黑样本集中的相似字符串进行去重,包括:获取所述黑样本集中的各个字符串对应的重要度;其中,所述重要度表征的是字符串的重要程度;基于重要度对黑样本集中的字符串进行聚类,将相同重要度的字符串加入到一个聚类簇中;计算各个聚类簇中的字符串在白样本集中的假正例值;基于所述假正例值从各个聚类簇中确定出目标字符串,并将各个聚类簇中除所述目标字符串之外的字符串从所述黑样本集中删除。6.根据权利要求1所述的方法,在所述对所述黑样本集和白样本集中的字符串进行聚类,得到多个黑样本字符簇和多个白样本字符簇之后,还包括:在所述黑样本字符簇中的字符串的个数少于阈值时,为所述黑样本字符簇补足剩余个数的字符串;其中,所述剩余个数为所述黑样本字符簇中的字符串的个数与...

【专利技术属性】
技术研发人员:孟雷
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1