一种黑产识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37564929 阅读:9 留言:0更新日期:2023-05-15 07:45
本公开提供了一种黑产识别方法、装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及网络安全技术。具体实现方案包括:对目标业务场景下当前统计周期内的业务流量数据进行聚类,得到至少一个目标聚类簇;将所述目标聚类簇与参考聚类簇进行匹配;所述参考聚类簇包括已设置的黑产标签;基于匹配结果,根据匹配的参考聚类簇的黑产标签确定目标聚类簇的黑产标签;根据目标聚类簇及其黑产标签,对当前统计周期后续的实时业务流量进行黑产识别;根据所述目标聚类簇的参数更新匹配的参考聚类簇的参数,并进入下一统计周期。本公开方案可以从海量的实时流量数据中精准挖掘出黑产流量,进而可有效发现网络活动中的黑产用户。进而可有效发现网络活动中的黑产用户。进而可有效发现网络活动中的黑产用户。

【技术实现步骤摘要】
一种黑产识别方法、装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及网络安全技术,具体涉及一种黑产识别方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]目前,如黑产经常会使用IP池、肉机、群控等方式批量驱动客户端来对站点发起请求,从而达到爬取网站内容、广告点击欺诈、薅羊毛等目的。其中,黑产即黑色产业,通常是指利用病毒木马等来获取利益的行业。

技术实现思路

[0003]本公开提供了一种黑产识别方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面,提供了一种黑产识别方法,包括:
[0005]对目标业务场景下当前统计周期内的业务流量数据进行聚类,得到至少一个目标聚类簇;
[0006]将所述目标聚类簇与参考聚类簇进行匹配;所述参考聚类簇包括已设置的黑产标签;
[0007]基于匹配结果,根据匹配的参考聚类簇的黑产标签确定目标聚类簇的黑产标签;
[0008]根据目标聚类簇及其黑产标签,对当前统计周期后续的实时业务流量进行黑产识别;
[0009]根据所述目标聚类簇的参数更新匹配的参考聚类簇的参数,并进入下一统计周期。
[0010]根据本公开的一方面,提供了一种黑产识别装置,包括:
[0011]聚类模块,用于对目标业务场景下当前统计周期内的业务流量数据进行聚类,得到至少一个目标聚类簇;
[0012]匹配模块,用于将所述目标聚类簇与参考聚类簇进行匹配;所述参考聚类簇包括已设置的黑产标签;
[0013]标签确定模块,用于基于匹配结果,根据匹配的参考聚类簇的黑产标签确定目标聚类簇的黑产标签;
[0014]识别模块,用于根据目标聚类簇及其黑产标签,对当前统计周期后续的实时业务流量进行黑产识别;
[0015]更新模块,用于根据所述目标聚类簇的参数更新匹配的参考聚类簇的参数,并进入下一统计周期。
[0016]根据本公开的另一方面,提供了一种电子设备,包括:
[0017]至少一个处理器;以及
[0018]与至少一个处理器通信连接的存储器;其中,
[0019]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以
使至少一个处理器能够执行本公开任意实施例的黑产识别方法。
[0020]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开任意实施例的黑产识别方法。
[0021]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开任意实施例的黑产识别方法。
[0022]根据本公开的技术,可以从当天海量的实时流量数据中精准挖掘出黑产流量,进而可有效发现网络活动中的黑产用户。
[0023]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0024]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0025]图1是本公开实施例提供的一种黑产识别方法的流程示意图;
[0026]图2是本公开实施例提供的又一种黑产识别方法的流程示意图;
[0027]图3是本公开实施例提供的又一种黑产识别方法的流程示意图;
[0028]图4是本公开实施例提供的又一种黑产识别方法的流程示意图;
[0029]图5是本公开实施例提供的一种黑产识别装置的结构示意图;
[0030]图6是用来实现本公开实施例的黑产识别方法的电子设备的框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032]图1为本公开实施例的一种黑产识别方法的流程示意图,本实施例可适用于从网络活动产生的业务流量中识别出黑产流量的情况。该方法可由一种黑产识别装置来执行,该装置采用软件和/或硬件的方式实现,并集成在电子设备上,例如集成在服务器设备上。
[0033]具体的,参见图1,黑产识别方法如下步骤:
[0034]S101、对目标业务场景下当前统计周期内的业务流量数据进行聚类,得到至少一个目标聚类簇。
[0035]本实施例中,目标业务场景示例性的为机器翻译场景或者经验分享场景,也可以为网络投票、拼单、评论等业务场景,在此不做具体限定。目标业务场景提供大量的数据接口,以便用户(包括正常用户和黑产用户)通过请求这些数据接口完成相应的业务,而用户请求数据接口产生的流量数据即是目标业务场景下的业务流量数据,业务流量数据中可以包括用户的接口请求。而统计周期可选的是天级别,也可以是小时级别,在此不做具体限定。针对当前统计周期所统计的目标业务场景下的业务流量数据,可以采用视角聚类方式或单视角聚类方式进行数据聚类,得到至少一个目标聚类簇。
[0036]S102、将所述目标聚类簇与参考聚类簇进行匹配;所述参考聚类簇包括已设置的黑产标签。
[0037]本实施例在中,参考聚类簇以及参考聚类簇的黑产标签是预先对全量历史业务流量数据进行聚类分析确定或人工确定;所述黑产标签的类型包括正常簇、异常簇和离群簇中的至少一种。其中,黑产标签为正常簇,则表示该黑产标签对应的参考聚类簇下的流量数据是正常用户请求相关数据接口产生;黑产标签为异常簇,则表示该黑产标签对应的参考聚类簇下的流量数据是黑产用户请求相关数据接口产生;黑产标签为离群簇,则表示该黑产标签对应的参考聚类簇下的流量数据是极端情况产生。
[0038]本实施例中,将所述目标聚类簇与参考聚类簇进行匹配,其目的是确定与目标聚类簇最相似的参考聚类簇,以便确定目标聚类簇对应的黑产标签。在一种可选的实施方式中,在进行匹配时,可以将所述目标聚类簇的聚类中心与所述参考聚类簇的聚类中心进行相似度匹配,例如计算目标聚类簇的聚类中心与每个参考聚类簇的聚类中心的欧式距离,并利用欧式距离的大小确定相似度大小。
[0039]S103、基于匹配结果,根据匹配的参考聚类簇的黑产标签确定目标聚类簇的黑产标签。
[0040]可选的,基于匹配结果,将匹配的参考聚类簇的黑产标签赋值给目标聚类簇的黑产标签。
[0041]S104、根据目标聚类簇及其黑产标签,对当前统计周期后续的实时业务流量进行黑产识别。
[0042]可选的,首先确定所述实时业务流量数据所属的目标聚类簇;再根据所述目标聚类簇的黑产标签,确定所述实时业务流量数据是否为黑产流量数据。
[0043]进一步的,在从实时业务流量数据中确定黑产流量数据后,可以生成相应的黑产情报,并指示安全防御服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种黑产识别方法,包括:对目标业务场景下当前统计周期内的业务流量数据进行聚类,得到至少一个目标聚类簇;将所述目标聚类簇与参考聚类簇进行匹配;所述参考聚类簇包括已设置的黑产标签;基于匹配结果,根据匹配的参考聚类簇的黑产标签确定目标聚类簇的黑产标签;根据目标聚类簇及其黑产标签,对当前统计周期后续的实时业务流量进行黑产识别;根据所述目标聚类簇的参数更新匹配的参考聚类簇的参数,并进入下一统计周期。2.根据权利要求1所述的方法,其中,对目标业务场景下当前统计周期内的业务流量数据进行聚类,得到至少一个目标聚类簇,包括:按照预设统计维度,对目标业务场景下当前统计周期内的业务流量数据中的接口请求分布进行统计;根据第一聚类方法和所述第一聚类方法对应的聚类参数,对统计出的接口请求分布进行聚类,得到至少一个第一聚类簇;根据第二聚类方法和所述第二聚类方法对应的聚类参数,对统计出的接口请求分布进行聚类,得到至少一个第二聚类簇;对所述第一聚类簇和所述第二聚类簇进行融合,得到至少一个目标聚类簇。3.根据权利要求2所述的方法,其中,所述第一聚类方法为基于划分的聚类方法,所述基于划分的聚类方法对应的聚类参数为聚类中心数量;所述第二聚类方法为基于密度的聚类方法,所述基于密度的聚类方法对应的聚类参数包括聚类搜索半径和聚类簇的最小样本点数。4.根据权利要求3所述的方法,其中,对所述第一聚类簇和所述第二聚类簇进行融合,得到至少一个目标聚类簇,包括:将任一第二聚类簇作为当前聚类簇,若所述当前聚类簇与至少一个第一聚类簇存在交集,则根据存在交集的至少一个第一聚类簇,对所述当前聚类簇中的样本点进行重新聚类,得到至少一个目标聚类簇。5.根据权利要求1所述的方法,其中,基于匹配结果,根据匹配的参考聚类簇的黑产标签确定目标聚类簇的黑产标签,包括:基于匹配结果,将匹配的参考聚类簇的黑产标签赋值给目标聚类簇的黑产标签;其中,所述参考聚类簇的黑产标签是预先对全量历史业务流量数据进行聚类分析确定或人工确定;所述黑产标签的类型包括正常簇、异常簇和离群簇中的至少一种。6.根据权利要求1所述的方法,其中,根据目标聚类簇及其黑产标签,对当前统计周期后续的实时业务流量进行黑产识别,包括:确定所述实时业务流量数据所属的目标聚类簇;根据所述目标聚类簇的黑产标签,确定所述实时业务流量数据是否为黑产流量数据。7.根据权利要求6所述的方法,其中,确定所述实时业务流量数据所属的目标聚类簇,包括:确定所述实时业务流量数据中接口请求分布与每个目标聚类簇的相似度;根据所述相似度,确定所述实时业务流量数据所属的目标聚类簇。8.根据权利要求7所述的方法,其中,确定所述实时业务流量数据中接口请求分布与每
个目标聚类簇的相似度,包括:根据每个目标聚类簇的参数和黑产标签,确定每个目标聚类簇的簇向量;按照预设统计维度,对所述实时业务流量数据中的接口请求分布进行统计;在任一统计维度的接口请求数量达到预设数量阈值,根据该统计维度对应的接口请求分布确定目标向量;根据所述目标向量和每个目标聚类簇的簇向量,确定该统计维度下的接口请求分布与每个目标聚类簇的相似度。9.根据权利要求1所述的方法,其中,将所述目标聚类簇与参考聚类簇进行匹配包括:将所述目标聚类簇的聚类中心与所述参考聚类簇的聚类中心进行相似度匹配。10.根据权利要求1所述的方法,其中,根据所述目标...

【专利技术属性】
技术研发人员:程浩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1