黑产用户识别方法、系统、电子设备及存储介质技术方案

技术编号:31810294 阅读:18 留言:0更新日期:2022-01-08 11:13
本公开提供一种黑产用户识别方法、系统、电子设备及计算机可读存储介质,以解决黑产识别准确率低的技术问题,所述方法包括:采集用户数据进行处理得到本地用户数据集;设定本地识别模型的目标函数,使用含有黑产标签的本地用户数据训练,得出目标函数的系数;将本地用户数据集中包含用户属性信息的数据进行加密后与训练后的本地识别模型上传到联邦学习平台,并与平台上其他运营商上传的识别模型和加密后的用户数据集进行联合建模,训练后得到联合模型系数;根据联合模型系数对本地识别模型目标函数的系数进行更新;再对本地用户数据进行黑产用户识别。本公开技术方案保证用户隐私和数据安全条件下为客户提供更准确的黑产用户识别。户识别。户识别。

【技术实现步骤摘要】
黑产用户识别方法、系统、电子设备及存储介质


[0001]本公开涉及网络安全
,具体涉及一种黑产用户识别方法,一种黑产用户识别系统,一种电子设备以及一种计算机可读存储介质。

技术介绍

[0002]网络中的黑产用户包括盗取正常用户信息的用户、恶意刷赞、刷评或刷粉用户、色情交易类用户、专业养号类用户、群发链接用户以及诈骗用户,黑产用户的行为严重影响用户正常体验,为网络健康发展带来重大隐患。为了网络健康持续发展,改善用户网络环境体验,需要将黑产用户识别出来进行治理。
[0003]目前对于黑产治理主要依托情报收集、作恶信息收集、黑产信息(IP和手机号)库等技术手段;对于情报收集,也就是所谓的众标众享,主要来自于互联网厂商,准确率不高,运营商使用容易引发用户投诉;对于作恶信息收集,容易产生事后处理,及时性不高,对社会威胁伤害大;而对于黑产信息库手段来说,恶意用户具有分散性、潜伏性、复杂性等特点,单方的数据很难满足检测要求,并且由于用户隐私和数据安全也极为重要,信息库数据收集有限,识别的准确率低,识别效率不高,难以满足在保证用户隐私和数据安全条件下黑产用户的检测要求。因此,亟需一种新的黑产用户识别方法。

技术实现思路

[0004]为了至少解决现有技术中对黑产用户识别的准确率低,识别效率不高的技术问题,本公开提供一种黑产用户识别方法、黑产用户识别系统、电子设备及计算机可读存储介质,能够在保证用户隐私和数据安全条件下通过联合学习优化本地学习模型,为企业客户提供更准确和快捷的黑产用户识别,为运营商净化网络空间,减少财产损失。
[0005]第一方面,本公开提供一种黑产用户识别方法,所述方法包括:
[0006]采集用户固网数据,对其进行处理后得到本地用户数据集;
[0007]设定本地识别模型的目标函数,并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练,得出本地识别模型目标函数的系数;
[0008]将本地用户数据集中包含用户属性信息的数据进行加密,将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台,以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后的用户数据集进行联合建模得到联合模型,再通过所有运营商上传的用户数据对联合模型进行训练,得到联合模型目标函数的系数并返回给各个运营商;
[0009]获取联合模型目标函数的系数,根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新;
[0010]通过已更新的本地识别模型,对本地用户数据集中的用户数据进行黑产用户识别。
[0011]进一步的,对用户固网数据进行处理后得到本地用户数据集,包括:
[0012]对用户固网数据进行预处理后存入本地用户数据库;
[0013]对本地用户数据库中的数据进行归一化处理,得到本地用户数据集;
[0014]其中,所述用户固网数据包括:宽带账户名、绑定的手机号、在线时长、变更IP次数、平均上线时长、IP跨省数和IP省份中的任意一种或多种。
[0015]进一步的,所述对本地用户数据库中的数据进行归一化处理,包括:
[0016]对于在线时长,将在线时长与数据采集时间间隔的比值作为在线时长的归一化数值;
[0017]对于变更IP次数、平均在线时长和IP跨省数,分别计算出各自对应的全量用户的平均值,然后将各自的原值分别与各自对应的全量用户的平均值的比值作为各自的归一化数值;
[0018]对于绑定的手机号,根据已有黑产库中对应号码与所述绑定的手机号的前三位数相同的黑产用户的数量占比作为其归一化数值;
[0019]对于IP省份,根据已有黑产库中对应相同IP省份的黑产用户的数量占比作为其归一化数值。
[0020]进一步的,所述本地识别模型的目标函数为:
[0021]h
θ
(x)=θ0+θ1*A1+θ2*A2+θ3*A3+


n
*An,
[0022]其中,h
θ
(x)为本地识别模型的目标函数,表示疑似黑产用户可能性,A1、A2、A3

An分别为用户固网数据中各项数据的归一化数值,θ0、θ1、

、θ
n
分别为用户固网数据中各项数据的待确定系数。
[0023]进一步的,在通过已更新的本地识别模型,对本地用户数据集中的用户数据进行黑产用户识别之后,还包括:
[0024]将识别出的疑似黑产用户与黑产用户数据库中的黑产用户进行比对,若疑似黑产用户未在黑产用户数据库中,则对所述疑似黑产用户进行验证,验证通过后将其添加至黑产用户数据库。
[0025]进一步的,所述方法还包括:
[0026]将黑产用户数据库中的黑产用户的用户属性信息按预设加密算法进行加密,所述用户属性信息包括宽带账户名;
[0027]接收外部用户发送的黑产用户查询请求,所述查询请求中包括按所述预设加密算法加密的待查询宽带账户名;
[0028]将所述查询请求中加密后的待查询宽带账户名与黑产用户数据库中对应的加密数据进行对比,识别出此外部用户是否涉及黑产,并将识别结果返回到外部用户。
[0029]进一步的,所述预设加密算法为国密椭圆曲线公钥密码算法。
[0030]第二方面,本公开提供一种黑产用户识别系统,包括:
[0031]数据采集与处理模块,其设置为采集用户固网数据,对其进行处理后得到本地用户数据集;
[0032]训练模块,其设置为设定本地识别模型的目标函数,并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练,得出本地识别模型目标函数的系数;
[0033]联邦学习模块,其设置为将本地用户数据集中包含用户属性信息的数据进行加
密,将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台,以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后用户数据集进行联合建模得到联合模型,再通过所有运营商上传的用户数据对联合模型进行训练,得到联合模型目标函数的系数并返回给各个运营商;
[0034]更新模块,其设置为获取联合模型目标函数的系数,根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新;
[0035]识别模块,其设置为通过已更新的本地识别模型,对本地用户数据集中的用户数据进行黑产用户识别。
[0036]第三方面,本公开提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如第一方面中任一所述的黑产用户识别方法。
[0037]第四方面,本公开提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的黑产用户识别方法。
[0038]有益效果:
[0039]本公开提供的黑产用户识别方法、黑产用户识别系统、电子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种黑产用户识别方法,其特征在于,所述方法包括:采集用户固网数据,对其进行处理后得到本地用户数据集;设定本地识别模型的目标函数,并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练,得出本地识别模型目标函数的系数;将本地用户数据集中包含用户属性信息的数据进行加密,将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台,以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后的用户数据集进行联合建模得到联合模型,再通过所有运营商上传的用户数据对联合模型进行训练,得到联合模型目标函数的系数并返回给各个运营商;获取联合模型目标函数的系数,根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新;通过已更新的本地识别模型,对本地用户数据集中的用户数据进行黑产用户识别。2.根据权利要求1所述的方法,其特征在于,对用户固网数据进行处理后得到本地用户数据集,包括:对用户固网数据进行预处理后存入本地用户数据库;对本地用户数据库中的数据进行归一化处理,得到本地用户数据集;其中,所述用户固网数据包括:宽带账户名、绑定的手机号、在线时长、变更IP次数、平均上线时长、IP跨省数和IP省份中的任意一种或多种。3.根据权利要求2所述的方法,其特征在于,所述对本地用户数据库中的数据进行归一化处理,包括:对于在线时长,将在线时长与数据采集时间间隔的比值作为在线时长的归一化数值;对于变更IP次数、平均在线时长和IP跨省数,分别计算出各自对应的全量用户的平均值,然后将各自的原值分别与各自对应的全量用户的平均值的比值作为各自的归一化数值;对于绑定的手机号,根据已有黑产库中对应号码与所述绑定的手机号的前三位数相同的黑产用户的数量占比作为其归一化数值;对于IP省份,根据已有黑产库中对应相同IP省份的黑产用户的数量占比作为其归一化数值。4.根据权利要求1所述的方法,其特征在于,所述本地识别模型的目标函数为:h
θ
(x)=θ0+θ1*A1+θ2*A2+θ3*A3+


n
*An,其中,h
θ
(x)为本地识别模型的目标函数,表示疑似黑产用户可能性,A1、A2、A3...An分别为用户固网数据中各项数据的归一化数值,θ0、θ1、...、θ
n
分别为用户固网数据中各项数...

【专利技术属性】
技术研发人员:高泽恺徐雷陶冶王智明边林张立彤
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1