一种黑产用户识别方法、TEE节点及计算机可读存储介质技术

技术编号:31584019 阅读:23 留言:0更新日期:2021-12-25 11:28
本发明专利技术提供一种黑产用户识别方法、TEE节点及计算机可读存储介质,所述方法包括:获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;基于所述样本数据集建立决策树模型;接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,得到所述待识别的用户数据的识别结果。该方法、TEE节点及计算机可读存储介质能够解决现有的黑产用户识别方法仅依靠运营商内部的特征进行建模分析,识别结果难免片面,存在识别不准确或识别率不高的问题。存在识别不准确或识别率不高的问题。存在识别不准确或识别率不高的问题。

【技术实现步骤摘要】
一种黑产用户识别方法、TEE节点及计算机可读存储介质


[0001]本专利技术涉及网络安全
,尤其涉及一种黑产用户识别方法、TEE节点及计算机可读存储介质。

技术介绍

[0002]近年来,针对运营商服务的各种类型的黑产行为愈演愈烈,严重影响运营商品牌形象、造成运营商和用户大量经济损失。其中黑产用户由于类型较多(如薅羊毛、欺诈电话等),目前比较常见的方式是针对运营商内部可获取的特征建模分析,这种方式仅依靠运营商内部的特征,识别结果难免片面,存在识别不准确或识别率不高等问题。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的上述不足,提供一种黑产用户识别方法、TEE节点及计算机可读存储介质,用以解决现有的黑产用户识别方法仅依靠运营商内部的特征进行建模分析,识别结果难免片面,存在识别不准确或识别率不高的问题。
[0004]第一方面,本专利技术提供一种黑产用户识别方法,应用于可信执行环境TEE集群中任意一个TEE节点,所述方法包括:
[0005]获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;
[0006]基于所述样本数据集建立决策树模型;
[0007]接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,得到所述待识别的用户数据的识别结果。
[0008]优选地,所述运营商侧特征数据包括手机号、所述手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长以及IP跨省次数;所述银行侧特征数据包括所述手机号、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数;
[0009]所述获取样本数据集具体包括:
[0010]采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐,得到所述样本数据集;
[0011]其中,所述对齐后的运营商侧特征数据和银行侧特征数据具体包括:所述手机号、所述手机号对应用户所拥有的手机号个数、所述第一上线次数、所述第一平均在线时长、所述IP跨省次数、所述第二上线次数、所述第二平均在线时长、所述注册天数、所述账户余额和所述信用卡逾期次数。
[0012]优选地,所述TEE集群至少包括运营商侧TEE节点和银行侧TEE节点,所述任意一个TEE节点为运营商侧TEE节点或银行侧TEE节点。
[0013]优选地,所述任意一个TEE节点为运营商侧TEE节点;
[0014]所述采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐之前,所述方法还包括:
[0015]获取一天内的所有固网数据,所述固网数据包括手机号、用户标识、IP地址、上线时间、下线时间、在线时长以及所在省份;
[0016]根据所有所述固网数据中的所述用户标识获取每个手机号对应用户所拥有的手机号个数;
[0017]根据所有所述固网数据统计所述一天内每个所述手机号的上线次数,得到对应的所述第一上线次数;
[0018]根据以下公式计算每个所述手机号对应的所述第一平均在线时长:
[0019][0020]其中,Time_online
i
为所述手机号的第i次上线时间,Time_offline
i
为所述手机号的第i次下线时间,T_DaysOnline为所述手机号对应的所述第一上线次数;
[0021]根据所有所述固网数据中的IP地址以及所在省份获取每个所述手机号对应的所述IP跨省次数。
[0022]优选地,所述任意一个TEE节点为银行侧TEE节点;
[0023]所述采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐之前,所述方法还包括:
[0024]获取一天内的银行APP数据,所述银行APP数据包括手机号、用户标识、注册日期、上线时间、下线时间、账户余额和信用卡逾期次数;
[0025]根据所述银行APP数据统计所述一天内每个手机号的上线次数,得到对应的所述第二上线次数;
[0026]根据以下公式计算每个所述手机号对应的所述第二平均在线时长:
[0027][0028]其中,Time_online
i
为所述手机号的第i次上线时间,Time_offline
i
为所述手机号的第i次下线时间,B_DaysOnline为所述手机号对应的所述第二上线次数;
[0029]根据以下公式计算每个所述手机号对应的所述注册天数:
[0030]RegisterDays=DateToday

RegisterDate
[0031]其中,DateToday为当前日期,RegisterDate为所述注册日期。
[0032]优选地,所述基于所述样本数据集建立决策树模型,具体包括:
[0033]遍历所述样本数据集中的所有特征,并根据以下公式计算遍历到的特征的信息增益:
[0034]g(D,A)=H(D)

H(D|A)
[0035]其中,是样本数据集D的经验熵,|D|代表样本数据集D的样本个数,|C
k
|代表类别为k的部分数据集样本个数;是遍历到的特征A对样本数据集D的经验条件熵,根据特征A可以将D划分为n个子集D1,D2,

,D
n
,|D
i
|是子集D
i
的样本个数;
[0036]使用信息增益最大的特征来进行划分,重复此过程,直到所述样本数据集中所有的样本都被划分完毕或达到最大的训练次数,得到所述决策树模型。
[0037]第二方面,本专利技术提供一种TEE节点,包括:
[0038]数据集获取模块,用于获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;
[0039]模型建立模块,与所述数据集获取模块连接,用于基于所述样本数据集建立决策树模型;
[0040]识别模块,与所述模型建立模块连接,用于接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,得到所述待识别的用户数据的识别结果。
[0041]第三方面,本专利技术提供一种TEE节点,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的黑产用户识别方法。
[0042]第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的黑产用户识别方法。
[0043]本专利技术提供的黑产用户识别方法、TEE节点及计算机可读存储介质,通过获取样本数据集,其中,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种黑产用户识别方法,其特征在于,应用于可信执行环境TEE集群中任意一个TEE节点,所述方法包括:获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;基于所述样本数据集建立决策树模型;接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,得到所述待识别的用户数据的识别结果。2.根据权利要求1所述的黑产用户识别方法,其特征在于,所述运营商侧特征数据包括手机号、所述手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长以及IP跨省次数;所述银行侧特征数据包括所述手机号、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数;所述获取样本数据集具体包括:采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐,得到所述样本数据集;其中,所述对齐后的运营商侧特征数据和银行侧特征数据具体包括:所述手机号、所述手机号对应用户所拥有的手机号个数、所述第一上线次数、所述第一平均在线时长、所述IP跨省次数、所述第二上线次数、所述第二平均在线时长、所述注册天数、所述账户余额和所述信用卡逾期次数。3.根据权利要求2所述的黑产用户识别方法,其特征在于,所述TEE集群至少包括运营商侧TEE节点和银行侧TEE节点,所述任意一个TEE节点为运营商侧TEE节点或银行侧TEE节点。4.根据权利要求3所述的黑产用户识别方法,其特征在于,所述任意一个TEE节点为运营商侧TEE节点;所述采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐之前,所述方法还包括:获取一天内的所有固网数据,所述固网数据包括手机号、用户标识、IP地址、上线时间、下线时间、在线时长以及所在省份;根据所有所述固网数据中的所述用户标识获取每个手机号对应用户所拥有的手机号个数;根据所有所述固网数据统计所述一天内每个所述手机号的上线次数,得到对应的所述第一上线次数;根据以下公式计算每个所述手机号对应的所述第一平均在线时长:其中,Time_online
i
为所述手机号的第i次上线时间,Time_offline
i
为所述手机号的第i次下线时间,T_DaysOnline为所述手机号对应的所述第一上线次数;根据所有所述固网数据中的IP地址以及所在省份获取每个所述手机号对应的所述IP跨省次数。
5.根据权利要求3所述的黑产用户识别方法,其特征在于,所述任意一个TEE节点为银行侧TEE节点;所述采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐之前,所述方法还包括:获取一天内的银行APP数据,所述银行APP数据包括手机号、用户标识、注册日期、上线时间、下线时间、账户余额和信用卡逾期次数;根据所述银行APP数据统计所述一天内每个手机号的上线次数,得到对应的所述第二上线次数;根据以下公式计算每个所述手机号对应的所述第二平均在线时长:其中,Time_online
i

【专利技术属性】
技术研发人员:史金雨徐雷陶冶高泽恺张立彤边林刘伟
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1