一种识别恶意用户的方法、装置及存储介质制造方法及图纸

技术编号:20177768 阅读:18 留言:0更新日期:2019-01-23 00:40
本发明专利技术实施例提供了一种识别恶意用户的方法、装置及存储介质,该方法包括:获取训练样本集,训练样本集包括训练样本的特征以及与训练样本对应的标签,所述训练样本对应的标签用于标识用户是否为恶意用户;从训练样本集中确定最优的切分特征与切分阈值;将训练样本集分裂处理,得到第一样本集和第二样本集,将第一样本集和所述第二样本集中各特征的均值作为目标输出值;根据目标输出值判断用户的是否为恶意用户;将第一样本集和第二样本集中判断为恶意用户的训练样本对应的标签设置为恶意用户,以及将判断为非恶意用户的训练样本对应的标签设置为非恶意用户。通过采用该方案,能够准确的分析用户的行为特征,根据行为特征识别出恶意用户。

【技术实现步骤摘要】
一种识别恶意用户的方法、装置及存储介质
本专利技术涉及软件
,尤其涉及一种识别恶意用户的方法、装置及存储介质。
技术介绍
在直播平台发展过程中,一些黑产团体为了达到私人目的,常常会批量注册许多平台账号,使用这些账号刷评论、刷弹幕和刷人气等恶意行为,企图刷高某个直播间的热度,使得整个直播平台的资源出现不平等的现象,从中获利。直播平台需要对这些恶意账号的用户进行封禁处理,然而,恶意账号的行为难以从海量数据中直接挖掘。利用算法进行恶意用户挖掘是一个可行的思路。恶意用户由于是黑产批量操作,其行为与动作往往具有一定的相似性,与正常用户的行为模式有一定差异。常见的恶意用户分类算法有决策树、支撑向量机、感知机等算法。这些算法往往是基于对恶意用户的判别,无法给出连续分布的恶意用户评价指标,基于这些算法创建的模型针对恶意用户的挖掘结果难以人工调控。并且挖掘结果的可解释性较差,无法自动形成对判别结果的理由解释。
技术实现思路
本专利技术实施例提供了一种识别恶意用户的方法、装置及存储介质,用于解决现有机制中挖掘恶意用户的准确性较低的问题。第一方面,本专利技术提供了一种识别恶意用户的方法,该方法包括:获取训练样本集,所述训练样本集为回归树结构,所述训练样本集包括训练样本的特征以及与训练样本对应的标签,所述训练样本对应的标签用于标识用户是否为恶意用户;从所述训练样本集中确定最优的切分特征与切分阈值;将所述训练样本集分裂处理,得到第一样本集和第二样本集,所述第一样本集是指特征的取值不小于所述切分阈值的特征集,所述第二样本集是指特征的取值大于所述切分阈值的特征集;将所述第一样本集和所述第二样本集中各特征的均值作为目标输出值;根据所述目标输出值判断用户的是否为恶意用户;将所述第一样本集和所述第二样本集中判断为恶意用户的训练样本对应的标签设置为恶意用户,以及将所述第一样本集和所述第二样本集中判断为非恶意用户的训练样本对应的标签设置为非恶意用户。在一些可能的设计中,所述目标输出值用于评估用户的恶意等级。在一些可能的设计中,所述训练样本的特征至少包括用户的异常弹幕数量、用户播放数量、用户在第一时段内发表的评论数量、用户在第二时段内发表的相同评论数量和用户账户余额。在一些可能的设计中,所述方法还包括:设置封禁阈值;所述根据所述目标输出值判断用户的是否为恶意用户,包括:若所述目标输出值大于所述封禁阈值,则确定用户的恶意等级满足恶意用户的判断条件。在一些可能的设计中,所述训练样本包括第一特征、第二特征和第三特征,所述根据所述目标输出值判断用户的是否为恶意用户之后,方法还包括:生成反馈结果,所述反馈结果包括:所述第一特征的取值不大于第一数值,所述第二特征大于第二数值,所述第三特征不大于第三数值。第二方面,本专利技术实施例提供了一种用于识别恶意用户的装置,具有实现对应于上述第一方面提供的识别恶意用户的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述装置包括:获取模块,用于获取训练样本集,所述训练样本集为回归树结构,所述训练样本集包括训练样本的特征以及与训练样本对应的标签,所述训练样本对应的标签用于标识用户是否为恶意用户;处理模块,用于从所述训练样本集中确定最优的切分特征与切分阈值;将所述训练样本集分裂处理,得到第一样本集和第二样本集,所述第一样本集是指特征的取值不小于所述切分阈值的特征集,所述第二样本集是指特征的取值大于所述切分阈值的特征集;将所述第一样本集和所述第二样本集中各特征的均值作为目标输出值;根据所述目标输出值判断用户的是否为恶意用户;将所述第一样本集和所述第二样本集中判断为恶意用户的训练样本对应的标签设置为恶意用户,以及将所述第一样本集和所述第二样本集中判断为非恶意用户的训练样本对应的标签设置为非恶意用户。在一些可能的设计中,所述目标输出值用于评估用户的恶意等级。在一些可能的设计中,所述训练样本的特征至少包括用户的异常弹幕数量、用户播放数量、用户在第一时段内发表的评论数量、用户在第二时段内发表的相同评论数量和用户账户余额。在一些可能的设计中,所述处理模块用于:设置封禁阈值;若所述目标输出值大于所述封禁阈值,则确定用户的恶意等级满足恶意用户的判断条件。在一些可能的设计中,所述训练样本包括第一特征、第二特征和第三特征,所述处理模块在根据所述目标输出值判断用户的是否为恶意用户之后,还用于:生成反馈结果,所述反馈结果包括:所述第一特征的取值不大于第一数值,所述第二特征大于第二数值,所述第三特征不大于第三数值。第三方面,本专利技术实施例提供了一种用于识别恶意用户的装置,包括处理器所述处理器用于执行存储器中存储的计算机程序时实现如前述第一方面实施例或第二方面实施例中所述的识别恶意用户的方法中的步骤。第四方面,本专利技术实施例提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面实施例或第二方面实施例中所述的识别恶意用户的方法中的步骤。本专利技术实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:在本专利技术实施例的技术方案中,获取训练样本集后,从所述训练样本集中确定最优的切分特征与切分阈值;将所述训练样本集分裂处理,得到第一样本集和第二样本集,将所述第一样本集和所述第二样本集中各特征的均值作为目标输出值;根据所述目标输出值判断用户的是否为恶意用户;将所述第一样本集和所述第二样本集中判断为恶意用户的训练样本对应的标签设置为恶意用户,以及将所述第一样本集和所述第二样本集中判断为非恶意用户的训练样本对应的标签设置为非恶意用户。可见,能够基于海量数据分析用户的行为特征,根据用户的行为特征甄别恶意用户。此外,通过警告或封禁的方式维护论坛的网络环境,为用户提供良好的阅读环境。附图说明图1为本专利技术实施例中的一种识别恶意用户的方法的流程图;图2为本专利技术实施例中的回归树的一种结构示意图;图3为本专利技术实施例中的用于识别恶意用户的装置的一种结构示意图;图4为本专利技术实施例中的用于识别恶意用户的装置的一种结构示意图。具体实施方式本专利技术实施例提供了一种识别恶意用户的方法、装置及存储介质。本专利技术实施例中的识别恶意用户的方法可应用于大数据处理领域,例如基于海量数据分析用户的行为特征,根据用户的行为特征维护论坛或直播的网络环境,为用户提供良好的阅读环境或直播环境。下面通过附图以及具体实施例对本专利技术技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。为解决上述技术问题,本专利技术实施例中提供以下技术方案:基于回归树的恶意用户挖掘评估算法,该算法利用回归树作为基础模型,使得模型可以给出连续的恶意等级评价,另一方面利用树模型在节点分裂时候天然的可解释性优势,使得模型在分类样本的同时可以有效的得到样本本文档来自技高网...

【技术保护点】
1.一种识别恶意用户的方法,其特征在于,所述方法包括:获取训练样本集,所述训练样本集为回归树结构,所述训练样本集包括训练样本的特征以及与训练样本对应的标签,所述训练样本对应的标签用于标识用户是否为恶意用户;从所述训练样本集中确定最优的切分特征与切分阈值;将所述训练样本集分裂处理,得到第一样本集和第二样本集,所述第一样本集是指特征的取值不小于所述切分阈值的特征集,所述第二样本集是指特征的取值大于所述切分阈值的特征集;将所述第一样本集和所述第二样本集中各特征的均值作为目标输出值;根据所述目标输出值判断用户的是否为恶意用户;将所述第一样本集和所述第二样本集中判断为恶意用户的训练样本对应的标签设置为恶意用户,以及将所述第一样本集和所述第二样本集中判断为非恶意用户的训练样本对应的标签设置为非恶意用户。

【技术特征摘要】
1.一种识别恶意用户的方法,其特征在于,所述方法包括:获取训练样本集,所述训练样本集为回归树结构,所述训练样本集包括训练样本的特征以及与训练样本对应的标签,所述训练样本对应的标签用于标识用户是否为恶意用户;从所述训练样本集中确定最优的切分特征与切分阈值;将所述训练样本集分裂处理,得到第一样本集和第二样本集,所述第一样本集是指特征的取值不小于所述切分阈值的特征集,所述第二样本集是指特征的取值大于所述切分阈值的特征集;将所述第一样本集和所述第二样本集中各特征的均值作为目标输出值;根据所述目标输出值判断用户的是否为恶意用户;将所述第一样本集和所述第二样本集中判断为恶意用户的训练样本对应的标签设置为恶意用户,以及将所述第一样本集和所述第二样本集中判断为非恶意用户的训练样本对应的标签设置为非恶意用户。2.如权利要求1所述的方法,其特征在于,所述目标输出值用于评估用户的恶意等级;所述训练样本的特征至少包括用户的异常弹幕数量、用户播放数量、用户在第一时段内发表的评论数量、用户在第二时段内发表的相同评论数量和用户账户余额。3.如权利要求2所述的方法,其特征在于,所述根据所述目标输出值判断用户的是否为恶意用户之后,所述方法还包括以下之一:封禁判断为恶意用户的用户账号;或者,封禁判断为恶意用户的用户账号且设置有效封禁时长;或者,对判断为恶意用户的用户账号发送警告消息。4.如权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:设置封禁阈值;所述根据所述目标输出值判断用户的是否为恶意用户,包括:若所述目标输出值大于所述封禁阈值,则确定用户的恶意等级满足恶意用户的判断条件。5.如权利要求4所述的方法,其特征在于,所述训练样本包括第一特征、第二特征和第三特征,所述根据所述目标输出值判断用户的是否为恶意用户之后...

【专利技术属性】
技术研发人员:王非池
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1