【技术实现步骤摘要】
基于随机森林模型的用户识别方法、装置和计算机设备
本申请涉及人工智能
,特别涉及一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质。
技术介绍
目前,针对使用外挂、爬虫等非法用户的检测,通常是基于对单个IP、UserAgent等进行频率统计,再与对应设置的阈值进行对比,从而检测出该用户采用外挂、爬虫等工具,进而进行封堵等,这些方式不仅误伤率高,而且也无法准确检测出非法用户采用访问频率低,但是持续性却很高的外挂、爬虫行为,即对非法用户的检测不够准确。
技术实现思路
本申请的主要目的为提供一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,旨在克服目前无法准确检测出非法用户的缺陷。为实现上述目的,本申请提供了一种基于随机森林模型的用户识别方法,包括以下步骤:获取WEB访问日志;从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。进一步地,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签 ...
【技术保护点】
1.一种基于随机森林模型的用户识别方法,其特征在于,包括以下步骤:/n获取WEB访问日志;/n从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;/n将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;/n将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;/n获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。/n
【技术特征摘要】
1.一种基于随机森林模型的用户识别方法,其特征在于,包括以下步骤:
获取WEB访问日志;
从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。
2.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤之后,还包括:
若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
3.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征的步骤,包括:
从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
4.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤,包括:
将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
5.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述获取六组所述分类子结果中数量最多的分类标签,作为对所述用...
【专利技术属性】
技术研发人员:罗振珊,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。