基于随机森林模型的用户识别方法、装置和计算机设备制造方法及图纸

技术编号:26598062 阅读:20 留言:0更新日期:2020-12-04 21:20
本申请涉及人工智能领域,提供了一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,获取WEB访问日志;从WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;将用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;将组合行为特征输入至随机森林模型中,通过随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;获取六组所述分类子结果中数量最多的分类标签,作为对用户的分类结果。基于多个维度的用户特征,并通过随机森林模型中六组不同的决策树分类器进行分类之后,综合多个分类子结果得出最终对用户的分类结果,便于准确识别出非法用户。

【技术实现步骤摘要】
基于随机森林模型的用户识别方法、装置和计算机设备
本申请涉及人工智能
,特别涉及一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质。
技术介绍
目前,针对使用外挂、爬虫等非法用户的检测,通常是基于对单个IP、UserAgent等进行频率统计,再与对应设置的阈值进行对比,从而检测出该用户采用外挂、爬虫等工具,进而进行封堵等,这些方式不仅误伤率高,而且也无法准确检测出非法用户采用访问频率低,但是持续性却很高的外挂、爬虫行为,即对非法用户的检测不够准确。
技术实现思路
本申请的主要目的为提供一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,旨在克服目前无法准确检测出非法用户的缺陷。为实现上述目的,本申请提供了一种基于随机森林模型的用户识别方法,包括以下步骤:获取WEB访问日志;从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。进一步地,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤之后,还包括:若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。进一步地,所述从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征的步骤,包括:从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。进一步地,所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤,包括:将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。进一步地,所述获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果的步骤之后,包括:获取所述WEB访问日志中用户的IP地址;获取所述用户通过所述IP地址所访问网站的访问时间段以及连续访问所述网站的天数;根据所述访问时间段以及连续访问所述网站的天数,确定所述用户是否为非法用户,作为所述用户的参考结果;判断所述参考结果与所述用户的分类结果是否相同,若不同,将所述参考结果与所述组合行为特征组成训练对,并将所述训练对输入至随机森林模型中进行训练,以更新所述随机森林模型。本申请还提供了一种基于随机森林模型的用户识别装置,包括:第一获取单元,用于获取WEB访问日志;提取单元,用于从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;组合单元,用于将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;预测单元,用于将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;第一分类单元,用于获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。进一步地,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;所述装置还包括:计算单元,用于若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;第二分类单元,用于获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。进一步地,所述提取单元,包括:提取子单元,用于从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;预测子单元,用于将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;确定子单元,用于将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;组合子单元,用于将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;判断子单元,用于判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;分类子单元,用于按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。进一步地,所述预测单元,包括:输入子单元,用于将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;第一筛选子单元,用于通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;第二筛选子单元,用于分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;第三筛选子单元,用于分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。进一步地,还包括:第本文档来自技高网...

【技术保护点】
1.一种基于随机森林模型的用户识别方法,其特征在于,包括以下步骤:/n获取WEB访问日志;/n从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;/n将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;/n将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;/n获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。/n

【技术特征摘要】
1.一种基于随机森林模型的用户识别方法,其特征在于,包括以下步骤:
获取WEB访问日志;
从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。


2.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤之后,还包括:
若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。


3.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征的步骤,包括:
从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。


4.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤,包括:
将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。


5.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述获取六组所述分类子结果中数量最多的分类标签,作为对所述用...

【专利技术属性】
技术研发人员:罗振珊
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1