【技术实现步骤摘要】
异常信息识别方法和装置、电子设备、计算机可读介质
[0001]本公开涉及计算机应用
,具体涉及信息安全等
,尤其涉及一种异常信息识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
技术介绍
[0002]随着互联网业务,尤其是移动物联网的爆炸式发展,黑灰产用户开始从“攻击渗透系统获利”的传统套路进化到“利用业务风控缺失进行大规模牟利”的模式,并且逐渐形成规模庞大、分工明确的黑色产业链。黑灰产用户破坏平台生态、带走平台优惠,有着严重的危害。
[0003]目前对黑灰产用户的挖掘方案,一般基于业务数据、攻击环境进行挖掘,由于黑灰产具有规模庞大、分工明确的特点,仅从业务数据或攻击环境进行异常用户信息挖掘,可能会出现数据特征不全面、挖掘的召回率不足、挖掘准确率不高的问题。
技术实现思路
[0004]提供了一种异常信息识别方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。
[0005]根据第一方面,提供了一种异常信息识别方法,该方法包括:获取至少一种场景下的用户日志数据;基于 ...
【技术保护点】
【技术特征摘要】
1.一种异常信息识别方法,所述方法包括:获取至少一种场景下的用户日志数据;基于所述用户日志数据,确定设定时间段中各个场景下的流量特征;基于所述流量特征和所述用户日志数据,得到风险日志数据,所述风险日志数据为流量特征的值异常的用户日志数据;基于所述风险日志数据,得到用户使用资源时的序列统计维度特征;基于所述序列统计维度特征和所述风险日志数据,得到对所述用户的异常检测结果。2.根据权利要求1所述的方法,其中,所述至少一种场景包括账号行为场景,所述异常检测结果包括:用户标识,所述方法还包括:获取所述账号行为场景下所述用户标识对应的用户名;对所述用户名进行命名规则分析,得到命名分析结果;基于所述命名分析结果,检测所述用户标识对应的用户是否为异常用户。3.根据权利要求2所述的方法,其中,所述对所述用户名进行命名规则分析,得到命名分析结果包括:对所述用户名进行分字,得到分字结果;计算所述分字结果中生僻字的占比,得到包括生僻字占比比例的命名分析结果;所述基于所述命名分析结果,检测所述用户标识对应的用户是否为异常用户包括:检测所述生僻字占比比例是否大于预设的生僻比例阈值;响应于检测到所述生僻字占比比例大于预设的生僻比例阈值,确定所述用户标识对应的用户为异常用户。4.根据权利要求2所述的方法,其中,所述对所述用户名进行命名规则分析,得到命名分析结果包括:对所述用户名进行分词,得到分词结果;计算所述分词结果中词组的占比,得到包括词组占比比例的命名分析结果;所述基于所述命名分析结果,检测所述用户标识对应的用户是否为异常用户包括:检测所述词组占比比例是否大于预设的词组比例阈值;响应于检测到所述词组占比比例大于预设的词组比例阈值,确定所述用户标识对应的用户为异常用户。5.根据权利要求1所述的方法,其中,所述至少一种场景是账号行为场景,所述异常检测结果包括:用户标识,所述方法还包括:获取相关场景下所述用户标识对应的行为日志数据,所述相关场景是与所述账号行为场景相关且具有相同用户的场景;提取所述行为日志数据的相关特征,所述相关特征是与所述相关场景相关的特征;基于所述相关特征,检测所述用户标识对应的用户是否为异常用户。6.根据权利要求1所述的方法,其中,所述序列统计维度特征包括:地理位置序列差值统计值,所述基于所述风险日志数据,得到用户使用资源时的序列统计维度特征包括:基于所述风险日志数据,按照时间顺序对用户使用资源时的多个地理位置坐标进行排序,得到地理位置坐标序列;从所述地理位置坐标序列中的第一个地理位置坐标开始,依次将相邻的两个地理位置
坐标作差,得到对应所述地理位置坐标序列的地理位置差值序列;统计所述地理位置差值序列中的所有差值,得到地理位置序列差值统计值。7.根据权利要求1所述的方法,其中,所述序列统计维度特征包括:时间信息序列差值统计值,所述基于所述风险日志数据,得到用户使用资源时的序列统计维度特征包括:基于所述风险日志数据,按照时间顺序对用户操作资源时的多个使用时间戳进行排序,得到使用时间戳序列;从所述使用时间戳序列中的第一使用时间戳开始,依次将相邻的两个使用时间戳作差,得到对应所述使用时间戳序列的时间差值序列;统计所述时间差值序列中的所有差值,得到时间信息序列差值统计值。8.根据权利要求7所述的方法,其中,所述统计所述时间差值序列中的所有差值,得到时间信息序列差值统计值包括以下至少一项:基于熵计算公式,计算所述时间信息序列中的所有差值,得到所述时间信息序列的熵值;基于峰度计算公式,计算所述时间信息序列中的所有差值,得到所述时间信息序列的峰度值;基于偏度计算公式,计算所述时间信息序列中的所有差值,得到所述时间信息序列的偏度值;按照值大小顺序排序所述时间信息序列中的所有差值,得到所述时间信息序列的最大值;按照值大小顺序排序所述时间信息序列中的所有差值,得到所述时间信息序列的最小值。9.根据权利要求1所述的方法,其中,所述基于所述序列统计维度特征和所述风险日志数据,得到对所述用户的异常检测结果包括:基于所述风险日志数据,得到聚合统计维度特征;将所述序列统计维度特征和所述聚合统计维度特征输入预先训练完成的梯度提升决策树模型,得到所述梯度提升决策树模型输出的所述用户的异常检测结果。10.根据权利要求1所述的方法,其中,所述基于所述序列统计维度特征和所述风险日志数据,得到对所述用户的异常检测结果包括:基于所述风险日志数据,分别计算类别特征、数值特征、时间特征、空间特征;将所述类别特征、所述数值特征、所述时间特征、所述空间特征和所述序列统计维度特征同时输入预先训练完成的梯度提升决策树模型,得到所述梯度提升决策树模型输出的所述用户的异常检测结果。11.根据权利要求10所述的方法,其中,所述基于所述风险日志数据,分别计算类别特征、数值特征、时间特征、空间特征包括:基于所述风险日志数据,计算在各个场景下各个用户对应的行为所属的行为类别,得到各个用户的类别特征;基于所述风险日志数据,计算各个场景下且设定时间段内各个用户的行为次数,得到各个用户的数值特征;基于所述风险日志数据,计算在各个场景下各个用户的行为时间点以及至少两个操作
之间的时间点差值,得到各个用户的时间特征;基于所述风险日志数据,计算在各个场景下各个用户使用不同资源时的地理位置,得到各个用户的空间特征。12.根据权利要求1
‑
11之一所述的方法,其中,所述流量特征包括:页面访问量、独立访客访问数;所述基于所述流量特征和所述用户日志数据,得到风险日志数据包括以下至少一项或多项:响应于检测到所述用户日志数据中页面对应的页面访问量大于第一预设阈值,在对应该页面的用户日志数据中添加所述页面访问量;响应于检测到所述用户日志数据中IP对应的独立访客访问数大于第二预设阈值,在对应该IP的用户日志数据中添加所述页面访问量。13.根据权利要求1
‑
11之一所述的方法,其中,所述流量特征还包括:各资源的因子聚集度;所述基于所述流量特征和所述用户日志数据,得到风险日志数据包括:针对所述用户日志数据中的各个资源,计算该资源的因子聚集度的值,并检测该资源的因...
【专利技术属性】
技术研发人员:陈博元,闫丁丽,李理,王锦龙,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。