一种用户行为特征提取方法及系统技术方案

技术编号:20389852 阅读:33 留言:0更新日期:2019-02-20 02:50
本发明专利技术公开了一种用户行为特征提取方法,该方法包括:获取目标应用的访问日志、应用日志和代理日志;参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息;将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志;参照应用日志,对目标访问日志进行会话识别,获得会话日志;对会话日志进行分析,获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。该用户行为特征可应用于个性化服务,以及解决网络安全问题。本发明专利技术还公开了一种用户行为特征提取系统、设备及可读存储介质,具有相应的技术效果。

【技术实现步骤摘要】
一种用户行为特征提取方法及系统
本专利技术涉及网络安全
,特别是涉及一种用户行为特征提取方法、系统、设备及可读存储介质。
技术介绍
随着互联网的发展、网络应用的普及,也产生了各种各样的安全问题,网络安全技术成为计算机网络的一个关键技术。若能对用户建立完善的画像,便可感知用户的访问目的,精确分析用户的访问行为,可及时发现异常事件。目前提取用户行为特征的时,往往只能统计出一个应用系统总体的用户行为特征。例如,通过统计URL的访问次数,得到用户访问量较大的热点数据,而无法统计得到单个用户的用户行为特征(如用户访问各个网页的习惯跳转顺序,操作流程)。也就无法基于提取到的用户行为特征为每一个用户提供个性化服务。综上所述,如何有效地提取用户行为特征等问题,是目前本领域技术人员急需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种用户行为特征提取方法、系统、设备及可读存储介质,以提取用户行为特征,以便用于建立用户画像,进一步解决网络安全问题。为解决上述技术问题,本专利技术提供如下技术方案:一种用户行为特征提取方法,包括:获取目标应用的访问日志、应用日志和代理日志;参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。优选地,所述将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征,包括:将所述操作人员信息的字段与对应的所述操作信息的字段以及特征权值字段进行逐条组合,获得用户行为特征。优选地,在所述获得用户行为特征之后,还包括:逐条读取所述用户行为特征,以及每条所述用户行为特征的特征权值;利用加权移动平台法计算每条所述目标用户行为特征的特征权重,并将所述特征权重小于特征权重阈值的用户行为特征删除。优选地,参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息,包括:读取所述访问日志的每条访问记录,以及每条所述访问记录对应的目标IP地址;从所述代理日志中,读取与所述目标IP地址对应的代理记录,并分析所述代理记录,确定所述访问记录对应的所述操作人员身份信息。优选地,参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志,包括:利用所述应用日志确定会话时间分区;利用所述会话时间分区,对所述目标访问日志中的访问记录进行合并,获得每个所述操作人员身份信息对应的会话日志。优选地,对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,包括:将每个所述操作人员身份信息对应的所述会话日志内的会话按照访问时间顺序进行排序,获得会话序列;对所述会话序列进行分析,获得最大向前路径;利用所述最大向前路径和所述会话序列提取所述操作信息;其中所述操作信息包括操作时间、操作类别、访问方式、操作对象、操作流程。优选地,在所述获取目标应用的访问日志、应用日志和代理日志之后,在所述参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息之前,还包括:清洗所述应用日志中网络信息发现系统留下的记录;清洗所述访问日志中所记录的用户访问帧页时,对应子页面的日志数据;清洗所述代理日志中所记录的自动加载的文件信息;其中,所述文件信息包括图像、声音特性元素。一种用户行为特征提取系统,包括:日志获取模块,用于获取目标应用的访问日志、应用日志和代理日志;操作人员身份信息提取模块,用于参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;目标访问日志获取模块,用于将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;会话识别模块,用于参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;用户行为信息获得模块,用于对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。一种用户行为特征提取设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述用户行为特征提取方法的步骤。一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述用户行为特征提取方法的步骤。应用本专利技术实施例所提供的方法,获取到目标应用的访问日志、应用日志和代理日志;其中,应用日志为目标应用生成的日志,通常每个应用系统都会生成并记录;访问日志为用户访问目标应用的日志,可从全流量数据中提取而得;代理日志,即各代理服务器(如VPN等日志)。应用日志中的访问记录无法准确的确定出访问日志对应的操作人员是否相同,而在代理日志中记录了相应操作人员信息,因此可参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息,基于该操作人员身份信息可明确得到每一条访问记录的操作者。得到操作人员身份信息之后,可将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志。然后,参照应用日志,对目标访问日志进行会话识别,获得会话日志。其中,会话识别即将归属于同一个操作人员的访问记录按照整合规则整合为单个会话。对会话日志进行分析,可获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。由于操作信息是与操作人员身份信息相对应的,而一个操作人员身份信息对应一个用户,即提取到的用户行为特征即为单个用户的行为特征。该用户行为特征便可应用于个性化服务,或进一步为每一个用户建立用户画像解决网络安全问题。相应地,本专利技术实施例还提供了与上述用户行为特征提取方法相对应的用户行为特征提取系统、设备和可读存储介质,具有上述技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种用户行为特征提取方法的实施流程图;图2为本专利技术实施例中一种用户行为特征更新方法的实施流程图;图3为本专利技术实施例中一种用户行为特征提取系统的结构示意图;图4为本专利技术实施例中一种用户行为特征提取设备的结构示意图;图5为本专利技术实施例中一种用户行为特征提取设备的具体结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:请参考图1,图1为本专利技术实施例中一种用户行为特征提取方法的流程图,该方法包括以下步骤:S101、获取目标应用对应的访问日志、应用日志和代理日志。其中,应用日志为目标应用生成的日志,通常每个应用系统都会生成并记录;访问日志为用户访问目标应用的日志,可从全流量数据中提取而得本文档来自技高网
...

【技术保护点】
1.一种用户行为特征提取方法,其特征在于,包括:获取目标应用的访问日志、应用日志和代理日志;参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。

【技术特征摘要】
1.一种用户行为特征提取方法,其特征在于,包括:获取目标应用的访问日志、应用日志和代理日志;参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。2.根据权利要求1所述的用户行为特征提取方法,其特征在于,所述将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征,包括:将所述操作人员信息的字段与对应的所述操作信息的字段以及特征权值字段进行逐条组合,获得用户行为特征。3.根据权利要求2所述的用户行为特征提取方法,其特征在于,在所述获得用户行为特征之后,还包括:逐条读取所述用户行为特征,以及每条所述用户行为特征的特征权值;利用加权移动平台法计算每条所述目标用户行为特征的特征权重,并将所述特征权重小于特征权重阈值的用户行为特征删除。4.根据权利要求1所述的用户行为特征提取方法,其特征在于,参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息,包括:读取所述访问日志的每条访问记录,以及每条所述访问记录对应的目标IP地址;从所述代理日志中,读取与所述目标IP地址对应的代理记录,并分析所述代理记录,确定所述访问记录对应的所述操作人员身份信息。5.根据权利要求1所述的用户行为特征提取方法,其特征在于,参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志,包括:利用所述应用日志确定会话时间分区;利用所述会话时间分区,对所述目标访问日志中的访问记录进行合并,获得每个所述操作人员身份信息对应的会话日志。6.根据权利要求5所述的用户行为特征提取方法,其特征在于,对所述会话...

【专利技术属性】
技术研发人员:刘博范渊杨锦峰聂桂兵龙文洁
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1