潜伏性盗取用户数据行为检测方法及装置制造方法及图纸

技术编号:17008331 阅读:51 留言:0更新日期:2018-01-11 04:23
本发明专利技术提供一种潜伏性盗取用户数据行为检测方法及装置,涉及网络信息安全技术领域,方法包括:获取待检测的第一访问日志,第一访问日志为用户对网站进行访问的日志;根据第一访问日志,计算第一用户访问行为特征值;将第一用户访问行为特征值输入到预先建立的检测模型中,以在访问日志中检测是否存在潜伏性盗取用户数据的行为;其中,检测模型为用于检测潜伏性盗取用户数据行为的模型,且检测模型为通过对训练样本数据进行分类训练得到。该方法能够通过计算访问日志的用户访问行为特征值,并进行分类模型的训练,得到潜伏性盗取用户数据行为检测模型及模型参数,进而通过该模型精准、高效、智能地检测新的访问日志中的潜伏性盗取用户数据行为。

【技术实现步骤摘要】
潜伏性盗取用户数据行为检测方法及装置
本专利技术涉及网络信息安全
,尤其是涉及一种潜伏性盗取用户数据行为检测方法及装置。
技术介绍
潜伏型应用是指从该应用的单次运行特征中无法察觉出该应用的异常,甚至与普通正常的应用运行特征无二。通常潜伏型应用具备隐蔽性和执着性,并且通常是利用现有系统的一些逻辑漏洞,如某系统定义一个IP一天只能进行N次查询数据库操作,该应用每天查询N次,并持续一段时间天天查询等。从业务特征分析,该类应用具有如下特征:1.该类应用通常借助于媒体潜伏(如某类APP或者系统等)且具备特定的触发条件,例如时间,或者站点、数据更新等;2.该类应用通常会访问敏感数据,通常使用的是应用层协议,多数为HTTP/HTTPS,少数使用FTP协议等;3.该类应用通常只访问某一个目录或者某个获取数据的API或者接口等。潜伏型数据盗取者通常由于访问量低,且访问方式都是通过正常途径,例如厂商提供的合法API来爬取数据,因而极难被IDS等各种网络防护设备发现,但是造成的危害却是极大的。例如国内某知名厂商对外提供免费API以供查询航班信息,有不法分子利用此API每隔一段时间来爬取信息,日积月累就完整地拷贝出了此厂商的数据库信息,给该厂商造成了极大的损失。因此,从大量的访问日志中找出这类用户的蛛丝马迹,及时防范于未然成了当务之急。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种潜伏性盗取用户数据行为检测方法及装置,能够通过计算访问日志的用户访问行为特征值,并进行分类模型的训练,得到潜伏性盗取用户数据行为检测模型及模型参数,进而通过该模型精准、高效、智能地检测新的访问日志中的潜伏性盗取用户数据行为。第一方面,本专利技术实施例提供了一种潜伏性盗取用户数据行为检测方法,包括:获取待检测的第一访问日志,第一访问日志为用户对网站进行访问的日志;根据第一访问日志,计算第一用户访问行为特征值;第一用户访问行为特征值包括以下至少之一:访问聚合度、访问频率、重复访问频率、访问间隔时间的平均值与方差、访问返回码、访问下载数据密度、资源访问频率;将第一用户访问行为特征值输入到预先建立的检测模型中,以在访问日志中检测是否存在潜伏性盗取用户数据的行为;其中,检测模型为用于检测潜伏性盗取用户数据行为的模型,且检测模型为通过对训练样本数据进行分类训练得到。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,在获取待检测的第一访问日志之前,还包括:获取待训练的第二访问日志;第二访问日志中包括:潜伏性盗取用户数据行为的行为数据;根据第二访问日志,计算第二用户访问行为特征值;将第二用户访问行为特征值,整合为训练样本数据和验证样本数据;将训练样本数据输入至检测模型中,并结合高斯核函数,得到训练之后的检测模型。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,在得到训练之后的检测模型之后,还包括:获取第一输出结果和检测模型的模型参数,第一输出结果为将训练样本数据输入至检测模型之后得到的输出结果;将验证样本数据输入检测模型中,得到第二输出结果;判断第二输出结果是否与第一输出结果相一致;如果否,则对模型参数进行调整。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,计算用户访问行为特征值包括:将获取到的访问日志进行解析,得到访问数据;从访问数据中提取目标时间内的总访问网页数、重复访问网页数;其中,目标时间为未接收到由同一用户发出新的访问请求的时间;目标时间包括多个;通过总访问网页数、重复访问网页数和目标时间计算用户访问行为特征值,其中,访问聚合度=重复访问网页数/总访问网页数;访问频率=总访问网页数/目标时间;重复访问频率=重复访问网页数/目标时间。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,计算用户访问行为特征值,还包括:从访问数据中提取目标时间内的访问间隔个数、每个访问间隔的间隔时间;根据访问间隔个数以及每个访问间隔的间隔时间,计算目标时间内的访问间隔总时长;通过访问间隔总时长和访问间隔个数计算访问间隔时间的平均值和访问间隔时间的方差;其中,访问间隔时间的平均值=访问间隔总时长/访问间隔个数;访问间隔时间的方差=E(访问间隔总时长2)-E(访问间隔总时长)2。结合第一方面,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,计算用户访问行为特征值,还包括:从访问数据中提取目标时间内的目标访问返回码,目标访问返回码=(访问返回码>200&访问返回码<400);将目标访问返回码作为访问返回码。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,计算用户访问行为特征值,还包括:从访问数据中提取目标时间内的下载数据量;基于下载数据量和目标时间计算访问下载数据密度,其中,访问下载数据密度=下载数据量/目标时间。结合第一方面,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,计算用户访问行为特征值,还包括:从访问数据中提取目标时间内的访问资源文件数量;基于访问资源文件数量计算资源访问频率,其中,资源访问频率为目标时间内访问资源文件数量占总访问文件数量的比例。第二方面,本专利技术实施例提供一种潜伏性盗取用户数据行为检测方法装置,包括:日志获取模块,用于获取待检测的第一访问日志,第一访问日志为用户对网站进行访问的日志;特征值计算模块,用于根据第一访问日志,计算第一用户访问行为特征值;第一用户访问行为特征值包括以下至少之一:访问聚合度、访问频率、重复访问频率、访问间隔时间的平均值与方差、访问返回码、访问下载数据密度、资源访问频率;检测模块,用于将第一用户访问行为特征值输入到预先建立的检测模型中,以在访问日志中检测是否存在潜伏性盗取用户数据的行为;其中,检测模型为用于检测潜伏性盗取用户数据行为的模型,且检测模型为通过对训练样本数据进行分类训练得到。第三方面,本专利技术实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行第一方面所述的方法。本专利技术实施例带来了以下有益效果:在本专利技术实施例提供的潜伏性盗取用户数据行为检测方法中,首先获取待检测的第一访问日志,第一访问日志为用户对网站进行访问的日志;根据第一访问日志,计算第一用户访问行为特征值;第一用户访问行为特征值包括以下至少之一:访问聚合度、访问频率、重复访问频率、访问间隔时间的平均值与方差、访问返回码、访问下载数据密度、资源访问频率;将第一用户访问行为特征值输入到预先建立的检测模型中,以在访问日志中检测是否存在潜伏性盗取用户数据的行为;其中,检测模型为用于检测潜伏性盗取用户数据行为的模型,且检测模型为通过对训练样本数据进行分类训练得到。该方法能够通过计算访问日志的用户访问行为特征值,并进行分类模型的训练,得到潜伏性盗取用户数据行为检测模型及模型参数,进而通过该模型精准、高效、智能地检测新的访问日志中的潜伏性盗取用户数据行为。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举本文档来自技高网...
潜伏性盗取用户数据行为检测方法及装置

【技术保护点】
一种潜伏性盗取用户数据行为检测方法,其特征在于,包括:获取待检测的第一访问日志,所述第一访问日志为用户对网站进行访问的日志;根据所述第一访问日志,计算第一用户访问行为特征值;所述第一用户访问行为特征值包括以下至少之一:访问聚合度、访问频率、重复访问频率、访问间隔时间的平均值与方差、访问返回码、访问下载数据密度、资源访问频率;将所述第一用户访问行为特征值输入到预先建立的检测模型中,以在所述访问日志中检测是否存在潜伏性盗取用户数据的行为;其中,所述检测模型为用于检测潜伏性盗取用户数据行为的模型,且所述检测模型为通过对训练样本数据进行分类训练得到。

【技术特征摘要】
1.一种潜伏性盗取用户数据行为检测方法,其特征在于,包括:获取待检测的第一访问日志,所述第一访问日志为用户对网站进行访问的日志;根据所述第一访问日志,计算第一用户访问行为特征值;所述第一用户访问行为特征值包括以下至少之一:访问聚合度、访问频率、重复访问频率、访问间隔时间的平均值与方差、访问返回码、访问下载数据密度、资源访问频率;将所述第一用户访问行为特征值输入到预先建立的检测模型中,以在所述访问日志中检测是否存在潜伏性盗取用户数据的行为;其中,所述检测模型为用于检测潜伏性盗取用户数据行为的模型,且所述检测模型为通过对训练样本数据进行分类训练得到。2.根据权利要求1所述的方法,其特征在于,在所述获取待检测的第一访问日志之前,还包括:获取待训练的第二访问日志;所述第二访问日志中包括:潜伏性盗取用户数据行为的行为数据;根据所述第二访问日志,计算第二用户访问行为特征值;将所述第二用户访问行为特征值,整合为训练样本数据和验证样本数据;将所述训练样本数据输入至所述检测模型中,并结合高斯核函数,得到训练之后的所述检测模型。3.根据权利要求2所述的方法,其特征在于,在得到训练之后的所述检测模型之后,还包括:获取第一输出结果和所述检测模型的模型参数,所述第一输出结果为将所述训练样本数据输入至所述检测模型之后得到的输出结果;将所述验证样本数据输入所述检测模型中,得到第二输出结果;判断所述第二输出结果是否与所述第一输出结果相一致;如果否,则对所述模型参数进行调整。4.根据权利要求1或2所述的方法,其特征在于,计算用户访问行为特征值包括:将获取到的所述访问日志进行解析,得到访问数据;从所述访问数据中提取目标时间内的总访问网页数、重复访问网页数;其中,所述目标时间为未接收到由同一用户发出新的访问请求的时间;所述目标时间包括多个;通过所述总访问网页数、所述重复访问网页数和所述目标时间计算所述用户访问行为特征值,其中,所述访问聚合度=所述重复访问网页数/所述总访问网页数;所述访问频率=所述总访问网页数/所述目标时间;所述重复访问频率=所述重复访问网页数/所述目标时间。5.根据权利要求4所述的方法,其特征在于,所述计算用户访问行为特征值,还包括:从所述访问数据中提取所述目标时间...

【专利技术属性】
技术研发人员:杨煜东范渊刘博莫金友
申请(专利权)人:杭州安恒信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1