一种基于变长序列模式挖掘的用户异常行为检测方法技术

技术编号:12568961 阅读:97 留言:0更新日期:2015-12-23 11:42
本发明专利技术提供一种基于变长序列模式挖掘的用户异常行为检测方法,包括用户正常行为训练阶段和用户异常行为检测阶段,其中:用户正常行为训练阶段包括:步骤一、对数据库中用户正常行为日志数据进行预处理,以获取多个用户正常行为变长序列流;步骤二、根据多个用户正常行为变长序列流中每个用户正常行为变长序列流及其出现的次数,构建生成用户正常行为模式;用户异常行为检测阶段包括:步骤一、将待检测的用户行为在线数据生成多个变长序列;步骤二、将变长序列与所述用户的正常行为模式中的各变长序列流进行匹配对比,以判断待检测的用户行为变长序列是否为异常用户行为数据。该方法可以实现在线异常检测,可以准确描述用户的复杂行为。

【技术实现步骤摘要】

本专利技术实施例涉及数据分析
,尤其涉及一种基于变长序列模式挖掘的用 户异常行为检测方法。
技术介绍
互联网的迅猛发展催生了电子商务的繁荣,其中虚拟资产交易的增长尤为迅速。 目前,我国已经开展了基于elD的网域空间虚拟资产管理与保全技术研究,实现对虚拟资 产的规范统一管理。虚拟资产保全系统全面准确的记录了对虚拟资产的各种操作,但如何 从这些记录数据中间挖掘出异常的用户交易行为仍然面临诸多挑战。针对网络虚拟资产交 易信息规模巨大,增长速度非常快的特点,自动地从海量的虚拟资产交易信息中发现以及 预测用户异常行为,从而对已经发生以及可能发生的犯罪行为进行有效的检测显得极为迫 切。 现在用户行为的异常检测方法中对离线分析研究的较多,如基于聚类和基于分类 的异常发现技术,离线分析即是针对历史数据进行分析,如果发现异常数据,那么再对异常 数据进行追溯,找到异常源头。离线异常检测存在时效性很低等问题。而在线分析方法研究 较少,现存的一些在线分析方法存在检测准确率低、不能准确描述用户的复杂行为等问题。
技术实现思路
本专利技术提供的,可以实现快 速高效的在线检测用户异常行为,解决现有技术只能离线分析导致不能准确描述用户复杂 行为的问题。 本专利技术提供的,包括用户正 常行为训练阶段和用户异常行为检测阶段,其中: 所述用户正常行为训练阶段包括: 步骤一、对数据库中用户正常行为日志数据进行预处理,以获取多个用户正常行 为变长序列流; 步骤二、根据所述多个用户正常行为变长序列流中每个用户正常行为变长序列流 及其出现的次数,构建生成用户正常行为模式; 所述用户异常行为检测阶段包括: 步骤一、将待检测的用户行为在线数据生成多个变长序列; 步骤二、将所述变长序列与所述用户的正常行为模式中的各变长序列流进行匹配 对比,以判断待检测的用户行为变长序列是否为异常用户行为数据。 进一步地,在上述技术方案的基础上,在所述用户正常行为训练阶段还包括: 在由每个用户正常行为变长序列流及其出现的次数构建生成用户正常行为模式 的基础上,计算每个用户正常行为变长序列流的IDF值,并根据所述IDF值更新所述用户正 常行为模式以获取优化的用户正常行为模式。 进一步地,在上述技术方案的基础上,在所述用户正常行为训练阶段对数据库中 用户正常行为日志数据进行预处理时只对用户正常行为日志数据中的数据概要进行预处 理; 相应地,在所述用户异常行为检测阶段将待检测的用户行为在线数据生成多个变 长序列时,也只针对待检测的用户行为在线数据的数据概要生成多个变长序列。 进一步地,在上述技术方案的基础上,所述数据概要包括用户ID、商品ID、商品类 别以及操作类型。 进一步地,在上述技术方案的基础上,在所述用户异常行为检测阶段判断待检测 的用户行为变长序列是否为异常用户行为数据时,还包括: 设置一预定IDF阀值; 计算待检测的各用户行为变长序列的IDF值,若低于所述预定IDF阀值时,则将此 用户行为变长序列删除以省略对此用户行为变长序列的判断。 进一步地,在上述技术方案的基础上,还包括: 根据用户行为变长序列中不同序列长度而对应设置不同的预定IDF阀值,判断时 当所有判决值均大于其对应长度的IDF值时判断为用户正常行为。 和现有技术相比,本专利技术提供的一种基于变长序列模式挖掘的用户异常行为检测 方法,首先通过在离线系统中使用用户的历史行为数据建模计算出用户的正常行为模式, 最后在在线系统中提取用户的当前行为模式与数据库中的正常行为模式进行匹配看当前 行为是否异常,可以实现在线检测用户异常行为,提高了检测用户异常行为的准确性和实 时性。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以 根据这些附图获得其他的附图。图1为本专利技术提供的基于变长序列模式挖掘的用户异常行为检测方法的实施例 一的流程图;图2为本专利技术提供的基于变长序列模式挖掘的用户异常行为检测方法的实施例 二的流程图;图3为本专利技术提供的基于变长序列模式挖掘的用户异常行为检测方法的实施例 三的流程图。【具体实施方式】 为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例 中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 实施例一图1为本专利技术提供的基于变长序列模式挖掘的用户异常行为检测方法的实施例 的流程图,如图1所示,该方法包括两个阶段,分别是: 第一阶段1:用户正常行为训练阶段,该阶段主要是在离线系统中使用用户的历 史行为数据建模计算出用户的正常行为模式; 第二阶段2:用户异常行为检测阶段,该阶段主要是在在线系统中提取用户的当 前行为模式与数据库中的正常行为模式进行匹配看当前行为是否异常。 具体地,在用户正常行为训练阶段包括以下步骤: 步骤11、对数据库中用户正常行为日志数据进行预处理,以获取多个用户正常行 为变长序列流;此步骤中,优选地,在所述用户正常行为训练阶段对数据库中用户正常行为 日志数据进行预处理时只对用户正常行为日志数据中的数据概要进行预处理; 步骤12、根据所述多个用户正常行为变长序列流中每个用户正常行为变长序列流 及其出现的次数,构建生成用户正常行为模式。 具体地,在用户异常行为检测阶段包括以下步骤: 步骤21、将待检测的用户行为在线数据生成多个变长序列; 相应地,此步骤中优选地,在所述用户异常行为检测阶段将待检测的用户行为在 线数据生成多个变长序列时,也只针对待检测的用户行为在线数据的数据概要生成多个变 长序列。 步骤22、将所述变长序列与所述用户的正常行为模式中的各变长序列流进行匹配 对比,以判断待检测的用户行为变长序列是否为异常用户行为数据。 在所述用户正常行为训练阶段对数据库中用户正常行为日志数据进行预处理时 只对用户正常行为日志数据中的数据概要进行预处理。 实施例二图2为本专利技术提供的基于变长序列模式挖掘的用户异常行为检测方法的实施例 二的流程图,如图2所示,实施例二在实施例一的基础上,进一步地,在所述用户正常行为 训练阶段还包括: 步骤15、在由每个用户正常行为变长序列流及其出现的次数构建生成用户正 常行为模式的基础上,计算每个用户正常行为变长序列流的IDF(InverseDocument Frequency)值,并根据所述IDF值更新所述用户正常行为模式以获取优化的用户正常行为 模式。IDF值反映了一个序列的重要性,某一短序列的IDF值越高,说明该序列对用户越重 要,其辨识度越高,即通过此序列更能区分当前用户和其他用户;IDF值越低,说明该序列 对用户越不重要,其辨识度越低。 实施例三图3为本专利技术提供的基于变长序列模式挖掘的用户异常行为检测方法的实施例 三的流程图,如图3所示,本实施例在上述实施例的基础上,在用户异常行为检测阶段用户 异常行为检测阶段判断待检测的用户行为变长本文档来自技高网...

【技术保护点】
一种基于变长序列模式挖掘的用户异常行为检测方法,其特征在于,包括用户正常行为训练阶段和用户异常行为检测阶段,其中:所述用户正常行为训练阶段包括:步骤一、对数据库中用户正常行为日志数据进行预处理,以获取多个用户正常行为变长序列流;步骤二、根据所述多个用户正常行为变长序列流中每个用户正常行为变长序列流及其出现的次数,构建生成用户正常行为模式;所述用户异常行为检测阶段包括:步骤一、将待检测的用户行为在线数据生成多个变长序列;步骤二、将所述变长序列与所述用户的正常行为模式中的各变长序列流进行匹配对比,以判断待检测的用户行为变长序列是否为异常用户行为数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱伟辉傅翔贾焰韩伟红李树栋李爱平周斌杨树强黄九鸣李虎全拥邓璐
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1