一种基于日志图建模的异常检测方法和装置制造方法及图纸

技术编号:19486713 阅读:18 留言:0更新日期:2018-11-17 11:30
本发明专利技术实施例提供了一种基于日志图建模的异常检测方法和装置,该方法和装置应用于非社交网络,具体为根据非社交网络中预先标注的训练数据的关键字段构建一个二分图,二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合;从二分图中进行特征提取,并将提取的特征拼接为特征向量;根据特征向量训练随机森林模型;当接收到传入数据时,利用随机森林模型对传入数据进行分析。通过利用随机森林模型对传入数据进行分析,从中分析出正常数据和异常数据,进而采取相应的安全措施,从而可以避免其中的异常数据对网络安全造成威胁。

【技术实现步骤摘要】
一种基于日志图建模的异常检测方法和装置
本专利技术涉及网络安全
,特别是涉及一种基于日志图建模的异常检测方法和装置。
技术介绍
在QQ、微信、微博等社交网络中,用户之间的关系图可以刻画出他们之间的共同好友、共同偏好等特性,进而可以用于向用户推荐好友,对用户群进行分类处理等。对于非社交网络来说,用户同样是公司的核心资产,只是用户之间缺乏直接的关联,很难使用现有的社交网络挖掘方法来研究用户问题。这样一来,一方面制约了社交网络中的研究成果在非社交网络的应用,另一方面也导致非社交网络公司缺乏从关系图的角度来认知用户的能力,特别的,无法根据关系图对传入数据快速分析出异常数据,从而导致网络无法得到安全保护。
技术实现思路
有鉴于此,本专利技术提供了一种基于日志图建模的异常检测方法,用于对传入数据进行快速分析,以避免其中的异常数据对网络安全造成威胁。为了解决上述问题,本专利技术公开了一种基于日志图建模的异常检测方法,应用于非社交网络,所述异常检测方法包括步骤:根据所述非社交网络中预先标注的训练数据的关键字段构建一个二分图,所述二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合;从所述二分图中进行特征提取,并将提取的特征拼接为特征向量;根据所述特征向量训练随机森林模型;当接收到传入数据时,利用所述随机森林模型对所述传入数据进行分析。可选的,所述根据所述非社交网络的业务日志的关键字段构建一个二分图,包括:从所述业务日志中抽取多个关键字段,所述关键字段包括用户账号、用户名、ip、设备id;利用所述多个关键字段构建上述二分图。可选的,所述从所述二分图中进行特征提取,并将提取的特征拼接为特征向量,包括:从所述二分图中提取一度特征和二度特征;将所述一度特征和所述二度特征进行拼接处理,得到所述特征向量。可选的,所述根据所述特征向量训练随机森林模型,包括:接收所述特征向量;根据所述特征向量训练所述随机森林模型。可选的,所述根据所述特征向量训练随机森林模型,还包括:获取所述随机森林模型在数据检测中检测出的正常数据和异常数据;将所述正常数据和所述异常数据作为训练数据对所述随机森林模型进一步进行训练。相应的,为了保证上述方法的实施,本专利技术还提供了一种基于日志图建模的异常检测装置,应用于非社交网络,所述异常检测装置包括:二分图构建模块,用于根据所述非社交网络中预先标注的训练数据的关键字段构建一个二分图,所述二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合;特征向量拼接模块,用于从所述二分图中进行特征提取,并将提取的特征拼接为特征向量;数学模型训练模块,用于根据所述特征向量训练随机森林模型;数据检测模块,用于当接收到传入数据时,利用所述随机森林模型对所述传入数据进行分析。可选的,所述二分图构建模块包括:关键字段抽取单元,用于从所述业务日志中抽取多个关键字段,所述关键字段包括用户账号、用户名、ip、设备id;二分图构建单元,用于利用所述多个关键字段构建上述二分图。可选的,所述特征向量拼接模块包括:特征提取单元,用于从所述二分图中提取一度特征和二度特征;特征拼接单元,用于将所述一度特征和所述二度特征进行拼接处理,得到所述特征向量。可选的,所述数学模型训练模块包括:数据接收单元,用于接收所述特征向量;第一训练单元,用于根据所述特征向量训练所述随机森林模型。可选的,所述数学训练模块还包括:数据获取单元,获取所述随机森林模型在数据检测中检测出的正常数据和异常数据;第二训练单元,用于将所述正常数据和所述异常数据作为训练数据对所述随机森林模型进一步进行训练。从上述技术方案可以看出,本专利技术提供了一种基于日志图建模的异常检测方法和装置,该方法和装置应用于非社交网络,具体为根据非社交网络中预先标注的训练数据的关键字段构建一个二分图,二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合;从二分图中进行特征提取,并将提取的特征拼接为特征向量;根据特征向量训练随机森林模型;当接收到传入数据时,利用随机森林模型对传入数据进行分析。通过利用随机森林模型对传入数据进行分析,从中分析出正常数据和异常数据,进而采取相应的安全措施,从而可以避免其中的异常数据对网络安全造成威胁。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种基于日志图建模的异常检测方法的步骤流程图;图2为专利技术实施例提供的一种二分图;图3为本专利技术实施例提供的一种基于日志图建模的异常检测装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术实施例提供的一种基于日志图建模的异常检测方法的步骤流程图。参照图1所示,本实施例提供的异常检测方法应用于非社交网络,具体包括如下步骤:S101:根据训练数据的关键字段构建一个二分图。这里的训练数据来自于对业务日志中进行预先标注而得到,业务日志则指的是非社交网络在日常运行中产生的日志文件,该二分图的左节点对应多个用户账号,二分图的右边节点对应业务接口请求时的参数组合,具体参见图2所示。具体过程为:首先,从业务日志中抽取多个关键字段,如用户账号、用户名、ip和设备id等;然后,利用上述多个关键字段构成该二分图。二分图又称作二部图,是图论中的一种特殊模型。设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(iinA,jinB),则称图G为一个二分图。S102:从二分图中进行特征提取,并将提取的特征拼接为特征向量。在得到上述二分图后,从该二分图中进行特征提取,在得到相应特征后将得到的特征拼接为特征向量。其实质是提取左节点中每个用户账号所对应的关键字段,并将得到的所有关键字段按一定的规律或顺序进行排序,从而构成用户账号的特征向量。为了便于进一步计算,可以对特征向量中每个关键字段进行量化,并做归一化处理,以便于后续进行模型训练。其中一度节点是指与某个节点有关联的其他节点,二度节点是指与某个节点有关系节点的关系节点。具体的提取过程为:首先,从二分图中提取一度特征和二度特征。一度特征包括该节点的出度和入度,以及相关联节点的参数分布(例如:不同ip数目,不同ua数目)等,出度是指这个节点指向其他节点的数目,而入度是指其他节点执行本节点的数目。二度特征包括该节点直接关联(邻居)节点的特征,比如邻居节点中最大(最小)的出度和入度,邻居节点的邻居参数分布等。然后,将提取到的一度特征和二度特征进行拼接处理,得到相应的特征向量。username1的一度节点是右边第一个,其二度节点是指username2。S103:根据特征向量训练随机森林模型。随机森林本文档来自技高网...

【技术保护点】
1.一种基于日志图建模的异常检测方法,应用于非社交网络,其特征在于,所述异常检测方法包括步骤:根据所述非社交网络中预先标注的训练数据的关键字段构建一个二分图,其中,所述二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合;从所述二分图中进行特征提取,并将提取的特征拼接为特征向量;根据所述特征向量训练随机森林模型;当接收到传入数据时,利用所述随机森林模型对所述传入数据进行分析。

【技术特征摘要】
1.一种基于日志图建模的异常检测方法,应用于非社交网络,其特征在于,所述异常检测方法包括步骤:根据所述非社交网络中预先标注的训练数据的关键字段构建一个二分图,其中,所述二分图的左边节点对应多个用户账号、右边节点则对应业务接口请求时的参数组合;从所述二分图中进行特征提取,并将提取的特征拼接为特征向量;根据所述特征向量训练随机森林模型;当接收到传入数据时,利用所述随机森林模型对所述传入数据进行分析。2.如权利要求1所述的异常检测方法,其特征在于,所述根据所述非社交网络的业务日志的关键字段构建一个二分图,包括:从所述业务日志中抽取多个关键字段,所述关键字段包括用户账号、用户名、ip、设备id;利用所述多个关键字段构建上述二分图。3.如权利要求1所述的异常检测方法,其特征在于,所述从所述二分图中进行特征提取,并将提取的特征拼接为特征向量,包括:从所述二分图中提取一度特征和二度特征;将所述一度特征和所述二度特征进行拼接处理,得到所述特征向量。4.如权利要求1所述的异常检测方法,其特征在于,所述根据所述特征向量训练随机森林模型,包括:接收所述特征向量;根据所述特征向量训练所述随机森林模型。5.如权利要求4所述的异常检测方法,其特征在于,所述根据所述特征向量训练随机森林模型,还包括:获取所述随机森林模型在数据检测中检测出的正常数据和异常数据;将所述正常数据和所述异常数据作为训练数据对所述随机森林模型进一步进行训练。6.一种基于日志图建模的异常检测装置,应用于非社...

【专利技术属性】
技术研发人员:宗志远
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1