将用户行为分类为异常制造技术

技术编号:18179108 阅读:81 留言:0更新日期:2018-06-09 21:00
用于将用户行为分类为异常的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。一种方法包括获取表示在主体系统中用户的行为的用户行为数据。从训练数据生成初始模型,初始模型具有训练数据的第一特性特征。根据训练数据和测试时间段的第一表示的多个实例生成重采样模型。计算初始模型和重采样模型之间的差异。基于初始模型和重采样模型之间的差异,测试时间段中的用户行为被分类为异常。

【技术实现步骤摘要】
【国外来华专利技术】将用户行为分类为异常
技术介绍
本说明书涉及检测大型数据集中的异常。用于检测大数据集中的异常的技术可以用于数据处理应用的多个领域,包括计算机网络安全和保健。
技术实现思路
本说明书描述了数据处理系统可以如何根据利用指示在一个或多个特定数据处理系统中用户访问的资源的数据的各种技术,将用户行为分类为异常或非异常。即使用户可能有权访问所有访问的资源,系统仍然可以将某些用户的行为归类为可疑的。通常,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示所述用户在主体系统中访问的一个或多个资源,以及对于用户访问的每个资源,该资源何时被访问;从用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从用户行为数据生成训练数据,所述训练数据包括在测试时间段之前的多个时间段中的每个时间段中由用户访问的资源的相应的第二表示;从训练数据生成初始模型,所述初始模型具有训练数据的第一特性特征;从训练数据以及从测试时间段的第一表示的多个实例生成重采样模型,所述重采样模型具有训练数据的第二特性特征和测试时间段的第一表示的多个实例;计算初始模型和重采样模型之间的差异,包括比较训练数据的第一特性特征和训练数据的第二特性特征以及测试时间段的第一表示的多个实例;以及基于初始模型和重采样模型之间的差异,将测试时间段中的用户行为分类为异常。这个方面的其他实施例包括记录在一个或多个计算机存储设备上的对应的计算机系统、装置和计算机程序,每个计算机程序被配置为执行这些方法的动作。对于被配置为执行特定操作或动作的一个或多个计算机系统,意味着该系统上已经安装了软件、固件、硬件或者它们的组合,这些软件、固件、硬件或者它们的组合在操作中使系统执行操作或动作。对于被配置为执行特定操作或动作的一个或多个计算机程序意味着所述一个或多个程序包括在由数据处理装置执行时使装置执行操作或动作的指令。前述和其它实施例可以各自任选地包括单独或组合的一个或多个以下特征。用户行为数据包括用户访问记录,每个用户访问记录表示在文件系统中用户访问的文件夹或文件。该动作包括对第一矩阵执行主分量分析以生成第一矩阵的第一多个主分量;从训练数据的多个向量生成第二矩阵;和对第二矩阵执行主分量分析以生成第二矩阵的第二多个主分量,其中计算初始模型和重采样模型之间的差异包括计算第一多个主分量和第二多个主分量中的一个或多个主分量之间的角度。该动作包括生成包括训练数据的向量和测试数据的相同向量的N个实例的第一矩阵;对第一矩阵执行奇异值分解以生成第一矩阵的第一多个主分量;从训练数据的多个向量生成第二矩阵;和对第二矩阵执行奇异值分解以生成第二矩阵的第二多个主成分,其中计算初始模型和重采样模型之间的差异包括计算第一多个主分量和第二多个主分量中的一个或多个主分量之间的角度。本说明书中描述的主题的另一个创新方面可以体现在在包括以下动作的方法:获得多个主题,每个主题是表示在个体用户的用户行为数据中频繁同时出现的多个文件类型的数据;获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示在主体系统中所述用户访问的文件的文件类型以及所述文件何时被所述用户访问;从用户行为数据生成测试数据,所述测试数据包括根据用户行为数据的文件类型在测试时间段期间所述用户访问主题的第一表示;从用户行为数据生成训练数据,所述训练数据包括所述用户在测试时间段之前的多个时间段的每一个时间段中访问的主题的相应的第二表示;从测试数据生成初始SVD模型;从来自在测试时间段期间用户访问主题的第一表示的多个实例的训练数据生成重采样模型;计算初始模型和重采样模型之间的差异;和基于初始模型和重采样模型之间的差异,将测试时间段中的用户行为分类为异常。这个方面的其他实施例包括记录在一个或多个计算机存储设备上的相应的计算机系统、装置和计算机程序,每个计算机程序被配置为执行这些方法的动作。前述和其它实施例可以各自任选地包括单独或组合的一个或多个以下特征。这些动作包括根据在主体系统中多个用户访问的文件的文件类型中生成多个主题。所述动作包括使用主题建模过程来生成所述主题,所述主题建模过程包括将每个用户定义为文档,并且将每个用户访问的每个文件类型定义为对应文档中的项。使用主题建模过程生成主题包括生成预定数量K的主题。这些动作包括对K的多个候选值进行迭代;和选择K的特定候选值作为预定数量K。本说明书中描述的主题的另一个创新性方面可以体现在包括以下动作的方法:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示在所述主体系统中所述用户访问的一个或多个资源,以及对于所述用户访问的每个资源,该资源何时被访问;从用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从用户行为数据生成训练数据,所述训练数据包括在测试时间段之前的多个时间段中的每个时间段中由用户访问的资源的相应的第二表示;从训练数据生成初始路径图,其中所述初始路径图包括表示在由训练数据表示的一个或多个时间段期间在主体系统中由用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示用户从由所述对节点的第二节点所表示的第二资源访问所述对节点的第一节点所表示的第一资源;从测试数据生成测试路径图,其中所述测试路径图包括表示测试时间段期间用户在实主体系统中访问的资源的节点以及一对或多对节点之间的链接,其中每对节点之间的链接表示用户从由所述对节点的第二节点所表示的第二资源访问所述对节点的第一节点所表示的第一资源;计算初始路径图与测试路径图之间的差异;和基于初始路径图和测试路径图之间的差异,将用户在测试时间段内的用户行为分类为异常。前述和其它实施例可以各自任选地包括单独或组合的一个或多个以下特征。用户行为数据包括用户访问记录,每个用户访问记录表示在文件系统中用户访问的文件夹或文件。生成初始路径图包括从用户的训练数据和用户在主体系统中的一个或多个对等方的训练数据生成初始路径图。所述动作包括确定主体系统中的一个或多个其他用户,所述其他用户在由训练数据表示的时间段期间访问与所述用户共同的至少阈值数量的资源;和指定一个或多个其他用户作为所述用户在主体系统中的对等方。计算初始路径图与测试路径图之间的差异包括计算初始路径图与测试路径图之间的Jaccard距离,其中所述Jaccard距离是基于在初始路径图和测试路径图之间节点的交集基数、以及在初始路径图和测试路径图之间的节点的并集基数。计算初始路径图与测试路径图之间的差异包括获得由与初始路径图和测试路径图中的节点表示的资源相关联的权重;和计算初始路径图与测试路径图之间的加权Jaccard距离,其中所述加权Jaccard距离是基于在初始路径图与测试路径图的交集中出现的所有节点的权重之和、以及测试路径图中出现的所有节点的权重之和。这些操作包括向主体系统中的文件夹指派比所述主体系统中的所述文件夹的子文件夹高的权重。这些操作包括向主体系统中高于所述资源的层级中的阈值数量的级别的所有资源指派相同的权重。权重是基于所述资源的受欢迎程度的度量。该动作包括生成混合图,其中所述混合图包括表示系统中的用户的本文档来自技高网...
将用户行为分类为异常

【技术保护点】
一种计算机实现的方法,包括:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示在所述主体系统中所述用户访问的一个或多个资源,以及对于所述用户访问的每个资源,该资源何时被访问;从所述用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从所述用户行为数据生成训练数据,所述训练数据包括在所述测试时间段之前的多个时间段中的每个时间段中由所述用户访问的资源的相应的第二表示;从所述训练数据生成初始路径图,其中所述初始路径图包括表示在由所述训练数据表示的一个或多个时间段期间在所述主体系统中由所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;从所述测试数据生成测试路径图,其中所述测试路径图包括表示所述测试时间段期间在所述主体系统中所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;计算所述初始路径图与所述测试路径图之间的差异;以及基于所述初始路径图和所述测试路径图之间的所述差异,将所述用户在所述测试时间段内的所述用户行为分类为异常。...

【技术特征摘要】
【国外来华专利技术】2015.07.27 US 14/810,3281.一种计算机实现的方法,包括:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示在所述主体系统中所述用户访问的一个或多个资源,以及对于所述用户访问的每个资源,该资源何时被访问;从所述用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从所述用户行为数据生成训练数据,所述训练数据包括在所述测试时间段之前的多个时间段中的每个时间段中由所述用户访问的资源的相应的第二表示;从所述训练数据生成初始路径图,其中所述初始路径图包括表示在由所述训练数据表示的一个或多个时间段期间在所述主体系统中由所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;从所述测试数据生成测试路径图,其中所述测试路径图包括表示所述测试时间段期间在所述主体系统中所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;计算所述初始路径图与所述测试路径图之间的差异;以及基于所述初始路径图和所述测试路径图之间的所述差异,将所述用户在所述测试时间段内的所述用户行为分类为异常。2.根据权利要求1所述的方法,其中,所述用户行为数据包括用户访问记录,每个所述用户访问记录表示在文件系统中所述用户访问的文件夹或文件。3.根据权利要求1所述的方法,其中,生成所述初始路径图包括从所述用户的训练数据和在所述主体系统中所述用户的一个或多个对等方的训练数据生成所述初始路径图。4.根据权利要求3所述的方法,进一步包括:确定所述主体系统中的一个或多个其他用户,所述一个或多个其他用户在由所述训练数据表示的时间段期间访问与所述用户共同的至少阈值数量的资源;以及指定所述一个或多个其他用户作为在所述主体系统中所述用户的对等方。5.根据权利要求1所述的方法,其中,计算所述初始路径图与所述测试路径图之间的差异包括计算所述初始路径图与所述测试路径图之间的Jaccard距离,其中所述Jaccard距离是基于在所述初始路径图和所述测试路径图之间节点的交集基数、以及在所述初始路径图和所述测试路径图之间的节点的并集基数。6.根据权利要求1所述的方法,其中,计算所述初始路径图与所述测试路径图之间的所述差异包括:获得与由所述初始路径图和所述测试路径图中的节点表示的资源相关联的权重;以及计算所述初始路径图与所述测试路径图之间的加权Jaccard距离,其中所述加权Jaccard距离是基于在所述初始路径图与所述测试路径图的交集中出现的所有节点的权重之和、以及在所述测试路径图中出现的所有节点的权重之和。7.根据权利要求6所述的方法,进一步包括向所述主体系统中的文件夹指派比所述主体系统中的所述文件夹的子文件夹高的权重。8.根据权利要求6所述的方法,进一步包括向所述主体系统中高于所述资源的层级中的阈值数量的级别的所有资源指派相同的权重。9.根据权利要求6所述的方法,其中,所述权重是基于所述资源的受欢迎程度的度量。10.根据权利要求9所述的方法,进一步包括:生成混合图,其中所述混合图包括表示所述系统中的用户的用户节点和表示所述系统中的资源的资源节点,其中所述混合图包括用户-资源链接和资源-资源链接,其中每个用户-资源链接表示访问所述系统中的资源的相应用户,其中每个资源-资源链接表示所述系统中的资源的结构;根据所述混合图计算所述系统中的一个或多个资源的受欢迎程度的度量;选择具有受欢迎程度的最高度量的一个或多个节点;以及将到具有受欢迎程度的所述最高度量的所述一个或多个节点中的每一个节点的路径添加到针对所述用户的所述初始路径图。11.一种计算机实现的方法,包括:获得多个主题,每个主题是表示在个体用户的用户行为数据中频繁同时出现的多个文件类型的数据;获得表示在主体系统中...

【专利技术属性】
技术研发人员:余瑾雷古纳坦·拉达克里希南阿尼鲁德·孔达维蒂
申请(专利权)人:皮沃塔尔软件公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1