【技术实现步骤摘要】
【国外来华专利技术】将用户行为分类为异常
技术介绍
本说明书涉及检测大型数据集中的异常。用于检测大数据集中的异常的技术可以用于数据处理应用的多个领域,包括计算机网络安全和保健。
技术实现思路
本说明书描述了数据处理系统可以如何根据利用指示在一个或多个特定数据处理系统中用户访问的资源的数据的各种技术,将用户行为分类为异常或非异常。即使用户可能有权访问所有访问的资源,系统仍然可以将某些用户的行为归类为可疑的。通常,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示所述用户在主体系统中访问的一个或多个资源,以及对于用户访问的每个资源,该资源何时被访问;从用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从用户行为数据生成训练数据,所述训练数据包括在测试时间段之前的多个时间段中的每个时间段中由用户访问的资源的相应的第二表示;从训练数据生成初始模型,所述初始模型具有训练数据的第一特性特征;从训练数据以及从测试时间段的第一表示的多个实例生成重采样模型,所述重采样模型具有训练数据的第二特性特征和测试时间段的第一表示的多个实例;计算初始模型和重采样模型之间的差异,包括比较训练数据的第一特性特征和训练数据的第二特性特征以及测试时间段的第一表示的多个实例;以及基于初始模型和重采样模型之间的差异,将测试时间段中的用户行为分类为异常。这个方面的其他实施例包括记录在一个或多个计算机存储设备上的对应的计算机系统、装置和计算机程序,每个计算机程序被配置为执行这些方法的动作。对于被配置为执行特定 ...
【技术保护点】
一种计算机实现的方法,包括:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示在所述主体系统中所述用户访问的一个或多个资源,以及对于所述用户访问的每个资源,该资源何时被访问;从所述用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从所述用户行为数据生成训练数据,所述训练数据包括在所述测试时间段之前的多个时间段中的每个时间段中由所述用户访问的资源的相应的第二表示;从所述训练数据生成初始路径图,其中所述初始路径图包括表示在由所述训练数据表示的一个或多个时间段期间在所述主体系统中由所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;从所述测试数据生成测试路径图,其中所述测试路径图包括表示所述测试时间段期间在所述主体系统中所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;计算所述初始路径图与所述测 ...
【技术特征摘要】
【国外来华专利技术】2015.07.27 US 14/810,3281.一种计算机实现的方法,包括:获得表示在主体系统中用户的行为的用户行为数据,其中所述用户行为数据指示在所述主体系统中所述用户访问的一个或多个资源,以及对于所述用户访问的每个资源,该资源何时被访问;从所述用户行为数据生成测试数据,所述测试数据包括在测试时间段期间由所述用户访问的资源的第一表示;从所述用户行为数据生成训练数据,所述训练数据包括在所述测试时间段之前的多个时间段中的每个时间段中由所述用户访问的资源的相应的第二表示;从所述训练数据生成初始路径图,其中所述初始路径图包括表示在由所述训练数据表示的一个或多个时间段期间在所述主体系统中由所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;从所述测试数据生成测试路径图,其中所述测试路径图包括表示所述测试时间段期间在所述主体系统中所述用户访问的资源的节点、以及一对或多对节点之间的链接,其中每对节点之间的每个链接表示所述用户从由该对节点的第二节点所表示的第二资源访问该对节点的第一节点所表示的第一资源;计算所述初始路径图与所述测试路径图之间的差异;以及基于所述初始路径图和所述测试路径图之间的所述差异,将所述用户在所述测试时间段内的所述用户行为分类为异常。2.根据权利要求1所述的方法,其中,所述用户行为数据包括用户访问记录,每个所述用户访问记录表示在文件系统中所述用户访问的文件夹或文件。3.根据权利要求1所述的方法,其中,生成所述初始路径图包括从所述用户的训练数据和在所述主体系统中所述用户的一个或多个对等方的训练数据生成所述初始路径图。4.根据权利要求3所述的方法,进一步包括:确定所述主体系统中的一个或多个其他用户,所述一个或多个其他用户在由所述训练数据表示的时间段期间访问与所述用户共同的至少阈值数量的资源;以及指定所述一个或多个其他用户作为在所述主体系统中所述用户的对等方。5.根据权利要求1所述的方法,其中,计算所述初始路径图与所述测试路径图之间的差异包括计算所述初始路径图与所述测试路径图之间的Jaccard距离,其中所述Jaccard距离是基于在所述初始路径图和所述测试路径图之间节点的交集基数、以及在所述初始路径图和所述测试路径图之间的节点的并集基数。6.根据权利要求1所述的方法,其中,计算所述初始路径图与所述测试路径图之间的所述差异包括:获得与由所述初始路径图和所述测试路径图中的节点表示的资源相关联的权重;以及计算所述初始路径图与所述测试路径图之间的加权Jaccard距离,其中所述加权Jaccard距离是基于在所述初始路径图与所述测试路径图的交集中出现的所有节点的权重之和、以及在所述测试路径图中出现的所有节点的权重之和。7.根据权利要求6所述的方法,进一步包括向所述主体系统中的文件夹指派比所述主体系统中的所述文件夹的子文件夹高的权重。8.根据权利要求6所述的方法,进一步包括向所述主体系统中高于所述资源的层级中的阈值数量的级别的所有资源指派相同的权重。9.根据权利要求6所述的方法,其中,所述权重是基于所述资源的受欢迎程度的度量。10.根据权利要求9所述的方法,进一步包括:生成混合图,其中所述混合图包括表示所述系统中的用户的用户节点和表示所述系统中的资源的资源节点,其中所述混合图包括用户-资源链接和资源-资源链接,其中每个用户-资源链接表示访问所述系统中的资源的相应用户,其中每个资源-资源链接表示所述系统中的资源的结构;根据所述混合图计算所述系统中的一个或多个资源的受欢迎程度的度量;选择具有受欢迎程度的最高度量的一个或多个节点;以及将到具有受欢迎程度的所述最高度量的所述一个或多个节点中的每一个节点的路径添加到针对所述用户的所述初始路径图。11.一种计算机实现的方法,包括:获得多个主题,每个主题是表示在个体用户的用户行为数据中频繁同时出现的多个文件类型的数据;获得表示在主体系统中...
【专利技术属性】
技术研发人员:余瑾,雷古纳坦·拉达克里希南,阿尼鲁德·孔达维蒂,
申请(专利权)人:皮沃塔尔软件公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。