分布式特征收集与关联引擎的方法与系统技术方案

技术编号:12666388 阅读:137 留言:0更新日期:2016-01-07 04:20
提供了分布式的特征收集和关联引擎。特征收集包括:获取一个或多个数据记录;基于领域知识从所述一个或多个数据记录抽取信息;将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。从数据记录中抽取的特征能够通过获取包括所述抽取的特征的特征存储数据库来查询,所述抽取的特征存储为包括键K和值V的键/值对,其中所述键包括特征标识符;接收包括至少一个查询键的查询;从所述特征存储数据库中检索匹配所述查询键的值;返回一个或多个检索到的键/值对。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般性地涉及了电气、电子及计算机技术,更为特别的是涉及了获取以及处理数据的技术。
技术介绍
很多企业面临着转向复杂和演变中的网络安全威胁的挑战。攻击者越来越多的使用秘密的攻击技术来帮助隐藏它们的外表,或至少减少被检测到的可能性,例如,通过跨多个机器隐藏他们的攻击步骤,以及使用不同的应用协议,或者在长时间期间分布他们的行为。许多这样的威胁被称为高级持续性威胁(APT)。检测和调查这样的复杂攻击模式需要收集、存储、以及分析来自各种薄弱点、不同数据源和多个抽象层的事件。经常以每秒数千事件的速率输出的监测数据,需要被收集、存储以及可提供用于实时分析和历史分析。由于这样的负担以及各种各样的相关数据类型和不同的收集延迟,网络安全调查已经成为重要的数据问题。许多收集的事件只有当他们被放入到经过可能的大时间窗口(例如几个星期或几个月)的跨不同数据源的上下文中,以形成网络中正在进行的和过去行为的全貌(big picture)并过滤掉错误警报或具有很小或没有影响的异常时,才会变得有意义。对这种安全事件的及时响应,需要近乎实时的数据分析,而调查则需要访问跨大时间窗口的历史数据。然而,现有的方案用相对小的时间窗口实时处理数据或者历史数据并且需要顺序访问所存储的数据。输入/输出(1)的限制变成了主要因素,现有方案通过在大的机器集群上分散1来解决此问题,而这会增加建立和重组合数据的成本。存在对用来获取和处理原始数据的技术改进的需求。对于数据处理系统,还存进一步需求从而允许:(i)基本上实时的数据分析以提供对事件的及时响应;以及(ii)访问跨大的时间窗口的历史数据以允许调查。
技术实现思路
—般的,提供了用于分布式特征收集和关联的方法及装置。根据该专利技术的一个方面,特征抽取数据处理方法包括步骤:获取一个或多个数据记录;基于领域知识从所述一个或多个数据记录抽取信息;将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。.根据本专利技术的一个方面,用于查询从一个或多个数据记录中抽取的一个或多个特征的方法包括步骤:获取包括所述抽取的特征的特征存储数据库,所述抽取的特征存储为包括键K和值V的键/值对,其中所述键包括特征标识符;接收包括至少一个查询键的查询;从所述特征存储数据库中检索匹配所述查询键的值;返回一个或多个检索到的键/值对。通过参考下列详细的描述以及附图,将会获得对本专利技术、以及进一步的特征和本专利技术的优势的更为全面的理解。【附图说明】图1是示例性的采用了本专利技术各个方面的特征收集和关联引擎(FCCE)系统100的框图;图2是描述了采用本专利技术各个方面的特征抽取器的示范性实现的流程图;图3A和图3B是描述了采用本专利技术各个方面的特征收集器的示范性实施方式的流程图;图4A示出了采用本专利技术各个方面的示范性的特征存储器;图4B是描述了采用本专利技术各个方面的写过程示范性实现的流程图;图4C描述了采用本专利技术各个方面的读过程的示范性实现的流程图;图5A和图5B分别是描述了查询服务器注册过程以及客户机查询服务器发现过程的示范性实现的流程图;图6是描述了采用本专利技术各个方面的查询服务器过程的示范性实现的流程图;图7A和图7B分别是描述了通过示范性的订阅服务器提供的新的客户机/模式订阅过程以及新的匹配特征流过程的示范性实现的流程图;图8示出了根据本专利技术的各个方面的安全威胁的示范性分析。【具体实施方式】本专利技术的各个方面提供了特征收集和关联引擎(FCCE)。根据本专利技术的一个方面,该示例性公开的FCCE系统包括抽取、正规化、存储、获取以及关联来自多种数据源的特征(features)的分布式数据管理系统。该示例性FCCE系统支持地理上分布的数据源,不需要源之间的持续的连接,并且在分布式的引擎架构中提供对个别节点故障的恢复。根据本专利技术的另一方面,能够在数据摄取点应用领域知识来抽取核心特征,应用去重复机制从而能够大大地减少数据量,用层级结构的收集系统,使得去重的跨所有数据集的核心特征到达概念上的中心地点,在那里,他们或者近乎实时地可用,或能以历史方式得到访问,从而能够探测或调查网络威胁。根据本专利技术的另一方面,为每个抽取的特征定义键和值。所述键被用于识别被作为数学集合的值的特定桶(bucket)。所述数学集合允许不考虑时序地来采集数据。按照这种方式,旧的历史数据能连同实时数据一起被摄入系统中。图1是示例性的采用了本专利技术的方面的特征收集和关联引擎(FCCE)系统100的框图。如图1所示,FCCE系统100的示例性实施例包括特征抽取120的数据摄取框架105 (摄取并处理来自数据源110的原始数据以抽象抽取的特征125);特征聚合130 (收集和合并来自不同数据源110的所抽取的特征125);以及特征存储器140(存储该聚合的以及去重复的结果135)。此外,FCCE系统100的该示例性的实施例包括数据获取框架150,其包括特征获取层160,为数据消费者170有效地查询感兴趣的特征提供接口。如图1所示,示范性的FCCE系统100包括:至少一个特征抽取器200,会在下面结合图2进一步讨论;至少一个特征收集器300,会在下面结合图3进一步讨论;至少一个特征库400,会在下面结合图4进一步讨论;可选的一个或更多个注册服务器(RS) 500,会在下面结合图5进一步讨论;可选的一个或更多个查询服务器(QS) 600,会在下面结合图6进一步讨论;以及可选的一个或更多个订阅服务器(SS) 700,会在下面结合图7进一步讨论。—般的,如下文所讨论的,示范性的特征库(FS) 400以键-值库为基础,存储与原始数据相关的特征,用于以后以高伸缩性(highly scalable)的方式获取相关的特征。通常,该示范性特征抽取器200连接至原始数据源110 (现场或批次/存储的)(live orbatch/stored)并且抽取被转发至至少一个特征收集器300的特征。在一个示范性实施例中,该数据源110包括域名服务器(DNS)数据110-1,入侵防护系统(IPS)警报110-2以及网络流数据(netflow data)110-N。该示范性特征收集器300进而验证该特征并将它们存储在至少一个特征库400中。FCCE系统100的数据获取框架150支持关联特征的获取。客户机(例如分析应用180以及可视化工具)能够查询所选择的特征库400或让一个或多个查询服务器600从该特征库400返回与所提供的键匹配的特征。查询服务器600将会返回在其特征存储器中的与所提供的键相匹配的当前可用的任意特征。客户机还能够从一个或多个订阅服务器700请求特征,订阅服务器700会连续返回与该键匹配的进入该特征存储器的任何新的特征。查询提供者/订阅提供者165为客户机提供前端或中间层以与特征库400、注册服务器500、查询服务器600以及订阅服务器700通信。注册服务器500能够在任何组件之间代理连接(broker connect1ns)。组件向注册服务器500注册,并且将它们的能力通知给注册服务器500。其它组件或客户机从而能够基于所提供的能力在该注册服务器500中查询任何注册的组件。能够提本文档来自技高网
...

【技术保护点】
一种数据处理方法,包括:获取一个或多个数据记录;基于领域知识从所述一个或多个数据记录抽取信息;将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M克里斯托多雷斯库胡欣DL沙尔斯R赛勒MP斯托克林王挺
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1