时间序列搜索引擎制造技术

技术编号:5487055 阅读:211 留言:0更新日期:2012-04-11 18:40
根据本发明专利技术的方法和装置基于搜索而提供组织、编制索引、搜索和呈现时间序列数据的能力。时间序列数据通常是一个或多个连续流中出现的具有时间戳的记录的序列,其表示某些类型的活动。在一个实施方式中,利用规格化时间戳将时间序列数据组织为离散事件,并且通过时间和关键字对这些事件编制索引。接收搜索请求,并且整体或部分地基于时间索引机制、关键字索引机制或搜索时计算的统计索引来检索相关事件信息。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及信息组织、搜索以及检索,并且更特别地涉 及时间序列(time series )数据组织、溲索以及才全索。
技术介绍
时间序列数据通常是一个或多个连续流中出现的具有时间戳的 记录的序列,其表示由离散事件组成的某些类型的活动。示例包括 信息处理日志、市场交易以及来自于实时监视器的传感器数据(供 应链、军事操作网络或安全系统)。为了理解以及利用发出大量时间序列数据的系统,编制索引、搜索以及呈现相关搜索结果是重要的。现有的大规模搜索引擎(例如,Google和Yahoo的web搜索) 设计为满足对时间性不太敏感类数据的需要,并且该搜索引擎建立 在如下假设上,即仅需要在索引库中存储数据的一个状态,例如, Web搜索索引中的URL、客户数据库中的记录或作为文件系统一部 分的文档。针对信息的搜索通常基于关键字搜索项而仅检索单个信 息的副本来自于几天前编制索引的Web站点的URL集合、来自于 昨天营业结束时的客户记录或指定版本的文档。相反,考虑来自于如图1所示的典型信息处理环境中的时间序 列数据的示例。防火墙、路由器、web服务器、应用服务器和数据库总是生成事件形式的数据流,其中,每秒可能出现数百次或数千 次事件。这里,随时间变化的数据行为模式以及历史数据值通常与 当前数据值一样重要。目前的搜索方案通常几乎不具有基于时间编 制索引、搜索或结果呈现中相关性的概念,并且不符合时间序列数 据的需要。与全文本搜索引擎(全文本搜索引擎对其索引进行组织,从而 检索具有最高相关性分数的文档是最有效的)相比,搜索时间序列 数据的引擎优选地对索引进行组织,从而对各种时间范围(包括不 太近的时间范围)的访问是有效的。例如,与很多现代搜索引擎不同,对于时间序列搜索引擎来说,对特定关键字的前iooo个结果进 行高速緩存没有显著的益处。另一方面,鉴于时间序列数据的重复性质,存在对索引构造效 率和搜索优化的机会。然而,由于可以从多个不同的源异步地、乱 序地收集数据,因此对时间序列数据编制索引进一步复杂化。来自 于 一 个源的数据流可能是数秒前的,而来自于另 一个源的数据可以 与其他源交织,或者可能比其他源要早数天、数周或数月。而且, 数据源时间可能不是彼此同步的,这需要在编制索引后的时间偏移 中进行调整。此外,时间戳可以具有几乎无限数量的格式,导致难 以标识以及解释。在没有针对位置、格式或时间粒度(例如,日、 小时、分钟、秒、亚秒)的标准的情况下,可能很难定位数据内的 时间戳。搜索时间序列数据通常涉及以下能力有效地将搜索结果限制 到指定时间窗以及基于时间的其他元数据(诸如频率、时间间隔分 布)以及结果出现总数或类别。基于关键字的搜索通常在重要性方 面是次要的,但是其在与基于时间的搜索机制组合时可能是强有力 的。搜索时间序列数据需要全新的快速搜索方式。搜索引擎如今允 许用户通过最频繁出现的项或数据内的关键字来进行搜索,并且通 常几乎没有基于时间搜索的概念。如果存在大量时间序列数据并且 具有重复性特征,则用户通常需要由使用基于时间的搜索机制缩小潜在的搜索结果集合开始,然后通过检验结果、选择一个或多个关 键字添加到它们的搜索参数。时间帧和基于时间的元数据(比如频 率、分布和出现概率)在搜索时间序列数据时是特别重要的,但是利用当前搜索引擎方法很难实现。例如,尝试利用基于Web的新闻 站点搜索引擎查找2005年5月10日上午10点到11点之间所有涉 及"航天飞机,,的报道或同一天中每小时"航天飞机,,报道的平均 数量。由于关注数据何时出现,基于时间的搜索机制和查询对于搜 索时间序列数据可能是有用的。在特定的小规模领域中,存在某些现有的、基于时间搜索的有 限应用。例如,电子邮件搜索如今在很多主流电子邮件程序和基于 web的电子邮件服务中可用。然而,搜索限于简单的时间功能,比 如,某时间之前、之后或时间范围;数据集合通常是小规模的,并 且是来自于单个域的高度结构化的;并且实时编制索引机制仅仅是 附加性的,通常需要对交织的新数据重建全部索引。呈现有用结果的挑战是时间序列数据的周期性所独有的。传统 搜索引擎通常按照流行性以及通用性分类来呈现结果。与此相反, 对于时间序列数据,重点可能在于关注数据模式以及不频繁出现或 不寻常结果的能力。优选地,能够通过基于时间的模式和行为来组 织和呈现时间序列搜索结果将是有益的。用户需要在多个粒度(例 如,秒、分钟、小时、日)以及分布(例如,不期望或极少出现) 水平来查看结果的能力,以及查看反映遍及结果集合的模式和行为 的摘要信息的能力。另一方面,在试图首先显示最流行结果时,现 有搜索引擎通常返回按照关键字密度排序的文本结果、使用统计或 去往或来自文档和Web页面的链接。在一类时间序列搜索引擎中,希望该引擎实时地编制索引并且 允许实时地搜索数据。收集时间数据之间的延迟,将可用于搜索的 时间最小化。利用传统的大规模搜索引擎实现针对大量、频繁改变 的数据集合的实时操作,其以快速数据可用性为代价而针对d、的搜 索响应时间进行优化。例如,Web和文档搜索引擎通常以种子开始并且通过爬取(crawl)收集数据,直到经过一定时间量或达到一定 的收集规模。保存该收集的快照,并且建立、优化以及存储索引。 然后,将被频繁访问的索引加载到高速緩存机构中以优化搜索响应 时间。取决于数据集合的大小和索引的密度,该处理可能花费数小 时或甚至数日来完成。这不同于实时时间序列编制索引机制,其中 实时时间序列编制索引机制被设计为,将收集数据的时刻与该数据 可用于搜索的时刻之间的时间最小化。能够在收集数据时自动对索 引进行插入、删除以及重新组织,而不需要重建索引结构,其中该 索引结构对于对时间序列编制索引、以及针对此类时间序列搜索引 擎提供实时搜索结果来说是重要的。关注于时间序列的其他软件(例如,诸如Sawmill或Google的 Sawzall之类的日志事件分析器)可以提供实时分析功能,但是它们 本身不是搜索引擎,因为它们不提供adhoc搜索。在任何分析之前, 必须定义并建立报告。此外,没有通用的基于关键字或基于时间的 搜索机制可用。其他流式传输数据搜索项目(包括Stanford流式项 目以及来自于比如StreamBase Systems公司的产品)还可以产生流式 传输数据的分析和报警,但是不提供任何持久性的数据、编制索引、 基于时间或基于关键字的搜索。因此,需要开发其他技术,用于编制索引、搜索以及呈现来自 时间序列数据的搜索结果。
技术实现思路
根据本专利技术的方法和装置允许使用时间序列搜索引擎(TS SE ) 来编制索引、搜索以及检索时间序列数据,从而满足这些和其他需 要。在一个实现中,TSSE的一个方面是将时间用作编制索引、搜索 和/或呈现搜索结果的主要机制。特定于基于时间的搜索机制的时间 序列搜索语言(TSSL)用于以人类可读的形式来表示搜索,并且使 用特定于时间序列数据的相关性算法来呈现结果。搜索表达与结果 基于对于搜索时间序列数据重要的关键概念,包括但不限于时间窗、频率、分布、出现模式以及来自于多个、离散源的相关时间序列数 据点。在本专利技术的 一个方面中,对时间序列数据的多个源组织以及编 制索引以用于搜索,并且在用户或机器启动搜索时本文档来自技高网
...

【技术保护点】
一种用于时间搜索数据的计算机实现的方法,包括: 接收时间序列数据流; 对所述时间序列数据流标记时间戳,以创建具有时间戳的事件; 对所述具有时间戳的事件编制时间索引,以创建时间分段的索引; 接收时间序列搜索请求;以及   至少部分地通过搜索所述时间分段的索引,来执行所述时间序列搜索请求。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M鲍姆D卡拉索R达斯R格林B哈尔N米利B墨菲S索尔金A斯特克特EM斯旺
申请(专利权)人:斯普兰克公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1