用于演进分析的系统技术方案

技术编号:10600144 阅读:161 留言:0更新日期:2014-11-05 13:14
一种用于演进分析的系统通过下述操作来支持三个维度(分析工作流、用户和数据):通过使用物化为系统中的先前工作流执行运行的一部分的答案,重写工作流以便更高效。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】一种用于演进分析的系统通过下述操作来支持三个维度(分析工作流、用户和数据):通过使用物化为系统中的先前工作流执行运行的一部分的答案,重写工作流以便更高效。【专利说明】用于演进分析的系统本申请是于2012年6月27日提交的序列号为61664971的临时申请的非临时申请并要求该临时申请的优先权,该临时申请的内容通过弓I用而并入。
技术介绍
本专利技术涉及演进分析。 知识驱动的企业采用了运用其业务的每个方面的进取型策略,并鼓励雇员在所收集的大量原始数据中找到价值。数据驱动的决策(DDD)没有给不受改变影响的知识驱动的企业留余地,只要在数据中存在足够的证据对其进行支持即可。组织收集数据作为可能具有未知价值的日志,因而,执行提取-变换-加载(ETL)由于ETL的高支出而不可行。ETL需要昂贵的正式过程,并需要数据看起来像什么以及价值驻留于何处的先验知识。典型地,日志是大的、平的且具有低结构,增加了典型数据库的ETL的复杂度,这是由于这需要一种数据库设计,其中其结构完全是预定义的。出于这些原因,许多数据从未被彻底地评估,并且需要数据分析者来分析现代组织所收集的不断增长的数据量并产生可付诸行动的见解。如所期望的那样,这种类型的分析本质上是高度探索性的并涉及下述迭代过程:数据分析者以对数据的初始查询开始,检查结果,然后重新制定查询,且甚至可以将附加数据源带进来,等等。典型地,这些查询涉及与数据的类型和分析的目的相联系的完善的、域专用的操作,例如,通过推特消息(tweets)来执行情感分析或者计算每个节点在大社交网络内的影响。 大规模系统(诸如MapReduce (MR)和Hadoop)执行中间作业结果的进取型物化,以支持容错。当作业与由数据分析者提交的探索性查询相对应时,这些物化产生物化视图的大集合,其典型地捕获来自相同分析者的接续查询当中或者甚至跨越对类似假设进行测试的不同分析者的查询的公共计算。不出所料的是,如果MapReduce是原始框架,则其开源化身Hadoop或衍生系统(诸如供应说明性查询语言的Pig和Hive)已变成用于这种类型的分析的实际的工具。除了供应对大数据集的可扩缩性外,MR便于并入新数据源,这是由于不存在在最前面定义纲要和导入数据的需要,并且MR通过可在数据上应用的用户定义函数(UDF)的机制提供可扩展性。 UDF是处于在关系数据库和存储装置(诸如SQL)中可用的标准操作的范围外的那些UDF。典型UDF的示例是分类函数。这可能将user_id和某文本当作输入,然后从该文本提取一些实体(对象,专有名词)并将用户的周围文本分类为与那些实体有关的正面或负面情感。由于数据值是未知的,因此分析者最初通常缺乏对数据的完整理解,并将需要提出初始查询(工作流),然后随着当前答案通知查询的向着最终期望成果的下一演进,改善该初始查询。此外,诸如UDF之类的复杂函数通常需要通过反复试验(trial and error)而凭经验调谐,分析者通常将需要重复和改善分析任务多次,直到他们对关于数据的成果满意为止。 由于单个MR作业的计算范围有限,因此科学家典型地把查询实现为将数据馈送至彼此的全体MR作业。相当频繁地,以说明性查询语言(例如,使用HiveQL和PigLatin)编写这种查询,并且然后将这种查询自动翻译成MR作业的集合。 不管MR系统的普及度如何,查询性能仍是关键问题,其进而直接影响数据分析者可测试假设和汇集成结论的“速度”。可以通过减小MR的开销来实现一些增益,但是,性能的关键阻碍是吸收大数据集且跨越若干MR作业(实践中,公共类别)的查询的内在复杂度。先验调谐(例如,通过对数据重新组织或预处理)由于探索性分析的流动性和不确定性而相当富有挑战性。
技术实现思路
在一个方面中,一种用于演进分析的系统通过下述操作来支持三个维度(分析工作流、用户和数据演进):通过使用物化为系统中的先前工作流执行运行的一部分的答案,重写工作流以便更高效。 在另一方面中,一种用于演进分析的系统通过下述操作来支持该三个维度:通过使用物化为系统中的先前工作流执行运行的一部分的答案,重写工作流以便更高效。该系统将查询重写部件与由分析者使用的现有查询执行引擎进行集成。优化器采取以某说明性语言编写的查询并将其翻译成由MR作业构成的执行计划。通过将重写器14以及物化的视图元数据存储装置16进行集成来扩展目标执行引擎。 上述系统的实现可以包括下面的一项或多项。针对作为大日志的基本数据来表达查询,并且查询包含UDF。每个MR作业对其向稳定存储装置(例如,Hadoop中的HDFS )的输出进行物化。在一个实施例中,优化器可以提供针对允许进入系统的UDF的代价估计。为了令重写器与目标引擎的优化器进行通信,将优化器进行扩展以生成在每个计划节点上具有下述两种类型的注释的计划:(1)其计算的逻辑表达式;以及(2)所估计的执行代价。重写器在搜索针对节点的输出的重写时在注释中使用逻辑表达式。该表达式由关系算子或UDF构成。对于在搜索期间找到的每个重写,重写器利用优化器来获得计划和所估计的代价。在查询执行期间,保留查询处理的所有副产品作为机会性物化视图,并将该所有副产品存储在系统中,变成其机会性物理设计配置的一部分。物化视图元数据存储装置包含与当前处于系统中的物化视图有关的信息(诸如视图定义)以及在查询优化中使用的标准数据统计。 优选实施例的优势可以包括下面的一项或多项。系统较不复杂。从用户的角度来看,重写是在没有用户的引导或暗示的情况下自动完成的。从系统的角度来看,物理设计是自动化的且在没有提供者的引导的情况下连续调谐的。系统在算法上以工作高效的方式找到最优重写。此外,实现了更快速的运算。从用户和系统的角度来看,该方法保证了系统使用系统中的现有人工产物提供分析者查询的可能的最便宜(最优)重写。从算法的角度来看,由于0PTC0ST,该算法搜索最小量的解空间以找到最优重写,这是在不精简解空间的情况下完成的。工作流重写技术通过产生使用系统中的所有可用人工产物减少工作流执行时间的重写,以工作高效的方式找到演进工作流的最优重写。这导致从用户的观点来看更快的性能以及从系统提供者的观点来看回答查询所消耗的系统资源的量减少。乐观代价函数(optimistic cost funct1n)0PTC0ST的使用使工作流重写算法能够递增地搜索重写的空间,这使系统能够创建(激增)和搜索找到最优重写所必需的最小量的解空间。UDF的灰盒模型是具有表现力的,但有利于重写。灰盒方法允许任何用户以少量的努力将UDF添加至系统。这允许系统搜索UDF的重写,并允许任何其他分析者使用该UDF。此外,系统操作者还可以选择将重写语言扩展成包括UDF,但利用更大量的努力。该模型比单独暗示更通用且更富有表现性。 【专利附图】【附图说明】 图1示出了可同时支持演进的三个维度的灵活系统。 图2示出了示出控制流程的系统框架的示例性高级总览。 图3示出了支持系统中的工作流的演进和新数据集的示例性过程。 图4示出了系统中的新用户的演进的示例性过程。 图5示出了重写的示例性过程。 图6示出了内部处理和维持工作流以支持有效且高效的演进的示例性系统。 图7示出了精简本文档来自技高网
...

【技术保护点】
一种用于支持演进查询的方法,包括:保留来自先前查询或工作流执行运行的人工产物(物化视图);提供用户定义函数(UDF)的灰盒模型以支持针对UDF的重写的搜索;自动地产生使用人工产物减少工作流执行时间的重写;以及递增地搜索要创建(激增)的重写的空间并搜索最小量的解空间以找到最优重写。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:VH哈奇古穆斯J桑卡拉纳拉亚南J勒菲弗尔J塔特穆拉N波利佐蒂斯
申请(专利权)人:美国日本电气实验室公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1