当前位置: 首页 > 专利查询>英特尔公司专利>正文

图形操作制造技术

技术编号:15919348 阅读:28 留言:0更新日期:2017-08-02 04:33
一种用于使用柱状存储来编排数据的表操作与数据的图形操作的系统和方法。编排包括按照类型将顶点和边存储为表的集合,并支持具有不同存储特性的柱状存储。技术还可以包括组合图形查询的链接操作符的图形查询优化器;和/或经由存储器中分布式查询执行引擎执行的图形查询。

【技术实现步骤摘要】
【国外来华专利技术】图形操作相关申请的交叉引用本申请要求2014年12月23日提交的美国专利申请号14/581,964的申请日的权益,其通过引用并入本文。
本技术一般涉及图形操作。更具体地,本技术涉及图形操作与表操作的编排(orchestration),并且在某些情况下涉及图形查询优化和执行。
技术介绍
数据和计算服务的竞争性业务驱动制造商不断改进其流程和产品,以降低生产成本,提供可靠的服务,并改善用户体验。这些在“大数据”时代尤其具有挑战性。大数据是用于描述结构化和非结构化数据的指数增长和可用性的术语。大数据可能是一系列数据集的术语,如此庞大而复杂,以至使用传统的数据处理应用程序难以处理。大数据也可能意味着数据量或大小大于单个机器的存储器容量或存储容量,因此,使用多台机器/服务器/计算机来处理数据或解决问题。随着大数据的出现,挑战包括分析,捕获,策展,搜索,共享,存储,传输,可视化等。再次,存在对数据存储和处理的效率以及关于数据处理的用户体验的持续改进的需求,通常包括关于诸如大数据的大量数据和数据系统配置。附图说明图1是根据本技术的实施例的用于处理数据的装置的图;图2是根据本技术的实施例的用于支持图形操作和表操作的示例性架构的图;图3是根据本技术的实施例的第一执行路径和第二执行路径的图;图4是示出根据本技术的实施例的用于提供图形操作与表操作的编排和查询方面的计算机可读介质的框图;和图5是数据存储中的数据处理操作中的数据结构的示例性图形格式的图表展示。在整个公开内容和图中使用相同的附图标记来指代相似的组件和特征。100系列的数字是指最初出现在图1中的特征;200系列的数字是指最初出现在图2中的特征;等等。具体实施方式本技术的实施例提供了图形与表的编排,即图形/表编排。可以提供相对无缝的图形/表界面。实际上,用户可能能够对与图形或表相同的数据进行操作。用户可以从数据存储和处理中的图形和表之间的无缝或基本无缝的体验中受益。例如,用户可能希望在图形上执行类似表的操作的能力,或者在这一分钟将数据集作为图形进行评估,在下一分钟将数据集作为表进行评估,而无需在存储系统之间导入或导出。本文中的实施例通过采用柱状存储、利用顶点的多于一个表和边的多于一个表以及容纳多个分布式执行引擎来促进这种交互。此外,某些实施例避免专有解决方案,并因此增加灵活性和更无缝的编排。遗憾的是,支持图形和表操作的常规解决方案(如GraphLab或GraphLabCreateTM)和SAP依赖专有平台。专有平台(如GraphLab)通常不能由现成的柱状存储(如Parquet和Cassandra)轻松支持。此外,例如,SAP使用顶点的单个表和边的单个表,也不支持各种柱状存储。类似地,作为通用图形处理引擎的GraphXTM例如使用单个顶点和边列表进行处理,并且本身也不包括存储格式。如本专利技术人所确定的,这些传统特征和诸如邻接列表的其它配置方面可能限制灵活性并阻碍编排。本文提供图形/表编排的实施例可以使用柱状存储来独特地支持图形操作与表操作的编排。一些实施例可以通过以下方式改进编排:(1)将顶点和边存储为按类型划分的表的集合;以及(2)实现一个编排层,便于各种分布式执行引擎上的图形/表编排,如ApacheSoftware的ApacheSparkTM,ApacheSoftware的GraphXTM等。此外,这些改进可能涉及支持具有不同存储特性的柱状存储,例如,诸如ApacheSoftware的Parquet的仅限附加存储,以及诸如ApacheSoftware的Cassandra可更新的存储等。有利地,根据具体的应用和用户要求,非专有平台或专有平台是可应用的。此外,如所指出的,这些技术可以有益地并入和支持各种分布式执行引擎,柱状存储等。总而言之,某些实施例通过将顶点和边作为表的集合存储在柱状数据存储中,并且通过经由选择多个分布式执行引擎实现支持具有表操作的图形操作的编排层,来为用户提供无缝或基本无缝的图形/表体验。在一些示例中,每个顶点类型使用一个表和每个边类型使用一个表来表示顶点和边,而不是单个边和顶点表。顶点和边属性存储在其各自表中的单独的列中,以便于对图形属性的表操作。在特定示例中,元数据存储库跟踪图形属性(例如,多图),图形模式,表示图形的表的集合等。该系统还可以跟踪柱状存储的特性,例如仅附加,可更新,索引支持等。新的编排层可以促进在多个分布式表和图形执行引擎上的无缝或基本无缝的表和图形操作。编排层可以通过在运行时创建(例如,自动)联合的视图来支持单个表或顶点和边表的集合上的操作。编排层还可以基于柱状数据存储的特性提供或容纳用于更新的不同机制,例如关于索引,压缩,对于就地编辑的支持等等。再次,实施例有利地支持在多个分布式表和图形执行引擎上的图形/表操作。与现有技术不同,一些本示例还可以支持具有不同存储特性的柱状存储。由于不限于专门的柱状或图形存储,用户可能有利地体验到灵活性。在实施例中,可以通过将例如元数据添加到定义表示顶点标识(ID),边ID,边标签以及顶点和边属性的列的元数据存储库来将表变换为属性图。相比之下,例如,将表导入Titan的常规方法可能是一个漫长的繁琐的过程。相反,利用本文的实施例,导入表可以是记录关于现有表的元数据的相对简单的过程。此外,采用多个表(每个顶点或边类型采用一个表)的新技术可以促进分布式系统中相对大的异构图形的高效处理。例如,许多查询对单个类型的顶点和边进行操作,并且因为数据已经按类型划分,所以该技术通常更简单,仅将需要的列加载到分布式图形处理引擎中,例如ApacheSoftware的GraphXTM或GiraphTM。此外,对于仅附加柱状存储,按照类型划分顶点和边表可能会减少需要重新写入的数据量。恰恰相反,对于常规存储在单个顶点和边框架中的数据,整个图形通常在执行更新时将被重新写入。GraphXTM是分布式弹性处理引擎的示例,它使用在ApacheSparkTM上运行的一系列关系连接和聚合。GiraphTM是在Apache上使用以顶点为中心的编程的分布式图形处理引擎的示例。另外,用于使用边列表而不是邻接列表来表示多个表中的边的本实施例有助于改进的图形/表操作。此现有格式可能会使跨多台机器的划分变得更加容易。此外,具有非常大数量的连接的“超级节点”或顶点通常是图形数据的问题。历史上,系统采用邻接列表,其中相邻顶点存储在柱状存储中的单个行中的源顶点旁边。然而,如本领域普通技术人员所理解的,受益于本公开的内容,这种常规方法对于跨多个机器的划分可能是具有挑战性的。最后,在多个表中表示边的当前新格式可能优于用于流应用的邻接列表。在示例中,附加到边列表和顶点列表可能是相对有利的。例如,在“物联网”应用中,通常可以频繁地(包括基本上连续地或不断地)收集大量的数据。有利地,按“类型”组织数据的本实施例可以使得能够收集许多不同的数据流,同时保持将数据关联在一起的能力。图1是诸如服务器的计算设备110的图。虽然图1描绘了一个计算设备100,实施例可以采用多个计算设备100。这样的设备100和系统可以是服务器、主机设备、客户端设备、用户接口设备等。计算设备100包括处理器102,例如中央处理单元或CPU。处理器102可以是多个处理器和/或每个本文档来自技高网...
图形操作

【技术保护点】
一种用于数据处理的计算设备,包括:处理器;以及存储代码的存储器,所述代码能够由所述处理器执行以使用柱状存储来编排数据的表操作与所述数据的图形操作,包括:按照类型将顶点和边存储为表的集合;以及支持具有不同存储特性的所述柱状存储。

【技术特征摘要】
【国外来华专利技术】2014.12.23 US 14/581,9641.一种用于数据处理的计算设备,包括:处理器;以及存储代码的存储器,所述代码能够由所述处理器执行以使用柱状存储来编排数据的表操作与所述数据的图形操作,包括:按照类型将顶点和边存储为表的集合;以及支持具有不同存储特性的所述柱状存储。2.根据权利要求1所述的计算设备,其中,编排包括使用多个分布式执行引擎。3.根据权利要求1所述的计算设备,其中所述柱状存储包括仅附加存储或可更新存储、或两者。4.如权利要求1、2和3所述的计算设备,其中,存储顶点包括在多个表中存储所述顶点,表示每个顶点类型一个表。5.根据权利要求1、2和3所述的计算设备,其中,存储边包括在多个表中存储边,表示每个边类型一个表。6.根据权利要求1、2和3所述的计算设备,其中,编排包括经由元数据存储库跟踪与所述图形操作相关联的图形的方面,所述方面包括图形属性、图形模式以及表示所述图形的表的集合。7.根据权利要求1、2和3所述的计算设备,其中,编排包括使用元数据存储库跟踪所述柱状存储的不同存储特性。8.根据权利要求1、2和3所述的计算设备,其中,所述不同存储特性包括仅附加、可更新或索引支持,或其任何组合。9.根据权利要求1、2和3所述的计算设备,其中,编排包括促进在用于分布式表和图形执行的多个引擎上的表和图形操作。10.根据权利要求1、2和3所述的计算设备,其中,编排包括通过在运行时创建联合视图来对单独的表、以及对顶点和边表的集合执行操作。11.根据权利要求1、2和3所述的计算设备,其中,编排包括实现用于更新所述数据的多个机制,所述多个机制与所述柱状数据存储的不同存储特性相关。12.根据权利要求11所述的计算设备,其中,所述多个机制包括索引、压缩和对就地编辑的支持。13.根据权利要求1、2和3所述的计算设备,其中,所述代码能够由所述处理器执行以:实现图形查询优化器,所述图形查询优化器组合图形查询的链接操作符;以及经由存储器中分布式查询执行引擎执行具有组合的链接操作符的图形查询。14.一种图形操作的方法,包括:经由处理器处理数据;以及经由所述处理器和编排层使用柱状存储来编排所述数据的表操作和所述数据的图...

【专利技术属性】
技术研发人员:T·李森比S·P·卡武利亚B·凯勒B·L·巴克K·达塔X·朱T·L·维尔克
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1