当前位置: 首页 > 专利查询>清华大学专利>正文

一种跨数据中心的数据联接方法及系统技术方案

技术编号:10611727 阅读:177 留言:0更新日期:2014-11-05 19:47
本发明专利技术提供了一种跨HDFS的数据中心的数据联接方法,该方法包括:协调节点接收到数据联接操作请求后,从配置文件中获取元数据节点的IP地址,逐个与配置文件中的元数据节点建立连接,当查询到当前元数据节点中有被请求表时,获取该被请求元数据节点的元数据信息;被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据,向协调节点发送本节点所保存的结果集的大小;协调节点通知小结果集节点将本节点保存的结果集发送给所有大结果集节点;所有大结果集节点将本节点的结果集与所有小结果集节点发来的结果集进行哈希连接得到结果记录;协调节点汇聚结果记录。通过该方法及系统,能够实现跨数据中心的数据联接。

【技术实现步骤摘要】
一种跨数据中心的数据联接方法及系统
本专利技术涉及计算机
,尤其涉及一种跨数据中心的数据联接方法及系统。
技术介绍
当面临大数据应用需求时,在单机性能面临瓶颈,关系数据库集群系统已不能满足大数据应用需求的情况下,利用分布式存储系统保存数据并采用基于SQL语言标准用户接口已成为解决大规模结构化数据检索问题的有效方法。现有技术,通常采用HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)存储数据文件,并通过维护一份元数据将HDFS文件及其内容映射为表结构。现有技术中的应用场景均面向同一个数据中心,即面向一套分布式文件系统,然而,很多应用场景要求系统对分布在不同数据中心的两表或多表进行联接操作,即对分布在不同HDFS的数据中心的数据表进行联接,现有技术中不能实现跨HDFS的数据中心的数据联接。
技术实现思路
本专利技术提供了一种跨数据中心的数据联接方法及系统,能够实现跨HDFS的数据中心的数据联接。一方面,本专利技术提供了一种跨HDFS的数据中心的数据联接方法,所述方法包括:协调节点接收到数据联接操作请求后,从配置文件中获取元数据节点的IP地址;协调节点逐个与配置文件中的元数据节点建立连接,当查询到当前元数据节点中有被请求表时,获取该被请求元数据节点的元数据信息;协调节点根据数据联接操作请求中的筛选条件对所述被请求表进行数据过滤;协调节点根据过滤后的被请求表对应的数据所在的节点的IP信息与该IP信息对应的节点建立连接;协调节点向建立连接的节点发送该节点中被请求的数据的信息;被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据;各个被请求节点向协调节点发送本节点所保存的结果集的大小;协调节点比较任意待联接的两个表对应的结果集的大小,通知所有小结果集节点将本节点保存的结果集发送给所有大结果集节点;所有大结果集节点将本节点的结果集与所有小结果集节点发来的结果集进行哈希连接得到结果记录;协调节点汇聚所有大结果集节点的结果记录;其中,所述配置文件中携带了数据中心的元数据节点的IP地址;所述协调节点为接收到数据联接操作请求的节点;所述被请求节点为接收到协调节点发来的被请求的数据的信息的节点;所述小结果集节点为结果集小的表对应的节点;所述大结果集节点为结果集大的表对应的节点;所述被请求表为数据连接操作请求所请求的表;所述被请求元数据节点为包含所述被请求表的元数据节点。进一步地,所述数据联接操作请求通过SQL语句实现。进一步地,在所述协调节点逐个与配置文件中的元数据节点建立连接之后,还包括协调节点调用元数据节点上的查询进程来查询当前元数据节点中有被请求表。进一步地,所述被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据,包括:被请求节点通过本节点上的查询进程来查询本节点被请求的数据。进一步地,在所述协调节点汇聚所有大结果集节点的结果记录之前,还包括:所有大结果集节点将本节点的结果记录发送给协调节点。另一方面,本专利技术提供了一种跨Hadoop分布式文件系统HDFS的数据中心的数据联接系统,所述系统包括:协调节点,用于接收到数据联接操作请求后,从配置文件中获取元数据节点的IP地址,逐个与配置文件中的元数据节点建立连接,当查询到当前元数据节点中有被请求表时,获取该被请求元数据节点的元数据信息,根据数据联接操作请求中的筛选条件对所述被请求表进行数据过滤,根据过滤后的被请求表对应的数据所在的节点的IP信息与该IP信息对应的节点建立连接,向建立连接的节点发送该节点中被请求的数据的信息,在接收到被请求节点发来的结果集后,比较任意待联接的两个表对应的结果集的大小,通知所有小结果集节点将本节点保存的结果集发送给所有大结果集节点,汇聚所有大结果集节点的结果记录;被请求节点,用于根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据,向协调节点发送本节点所保存的结果集的大小;所述被请求节点还包括大结果集节点、小结果集节点;所述小结果集节点,用于将本节点保存的结果集发送给所有大结果集节点;大结果集节点,用于将本节点的结果集与所有小结果集节点发来的结果集进行哈希连接得到结果记录;其中,所述配置文件中携带了数据中心的元数据节点的IP地址;所述协调节点为接收到数据联接操作请求的节点;所述被请求节点为接收到协调节点发来的被请求的数据的信息的节点;所述小结果集节点为结果集小的表对应的节点;所述大结果集节点为结果集大的表对应的节点;所述被请求表为数据连接操作请求所请求的表;所述被请求元数据节点为包含所述被请求表的元数据节点。进一步地,所述数据联接操作请求通过SQL语句实现。进一步地,所述协调节点,还用于在所述协调节点逐个与配置文件中的元数据节点建立连接之后,调用元数据节点上的查询进程来查询当前元数据节点中有被请求表。进一步地,所述被请求节点,用于通过本节点上的查询进程来查询本节点被请求的数据。进一步地,所述大结果集节点还用于,在所述协调节点汇聚所有大结果集节点的结果记录之前,将本节点的结果记录发送给协调节点。本专利技术提供了一种跨HDFS的数据中心的数据联接方法及系统,协调节点通过获取配置文件中的元数据节点的IP地址来与非本数据中心的元数据节点连接,能够实现跨HDFS的数据中心的数据联接。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种跨HDFS的数据中心的数据联接方法流程图;图2是本专利技术实施例提供的一种跨HDFS的数据中心的数据联接系统结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种跨HDFS的数据中心的数据联接方法,参见图1,所述方法包括:步骤101:协调节点接收到数据联接操作请求后,从配置文件中获取元数据节点的IP地址;步骤102:协调节点逐个与配置文件中的元数据节点建立连接,当查询到当前元数据节点中有被请求表时,获取该被请求元数据节点的元数据信息;步骤103:协调节点根据数据联接操作请求中的筛选条件对所述被请求表进行数据过滤;步骤104:协调节点根据过滤后的被请求表对应的数据所在的节点的IP信息与该IP信息对应的节点建立连接;步骤105:协调节点向建立连接的节点发送该节点中被请求的数据的信息;步骤106:被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据;步骤107:各个被请求节点向协调节点发送本节点所保存的结果集的大小;步骤108:协调节点比较任意待联接的两个表对应的结果集的大小,通知所有小结果集节点将本节点保存的结果集发送给所有大结果集节点;步骤109:所有大结果本文档来自技高网...
一种跨数据中心的数据联接方法及系统

【技术保护点】
一种跨Hadoop分布式文件系统HDFS的数据中心的数据联接方法,其特征在于,所述方法包括:协调节点接收到数据联接操作请求后,从配置文件中获取元数据节点的IP地址;协调节点逐个与配置文件中的元数据节点建立连接,当查询到当前元数据节点中有被请求表时,获取该被请求元数据节点的元数据信息;协调节点根据数据联接操作请求中的筛选条件对所述被请求表进行数据过滤;协调节点根据过滤后的被请求表对应的数据所在的节点的IP信息与该IP信息对应的节点建立连接;协调节点向建立连接的节点发送该节点中被请求的数据的信息;被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据;各个被请求节点向协调节点发送本节点所保存的结果集的大小;协调节点比较任意待联接的两个表对应的结果集的大小,通知所有小结果集节点将本节点保存的结果集发送给所有大结果集节点;所有大结果集节点将本节点的结果集与所有小结果集节点发来的结果集进行哈希连接得到结果记录;协调节点汇聚所有大结果集节点的结果记录;其中,所述配置文件中携带了数据中心的元数据节点的IP地址;所述协调节点为接收到数据联接操作请求的节点;所述被请求节点为接收到协调节点发来的被请求的数据的信息的节点;所述小结果集节点为结果集小的表对应的节点;所述大结果集节点为结果集大的表对应的节点;所述被请求表为数据连接操作请求所请求的表;所述被请求元数据节点为包含所述被请求表的元数据节点。...

【技术特征摘要】
1.一种跨Hadoop分布式文件系统HDFS的数据中心的数据联接方法,其特征在于,所述方法包括:协调节点接收到数据联接操作请求后,从配置文件中获取元数据节点的IP地址;协调节点逐个与配置文件中的元数据节点建立连接,当查询到当前元数据节点中有被请求表时,获取该被请求元数据节点的元数据信息;协调节点根据数据联接操作请求中的筛选条件对所述被请求表进行数据过滤;协调节点根据过滤后的被请求表对应的数据所在的节点的IP信息与该IP信息对应的节点建立连接;协调节点向建立连接的节点发送该节点中被请求的数据的信息;被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据;各个被请求节点向协调节点发送本节点所保存的结果集的大小;协调节点比较任意待联接的两个表对应的结果集的大小,通知所有小结果集节点将本节点保存的结果集发送给所有大结果集节点,所述任意待联接的两个表为任意两个被请求节点对应的被请求表;所有大结果集节点将本节点的结果集与所有小结果集节点发来的结果集进行哈希连接得到结果记录;协调节点汇聚所有大结果集节点的结果记录;其中,所述配置文件中携带了数据中心的元数据节点的IP地址;所述协调节点为接收到数据联接操作请求的节点;所述被请求节点为接收到协调节点发来的被请求的数据的信息的节点;所述小结果集节点为结果集小的表对应的节点;所述大结果集节点为结果集大的表对应的节点;所述被请求表为数据连接操作请求所请求的表;所述被请求元数据节点为包含所述被请求表的元数据节点。2.根据权利要求1所述的方法,其特征在于,所述数据联接操作请求通过SQL语句实现。3.根据权利要求1所述的方法,其特征在于,在所述协调节点逐个与配置文件中的元数据节点建立连接之后,还包括协调节点调用元数据节点上的查询进程来查询当前元数据节点中有无被请求表。4.根据权利要求1所述的方法,其特征在于,所述被请求节点根据被请求的数据的信息来对本节点的数据进行过滤,筛选出本节点被请求的数据,包括:被请求节点通过本节点上的查询进程来查询本节点被请求的数据。5.根据权利要求1所述的方法,其特征在于,在所述协调节点汇聚所有大结果集节点的结果记录之前,还包括:所有大结果集节点将本节点的结果记...

【专利技术属性】
技术研发人员:汪东升张宝权王占业
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1