The present invention provides a connection method of distributed multi core CPU cluster, and based on the data, the system includes a mapping server, including at least one with multi core CPU computer, used in the mapping task start n mapping process of internal threads, and each core as a corresponding computing nodes for parallel computing; each thread from the shared memory mapped a pre allocated buffer reads the corresponding data sheet VI hash table is established; protocol server, including at least one with multi core CPU computer, used in the process of starting the M internal protocol task a protocol thread, and each core as a corresponding computing nodes for parallel computing each thread; protocol from multiple hash table to obtain intermediate data of their own compared to the set of connection. The invention maximizes the operation potential of the cluster system, and avoids the operation competition caused by common memory by dividing the data sheet in advance.
【技术实现步骤摘要】
一种基于多核CPU的分布式集群系统及数据连接方法
本专利技术涉及计算机
,尤其涉及一种基于多核CPU的分布式集群系统及数据连接方法。
技术介绍
互联网技术和相关应用的飞速发展带来了数据的爆炸式增长,数据库规模从千比特(KB)、兆比特(MB)级飞跃到吉比特(GB)、太比特(TB)级甚至到皆比特(EB)、佑比特(ZB)级,海量的数据给数据分析相关工作带来了巨大的挑战,其中连接查询又是大规模数据分析中最重要和最基本操作之一,其性能直接关系到数据库的查询效率。现有技术中提出了一种将哈希连接应用于大规模集群计算的方法,该方法利用MPI(Message-Passing-Interface消息传递接口)和RDMA(RemoteDirectMemoryAccess,远程直接数据存取)技术,在超大规模计算机集群上进行哈希连接操作,使得数据可以直接通过网络进行传递而不对操作系统造成任何影响,消除了外部存储器复制和文本交换操作。这种算法使得哈希连接在计算机集群系统上得以更高效地应用,大大提高了计算机处理海量数据的能力。然而,这种方法提高了集群系统整体的并行处理能力,重点在于利用R ...
【技术保护点】
一种基于多核CPU的分布式集群系统,其特征在于,包括:映射服务器,包括至少一台具有多核CPU的计算机,用于在映射任务的进程内部启动n个映射线程,并以所述映射服务器中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表;规约服务器,包括至少一台具有多核CPU的计算机,用于在规约任务的进程内部启动m个规约线程,并以所述规约服务器中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈 ...
【技术特征摘要】
1.一种基于多核CPU的分布式集群系统,其特征在于,包括:映射服务器,包括至少一台具有多核CPU的计算机,用于在映射任务的进程内部启动n个映射线程,并以所述映射服务器中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表;规约服务器,包括至少一台具有多核CPU的计算机,用于在规约任务的进程内部启动m个规约线程,并以所述规约服务器中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈希表,从多个哈希表中分别获取属于自己的中间数据集,并对所述中间数据集进行比较连接。2.根据权利要求1所述的基于多核CPU的分布式集群系统,其特征在于,所述映射服务器预先将输入数据分成n等份,并分别存储至n个缓冲区,使每个映射线程对应一个缓冲区。3.根据权利要求1所述的基于多核CPU的分布式集群系统,其特征在于,所述分布式集群系统内计算机之间的数据迁移采用远程直接数据存取方式,并采用消息传递接口进行编程实现通信。4.根据权利要求1~3中任一项所述的基于多核CPU的分布式集群系统,其特征在于,所述映射服务器还用于对映射服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理。5.根据权利要求1~3中任一项所述的基于多核CPU的分布式集群系统,其特征在于,所述规约服务器还用于对规约服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。6.一种基于多核CPU的分布式集群系统的数据连接方法,其特征在于,所述基于多核CP...
【专利技术属性】
技术研发人员:王宏志,孙旭冉,赵志强,
申请(专利权)人:哈工大大数据产业有限公司,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。