当前位置: 首页 > 专利查询>王梅专利>正文

在分布式大数据存储系统内进行数据传输的方法及系统技术方案

技术编号:19340994 阅读:26 留言:0更新日期:2018-11-07 13:29
本发明专利技术公开了一种在分布式大数据存储系统内进行数据传输的方法及系统,所述方法包括:接收来自数据请求方的数据获取请求,确定数据获取请求所涉及的数据集合,促使服务存储节点创建包括至少两个缓冲存储段的缓冲存储区;按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输到所述服务存储节点;以及所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中。

Method and system for data transmission in distributed large data storage system

The invention discloses a method and system for data transmission in a distributed large data storage system. The method includes receiving data acquisition requests from data requesters, determining data sets involved in data acquisition requests, and promoting service storage nodes to create buffers comprising at least two buffer storage segments. Storage area: Data items of each transmission level are transmitted in descending order from the highest transmission level of data items to the lowest transmission level: from the target storage node at the head of the queue in the ring transmission queue to the target storage node at the end of the queue, each item is transmitted in descending order according to the queue order of the ring transmission queue. At least one data item of the current transmission level in the plurality of data items stored by the target storage node is transmitted to the service storage node, and the service storage node stores the received data item in the buffer storage segment of the current sequence number according to the receiving time of the data item.

【技术实现步骤摘要】
在分布式大数据存储系统内进行数据传输的方法及系统
本专利技术涉及大数据计算和大数据存储领域,并且更具体地,涉及一种在分布式大数据存储系统内进行数据传输的方法及系统。
技术介绍
目前,在大数据计算和大数据存储领域,用户所需求的通常存储在分布式大数据存储系统内多个存储节点上。在特定情况下,由于分布式大数据存储系统内部的网络传输延迟较低,而分布式大数据存储系统内存储节点与用户所在网络或所使用的设备的网络延迟较高。为此,现有技术需要能够针对用户的大量数据获取请求提供低延迟传输的方案。并且另一方面,在分布式大数据存储系统需要对各个存储节点上的数据进行协调,以保证各个存储节点能够以较为平衡、均匀的方式进行数据传输
技术实现思路
根据本专利技术的一个方面,提供一种在分布式大数据存储系统内进行数据传输的方法,所述方法包括:接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算每个目标存储节点自身所存储的多个数据项的总尺寸;每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,按照每个目标存储节点与服务存储节点的网络延迟为每个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项传输或全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。所述分布式大数据系统包括系统节点和多个存储节点,其中所述系统节点用于为数据请求方提供与所述分布式大数据系统进行数据交互的通信接口,由所述系统节点通过通信接口接收来自数据请求方的数据获取请求,其中多个存储节点中的每个存储节点用于存储多个数据项。其中数据请求方标识是能够唯一地标识数据请求方的标识符,数据请求方地址是数据请求方的网络地址以及数据检索条件是至少一个数据检索式,其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。其中根据数据请求方标识对所述数据请求方进行身份验证包括:基于所述数据请求方标识在验证数据库的验证列表中进行查询,根据查询结果确定身份验证的结果,其中所述身份验证的结果用于指示所述数据请求方的访问权限;所述访问权限包括:禁止访问、限制访问和完全访问。确定所述数据检索条件的检索级别,所述检索级别包括高级检索和普通检索,其中当数据检索条件的至少一个数据检索式中任意数据检索式为高级检索式时,确定所述数据检索条件的检索级别为高级检索;当数据检索条件的至少一个数据检索式中所有数据检索式均为普通检索式时,确定所述数据检索条件的检索级别为普通检索。其中根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限包括:当身份验证的结果指示所述数据请求方的访问权限为完全访问时,确定所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方的访问权限为限制访问并且数据检索条件的检索级别为普通检索时,确定所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方的访问权限为限制访问并且数据检索条件的检索级别为高级检索时,确定所述数据请求方不具有使用所述数据获取请求中的数据检索条件来获取数据的权限;以及当身份验证的结果指示所述数据请求方的访问权限为禁止访问时,确定所述数据请求方不具有使用所述数据获取请求中的数据检索条件来获取数据的权限。根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合包括:根据所述数据检索条件的至少一个数据检索式中的每个数据检索式来获取包括至少一个数据项的数据子集合,将所获取的至少一个数据子集合的并集确定为所述数据获取请求所涉及的包括多个数据项的数据集合。其中确定所述数据集合中的所有数据项的总尺寸包括:将所述数据集合中每个数据项的尺寸求和以确定所有数据项的总尺寸。其中根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:确定所述分布式大数据存储系统内多个存储节点中每个存储节点的剩余存储容量,将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点,将多个候选存储节点中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点。促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段包括:所述服务存储节点确定与所述数据请求方地址在本文档来自技高网...

【技术保护点】
1.一种在分布式大数据存储系统内进行数据传输的方法,所述方法包括:接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算自身所存储的多个数据项的总尺寸;每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。...

【技术特征摘要】
1.一种在分布式大数据存储系统内进行数据传输的方法,所述方法包括:接收来自数据请求方的数据获取请求,其中所述数据获取请求包括:数据请求方标识、数据请求方地址以及数据检索条件;根据数据请求方标识对所述数据请求方进行身份验证,根据身份验证的结果确定所述数据请求方是否具有使用所述数据获取请求中的数据检索条件来获取数据的权限;当身份验证的结果指示所述数据请求方具有使用所述数据获取请求中的数据检索条件来获取数据的权限时,根据所述数据检索条件来确定所述数据获取请求所涉及的包括多个数据项的数据集合;确定所述数据集合中的所有数据项的总尺寸,根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点;向所述服务存储节点发送所述数据请求方地址和所述总尺寸,促使所述服务存储节点根据所述数据请求方地址和所述总尺寸来创建缓冲存储区并将所述缓冲存储区分为至少两个缓冲存储段,并且为每个缓冲存储段设置用于指示存储顺序的顺序号;从所述服务存储节点接收包括缓冲存储段的数量和尺寸的响应消息,并对所述数据集合中每个数据项所归属的目标存储节点进行统计,以确定所述数据集合所涉及的多个目标存储节点;将包括所述数据集合中每个数据项的目录信息以及所述缓冲存储段的尺寸和数量的数据传输指示消息发送给多个目标存储节点中的每个目标存储节点;每个目标存储节点根据目录信息确定自身所存储的并与数据传输相关联的多个数据项,确定多个数据项中每个数据项的尺寸并且基于每个数据项的尺寸计算自身所存储的多个数据项的总尺寸;每个目标存储节点根据自身所存储的多个数据项的总尺寸和所述缓冲存储段的尺寸为每个数据项设置传输级别,其中传输级别的数量小于所述缓冲存储段的数量并且不同的传输级别用于指示向服务存储节点发送数据项时不同的传输顺序;响应于每个目标存储节点为自身所存储的每个数据项设置传输级别的完成,为多个目标存储节点设置向服务存储节点进行数据传输的传输顺序,以形成环状传输队列;按照从数据项的最高传输级别到最低传输级别的降序顺序依次对每个传输级别的数据项进行传输:从环状传输队列中位于队首的目标存储节点开始到位于队尾的目标存储节点为止,按照环状传输队列的队列顺序依次将每个目标存储节点所存储的多个数据项中当前传输级别的至少一个数据项全部传输到所述服务存储节点;其中当前传输级别是从最高传输级别到最低传输级别的多个传输级别中的一个,并且其中在当前的目标存储节点将当前传输级别的至少一个数据项全部传输到所述服务存储节点之后,促使环状传输队列中所述当前的目标存储节点的下一目标存储节点开始进行数据传输;以及所述服务存储节点按照数据项的接收时间将接收到的数据项按照缓冲存储段的顺序号保存到当前顺序号的缓冲存储段中:在判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间时,将所述当前顺序号的缓冲存储段中的所有数据项发送给数据请求方,将所述当前接收的数据项存储到下一顺序号的缓冲存储段中,并且将所述下一顺序号作为当前顺序号;当所述缓冲存储区中当前顺序号的缓冲存储段在预定时间内没有接收到数据项时,将所述当前顺序号的缓冲存储段的所有数据项发送给数据请求方。2.根据权利要求1所述的方法,所述分布式大数据系统包括系统节点和多个存储节点,其中所述系统节点用于为数据请求方提供与所述分布式大数据系统进行数据交互的通信接口,由所述系统节点通过通信接口接收来自数据请求方的数据获取请求,其中多个存储节点中的每个存储节点用于存储多个数据项。3.根据权利要求1-2中任意一项所述的方法,其中数据请求方标识是能够唯一地标识数据请求方的标识符,数据请求方地址是数据请求方的网络地址以及数据检索条件是至少一个数据检索式,其中通过每个数据检索式能够从分布式大数据存储系统的所有数据项中确定一个或多个数据项。4.根据权利要求1-3中任意一项所述的方法,其中根据所述总尺寸和所述数据请求方地址从所述分布式大数据存储系统内多个存储节点中选择一个存储节点以作为所述数据请求方选择服务存储节点包括:确定所述分布式大数据存储系统内多个存储节点中每个存储节点的剩余存储容量,将剩余存储容量大于所述总尺寸的五倍以上的存储节点确定为候选存储节点,将多个候选存储节点中与所述数据请求方地址的网络延迟最小的候选存储节点确定为服务存储节点。5.根据权利要求1-4中任意一项所述的方法,还包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段已经不具有对当前接收的数据项进行存储的剩余存储空间;包括确定如果将当前接收的数据项存储到当前顺序号的缓冲存储段后,不会导致当前顺序号的缓冲存储段的存储内容超出存储容量的情况下,判断当前顺序号的缓冲存储段具有对当前接收的数据项进行存储的剩余存储空间。6.一种在分布式大数据存储系统内进行数据传输的系统,所述系统包括:...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:王梅
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1