云存储中访问模式驱动的数据放置制造技术

技术编号:33882511 阅读:44 留言:0更新日期:2022-06-22 17:13
一种用于在分布式网络(100)中存储数据的系统和方法,该分布式网络具有分布在多个地理区域(110、120、130、140)上的多个数据中心(110a、110b、120a、120b、130a、130b、140a、140b)。该方法可以涉及:接收上传到分布式网络的第一数据中心的数据(包括元数据)(310);接收关于先前存储在分布式网络的多个数据中心中的先前数据的访问信息(320);基于元数据和访问信息来预测将从其访问上传数据的多个地理区域中的一个或多个地理区域(330);以及指示将所述上传数据从第一数据中心传送到位于所述一个或多个预测的地理区域中的每一者处的一个或多个第二数据中心(340)。的一个或多个第二数据中心(340)。的一个或多个第二数据中心(340)。

【技术实现步骤摘要】
【国外来华专利技术】云存储中访问模式驱动的数据放置
[0001]相关申请的交叉引用
[0002]本申请是2020年11月4日提交的美国专利申请号16/673,128的继续申请,其公开内容通过引用的方式并入本文中。

技术介绍

[0003]一旦数据被存储在云中,全球云存储服务就提供从世界任何地方访问大量数据。例如,在欧洲上传的图像可以立即在美国可访问下载。
[0004]全球云存储服务通常被划分成多个地理区域,以便管理大量上传数据。因而,访问数据的用户请求通常被路由到离用户最近的服务器,特别是在用户的地理区域中。然后,服务器查找所请求数据的位置,并且然后将对该数据的请求转发给存储该数据的服务器,该服务器可能位于不同的地理区域。
[0005]当所请求的数据存储在远离请求用户的地方时,读取所请求的数据可能引发高时延,这可能降低请求用户对所请求数据的体验。对于服务供应商来说,长距离读取也耗费了宝贵的带宽,尤其是在用户的地理区域与数据的地理区域之间缺乏网络带宽的情况下,诸如在这两个区域之间没有部署足够的光纤电缆。
[0006]全球云存储服务通常将上传数据存储在数据被上传的区域。这在上传数据主要在同一地理区域中下载的情况下可能是有效的。然而,在许多情况下,上传数据主要从其它地理区域访问,这可能导致高网络带宽成本。

技术实现思路

[0007]本公开的一个方面涉及一种用于在分布式网络中存储数据的方法,所述分布式网络具有分布在多个地理区域上的多个数据中心。所述方法可以包括:由一个或多个处理器接收上传到所述分布式网络的第一数据中心的数据,上传数据包括元数据;由所述一个或多个处理器接收关于先前上传数据的访问信息;在所述上传数据被访问之前,由所述一个或多个处理器基于所述元数据和所述访问信息来预测将从其访问所述上传数据的所述多个地理区域中的一个或多个多个地理区域中的一个或多个;以及由所述一个或多个处理器指示将所述上传数据从所述第一数据中心传送到位于所预测的地理区域中的一个或多个预测的地理区域处的一个或多个第二数据中心。
[0008]在一些示例中,所述访问信息可以是从基于所述先前上传数据的元数据训练的预测模型导出的。
[0009]在一些示例中,所预测的模型可以是决策树模型。
[0010]在一些示例中,所述元数据可以包括上传所述上传数据的用户的识别,以及上传所述上传数据的定位。
[0011]在一些示例中,所述先前上传数据的所述元数据可以包括所述先前上传数据的定位、上传所述先前上传数据的用户的识别以及上传所述先前上传数据的定位。
[0012]在一些示例中,所述先前上传数据的所述元数据还可以包括存储所述先前上传数
据的目录或文件路径的识别。
[0013]在一些示例中,所述访问信息可以指示所述先前上传数据的初始上传与所述先前上传数据的首次下载之间的时间量。所述方法可以包括:由所述一个或多个处理器预测直到所述上传数据被首次下载的时间量;以及基于所预测的时间量,由所述一个或多个处理器指示将所述上传数据传输到位于所述一个或多个预测的地理区域处的一个或多个高速缓存服务器。
[0014]在一些示例中,指示将所述上传数据传输到位于所述一个或多个预测的地理区域处的一个或多个高速缓存服务器可以包括:由所述一个或多个处理器基于所述元数据和所述访问信息来确定所述上传数据是广播数据;以及对于所述上传数据被指示传送到的每个给定的预测地理区域,由所述一个或多个处理器指示所述上传数据被传送到所述给定的预测地理区域的每个数据中心的至少一个高速缓存服务器。
[0015]在一些示例中,所述方法可以包括:由所述一个或多个处理器指示将所述上传数据包括在文件中,所述文件包括具有共同预测地理区域的先前上传数据;以及由所述一个或多个处理器指示将所述文件传送到位于所述共同预测地理区域处的一个或多个第二数据中心。
[0016]在一些示例中,所述文件可以初始存储在位于第一数据中心处的一个或多个源服务器处。指示所述文件被传送可以包括由所述一个或多个处理器指示位于所述共同预测地理区域处的所述一个或多个第二数据中心的数据服务器从所述一个或多个源服务器提取所述文件。
[0017]本公开的另一方面涉及一种用于在分布式网络中存储数据的系统,所述分布式网络具有分布在多个地理区域上的多个数据中心。所述系统可以包括:在所述分布式网络的第一数据中心处的一个或多个存储设备,所述一个或多个存储设备被配置成存储上传到所述第一数据中心的数据,上传数据包括元数据;以及与所述一个或多个存储设备通信的一个或多个处理器。所述一个或多个处理器可以被配置成:接收关于先前存储在所述分布式网络的所述多个数据中心中的先前上传数据的访问信息;在所述上传数据被访问之前,基于所述元数据和所述访问信息来预测将从其访问所述上传数据的所述多个地理区域中的一个或多个地理区域;以及指示将所述上传数据从所述第一数据中心传送到位于所预测的地理区域中的一个或多个预测的地理区域处的一个或多个第二数据中心。
[0018]在一些示例中,所述访问信息可以是从基于所述先前上传数据的元数据训练的预测模型导出的。
[0019]在一些示例中,所预测的模型可以是决策树模型。
[0020]在一些示例中,所述元数据可以包括上传所述上传数据的用户的识别,以及上传所述上传数据的定位。
[0021]在一些示例中,所述先前上传数据的所述元数据可以包括所述先前上传数据的定位、上传所述先前上传数据的用户的识别以及上传所述先前上传数据的定位。
[0022]在一些示例中,所述先前上传数据的所述元数据可以包括存储所述先前上传数据的目录或文件路径的识别。
[0023]在一些示例中,所述访问信息可以指示所述先前上传数据的初始上传与所述先前上传数据的首次下载之间的时间量。所述一个或多个处理器可以被配置成:预测直到所述
上传数据被首次下载的时间量;以及基于所预测的时间量,指示将所述上传数据传输到位于所述一个或多个预测的地理区域处的一个或多个高速缓存服务器。
[0024]在一些示例中,所述一个或多个处理器可以被配置成基于以下确定来指示将所述上传数据传输到位于所述一个或多个预测的地理区域处的一个或多个高速缓存服务器,所述确定是基于所述元数据而确定出所述上传数据是广播数据,并且对于所述上传数据被指示传送到的每个给定的预测地理区域,所述一个或多个处理器可以被配置成指示所述上传数据被传送到所述给定的预测地理区域的每个数据中心的至少一个高速缓存服务器。
[0025]在一些示例中,所述一个或多个处理器可以被配置成:指示将所述上传数据包括在文件中,所述文件包括具有共同预测地理区域的先前上传数据;以及指示将所述文件传送到位于所述共同预测地理区域处的一个或多个第二数据中心。
[0026]在一些示例中,所述文件初始存储在位于第一数据中心处的一个或多个源服务器处。所述一个或多个处理器可以被配置成指示位于所述共同预测地理区域处的所述一个或多个第二数据中心的数据服务器从所述一个或多个源服务器提取所述文件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在分布式网络中存储数据的方法,所述分布式网络具有分布在多个地理区域上的多个数据中心,所述方法包括:由一个或多个处理器接收上传到所述分布式网络的第一数据中心的数据,上传数据包括元数据;由所述一个或多个处理器接收关于先前上传数据的访问信息;在所述上传数据被访问之前,由所述一个或多个处理器基于所述元数据和所述访问信息来预测将从其访问所述上传数据的所述多个地理区域中的一个或多个地理区域;以及由所述一个或多个处理器指示将所述上传数据从所述第一数据中心传送到位于所预测的地理区域中的一个或多个预测的地理区域处的一个或多个第二数据中心。2.根据权利要求1所述的方法,其中,所述访问信息是从基于所述先前上传数据的元数据训练的预测模型导出的。3.根据权利要求2所述的方法,其中,所述预测模型是决策树模型。4.根据权利要求1所述的方法,其中,所述元数据包括上传所述上传数据的用户的识别,以及上传所述上传数据的位置。5.根据权利要求2所述的方法,其中,所述先前上传数据的所述元数据包括所述先前上传数据的位置、上传所述先前上传数据的用户的识别以及上传所述先前上传数据的位置。6.根据权利要求5所述的方法,其中,所述先前上传数据的所述元数据还包括存储所述先前上传数据的目录或文件路径的识别。7.根据权利要求1所述的方法,其中,所述访问信息指示所述先前上传数据的初始上传与所述先前上传数据的首次下载之间的时间量,其中所述方法包括:由所述一个或多个处理器预测直到所述上传数据被首次下载的时间量;以及由所述一个或多个处理器基于所预测的时间量,指示将所述上传数据传输到位于所述一个或多个预测的地理区域处的一个或多个高速缓存服务器。8.根据权利要求7所述的方法,其中,指示将所述上传数据传输到位于所述一个或多个预测的地理区域处的一个或多个高速缓存服务器还包括:由所述一个或多个处理器基于所述元数据和所述访问信息来确定所述上传数据是广播数据;以及对于所述上传数据被指示传送到的每个给定的预测的地理区域,由所述一个或多个处理器指示所述上传数据被传送到所述给定的预测的地理区域的每个数据中心的至少一个高速缓存服务器。9.根据权利要求1所述的方法,还包括:由所述一个或多个处理器指示将所述上传数据包括在文件中,所述文件包括具有共同预测的地理区域的先前上传数据;以及由所述一个或多个处理器指示将所述文件传送到位于所述共同预测的地理区域处的一个或多个第二数据中心。10.根据权利要求9所述的方法,其中,所述文件初始存储在位于第一数据中心处的一个或多个源服务器处,并且其中指示所述文件被传送包括由所述一个或多个处理器指示位于所述共同预测的地理区域处的所述一个或多个第二数据中心的数据服务器从所述一个或多个源服务器提取所述文件。
11.一种用于在分布式网络中存储数据的系统,所述分布式网络具有...

【专利技术属性】
技术研发人员:张望远维维恩
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1