一种基于高能物理事例的数据管理与传输方法技术

技术编号:20825148 阅读:25 留言:0更新日期:2019-04-10 07:19
本发明专利技术公开了一种基于高能物理事例的数据管理与传输方法,其步骤包括:设置一主站点和若干分站点;在每一分站点上设置一数据传输客户端,在主站点上设置一数据传输服务端;定期将事例数据存储到主站点,以及从事例数据中提取事例特征数据并存储在主站点的事例索引数据库中;分站点接收到物理软件读取事例或文件的请求后,向该分站点的客户端数据缓存服务器发送查询请求;若该分站点存在所请求的事例或文件,则在该分站点读取相关信息返回给物理软件,否则向主站点的数据传输服务端发起数据传输请求,从主站点获取请求的数据并存储到该分站点,以及从获取的数据中提取元数据并存储到该分站点的缓存元数据模块中。本发明专利技术支持计算任务实时传输数据。

【技术实现步骤摘要】
一种基于高能物理事例的数据管理与传输方法
本专利技术属于海量数据存储领域,具体涉及一种基于高能物理事例的数据管理与传输方法。
技术介绍
信息技术的快速发展,个人用户、科学计算、互联网等应用产生了海量的数据。爆炸式增长的数据即将从PB级向EB级迈进,这些数据的存储和高速访问对分布式文件系统在可用性、可扩展性及IO访问性能上提出了新的挑战。在海量存储需求的驱动下,随着磁盘容量和IO速度的提高,网络技术及存储架构设计的进步,诞生了大量高性能、高扩展性、高可用性的分布式文件系统。它们能够支持PB级的存储空间和数千万个甚至上亿个文件,可以动态的通过增加存储服务器和存储介质来增加系统容量、提高聚合访问带宽。然而,这些主流的存储系统,在系统规模不断增大的情形下,或多或少都表现出一定的局限性,从而影响系统的整体性能。面对不断增长的海量数据,需要设计一种新型的数据管理与访问方法,保证系统的可用性、可扩展性不会随着系统规模的增大而受限。近年来,在网络应用如Amazon、Facebook、Twitter、微博等驱动下,分布式存储发展迅速,涌现出以Amazon的Dynamo、ApacheCassandra、Lustre、Glusterfs、FastDFS等为代表的一大批开源系统。这其中有通用并行文件系统Lustre、Glusterfs等;基于key-value的分布式存储系统Dynamo、ApacheCassandra、FastDFS等,这些存储系统改变了应用访问数据的方式,系统不具备统一的名字空间,而是通过键值对应关系,也可以看做是简单的分布式数据库;还有整合分布式存储系统前沿研究思想的实验文件系统Ceph等。传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例。这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但随着实验数据的飞速增长以及新技术的出现,这种传统的数据存储和处理方式也暴露出越来越多的问题。传统的文件级管理面临的挑战为:全数据扫描、筛选时间长,基于文件的缓存效率低,基于文件的传输通信延迟高。在实际的高能物理数据分析过程中,大部分的数据都是物理学家们不感兴趣的数据,而且通过一些条件即可过滤掉,如果条件设置得当,该系统能够帮助物理学家筛选掉甚至99.9%的不感兴趣的数据。这样不仅可以节省I/O资源,还能提高CPU利用率,减少数据分析耗时。大型高能物理实验往往由国际合作单位共同贡献资源形成分布式计算系统,比如WLCG、BESGrid等。传统的计算方式是事先将数据传输到目标站点,然后再将计算任务调度过去运行。随着网络带宽的提升,全网调度计算任务,数据远程访问成为未来的发展趋势。欧洲大型强子对撞机产生海量数据便是由WLCG(WorldwideLHCComputingGrid)负责存储和处理的。在WLCG的Tier结构中,数据并不是完全复制到所有的站点中,因此计算任务会被调度到存储数据的地方。如果某个站点需要分析感兴趣的数据,需要提前进行数据订阅,将数据预先传输到指定的站点。当前,网络带宽不断提升,全网进行计算任务的调度,远程进行数据访问成为未来的发展趋势。然而,局域网的时延一般在1ms以下,而广域网的时延通常比较大,比如中国到欧洲的时延能达到200ms左右,在该种情境下,分布式文件系统基本是无法工作的,因此急需要求研究高带宽的远程I/O访问技术。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种面向事例的高能物理数据管理方法,研究并实现海量事例特征高效索引技术,将物理学家感兴趣的事例特征量抽取出来建立专门的索引,存储在事例索引数据库(NoSQL数据库)中。为便于物理分析处理,事例的原始数据仍然存放在ROOT文件中。同时,本专利技术提出一种数据传输系统,该系统由数据传输服务端和数据传输客户端两部分组成,分别运行在不同的站点;其中,每一远程站点(即分站点)均设有一数据传输客户端,数据传输服务器设置在主站点,由多个分站点来访问。数据传输服务器负责数据的存储和对请求的响应。在服务器端应用了多进程并发处理机制,实现高效的用户请求响应。运行在远程站点的高能物理数据处理软件在做物理分析时不用考虑数据是否在本地站点,它可以通过ROOT框架或者本地文件系统接口来访问所需要的事例数据。为提升数据访问性能,在数据传输客户端设置了基于事例和数据块的缓存系统。数据传输基于HTTP协议,支持分块、多流及断点续传等功能。并基于Oauth授权进行安全保障。不同于WLCG预先传输文件,本专利技术面向事例的数据传输系统仅传输物理分析程序所感兴趣的事例,所需数据量大幅降低,随着网络带宽不断提升,将可以支持计算任务实时传输数据。本专利技术的技术方案为:一种基于高能物理事例的数据管理与传输方法,其步骤包括:设置一主站点和若干分站点;其中所述主站点与各分站点之间通过网络连接;在每一分站点上设置一数据传输客户端,在主站点上设置一数据传输服务端;其中,所述数据传输客户端设置一数据缓存元数据模块metaD和一缓存系统,所述缓存系统包括服务器XROOTDServer和客户端XROOTDClient;定期将事例数据存储到主站点,以及从存储在主站点的事例数据中提取事例特征数据并存储在主站点的事例索引数据库中;分站点的XROOTDClient接收到物理软件读取事例或文件的请求后,向该分站点的客户端数据缓存服务器CacheD发送查询请求;该CacheD在该分站点的metaD中进行元数据查询,确定该分站点是否存在所请求的事例或文件;如果存在,则返回相关信息给该XROOTDClient,该XROOTDClient在该分站点的XROOTDServer中读取相关信息返回给物理软件,否则该CacheD向主站点的数据传输服务端发起数据传输请求,从主站点获取请求的数据并存储到该分站点的XROOTDServer,以及从获取的数据中提取元数据并存储到该分站点的metaD中。进一步的,所述缓存系统为基于事例和数据块的缓存系统。进一步的,采用HBase集群来构建所述事例索引数据库;所述HBase集群采用按字典序排序的索引结构构建主键,并在内存中进行缓存。进一步的,所述事例索引数据库将事例特征的名称和特征值均存储在Rowkey中。进一步的,数据传输服务端将获取的事例数据序列化后传输给分站点的数据传输客户端;数据传输客户端对收到的数据进行反序列化后以对象的方式返回给该物理软件。进一步的,数据传输服务端将获取的事例数据序列化的方法为:对事例数据进行序列化时记录该事例数据的各分枝的序列化字符串的长度,并依次将其序列化,并生成一偏移量数组。进一步的,数据传输客户端对收到的数据进行反序列化的方法为:数据传输客户端对偏移量数据做反序列化,取得偏移量数组;然后根据偏移量数组对序列化字符串进行分割,获得存储着各个分枝数据的子字符串,然后利用子字符串创建对象。进一步的,所述数据传输服务端部署多个用于响应数据传输客户端请求的Tornado实例。进一步的,所述数据传输服务端通过nginx进行负载均衡、反向代理服务。本专利技术提出的一种面向事例的高能物理数据管理方法,其特征在于:(1)事例特征抽取及查询条件归并物理数据封装在ROOT等高能物理数据框架的数据对本文档来自技高网
...

【技术保护点】
1.一种基于高能物理事例的数据管理与传输方法,其步骤包括:设置一主站点和若干分站点;其中所述主站点与各分站点之间通过网络连接;在每一分站点上设置一数据传输客户端,在主站点上设置一数据传输服务端;其中,所述数据传输客户端设置一数据缓存元数据模块metaD和一缓存系统,所述缓存系统包括服务器XROOTD Server和客户端XROOTD Client;定期将事例数据存储到主站点,以及从存储在主站点的事例数据中提取事例特征数据并存储在主站点的事例索引数据库中;分站点的XROOTD Client接收到物理软件读取事例或文件的请求后,向该分站点的客户端数据缓存服务器CacheD发送查询请求;该CacheD在该分站点的metaD中进行元数据查询,确定该分站点是否存在所请求的事例或文件;如果存在,则返回相关信息给该XROOTD Client,该XROOTD Client在该分站点的XROOTD Server中读取相关信息返回给物理软件,否则该CacheD向主站点的数据传输服务端发起数据传输请求,从主站点获取请求的数据并存储到该分站点的XROOTD Server,以及从获取的数据中提取元数据并存储到该分站点的metaD中。...

【技术特征摘要】
1.一种基于高能物理事例的数据管理与传输方法,其步骤包括:设置一主站点和若干分站点;其中所述主站点与各分站点之间通过网络连接;在每一分站点上设置一数据传输客户端,在主站点上设置一数据传输服务端;其中,所述数据传输客户端设置一数据缓存元数据模块metaD和一缓存系统,所述缓存系统包括服务器XROOTDServer和客户端XROOTDClient;定期将事例数据存储到主站点,以及从存储在主站点的事例数据中提取事例特征数据并存储在主站点的事例索引数据库中;分站点的XROOTDClient接收到物理软件读取事例或文件的请求后,向该分站点的客户端数据缓存服务器CacheD发送查询请求;该CacheD在该分站点的metaD中进行元数据查询,确定该分站点是否存在所请求的事例或文件;如果存在,则返回相关信息给该XROOTDClient,该XROOTDClient在该分站点的XROOTDServer中读取相关信息返回给物理软件,否则该CacheD向主站点的数据传输服务端发起数据传输请求,从主站点获取请求的数据并存储到该分站点的XROOTDServer,以及从获取的数据中提取元数据并存储到该分站点的metaD中。2.如权利要求1所述的方法,其特征在于,所述缓存系统为基于事例和数据块的缓存系统。...

【专利技术属性】
技术研发人员:王聪程耀东李海波徐琪程振京胡庆宝
申请(专利权)人:中国科学院高能物理研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1