针对射电天文数据密集型科学运算的数据处理系统及方法技术方案

技术编号:33913125 阅读:16 留言:0更新日期:2022-06-25 19:48
本发明专利技术提供一种针对射电天文数据密集型科学运算的数据处理系统,包括至少一个数据星座,每个数据星座为安装在一个机柜上或相邻的机柜上的且可扩展的综合数据单元,由可扩展的分布式的存储系统、混合异构的计算节点系统和网络系统组成;每个计算节点与其超大容量内存和闪存类型的本地存储单元在物理上集成在一起,且存储系统由位于每个计算节点对应的本地存储单元和由各个存储节点组成的分布式文件系统组成;每个数据星座拥有独立的分布式文件系统。本发明专利技术还提供相应方法。本发明专利技术的数据处理系统应对大数据采用数据星座架构,每个数据星座拥有独立的共享文件系统,既满足天文大数据计算和存储的需求,又大大减少传统的全局文件系统带来的影响。件系统带来的影响。件系统带来的影响。

【技术实现步骤摘要】
针对射电天文数据密集型科学运算的数据处理系统及方法


[0001]本专利技术属于射电天文数据处理技术、数据密集型科学运算、大数据、高性能计算领域,具体涉及一种针对射电天文数据密集型科学运算的数据处理系统及方法。

技术介绍

[0002]随着先进的天文学观测设备的新建和运行,天文学界面临超大规模数据以及数据密集型科学运算的挑战。比如,全球合作的平方公里阵列(Square Kilometre Array,简称SKA)望远镜是国际天文界计划建造的最大的天文观测设备,是中国参加的天文学领域最大的国际合作大科学计划。SKA将大量小口径天线汇聚实现综合孔径射电干涉成像,其总接收面积高达一平方公里,比目前最大射电望远镜灵敏度提高50倍、巡天速度提高10000倍,将为人类认知宇宙提供重大机遇。第一阶段(2021

2029年)完工后,SKA的科学数据存储规模预计高达每年710PetaByte(1PB=1024TB=超一百万GB),用于计算和存储这些科学数据的国际SKA区域中心数据处理系统需拥有300PFlops(每秒30亿亿次浮点数运算)算力的处理平台即SKA区域中心,其中至少有20PFlops的算力用于后续科学分析,各个国家的区域中心节点之间的数据交换需具有平均100Gbps(100吉比特以太网)的稳定网速。预计到2029年,国际SKA区域中心的数据总储存量高达2EB(1EB=1024PB)。现有超算平台均无法实现此规划目标,为此SKA国际组织正在研发先进的数据处理平台。
[0003]超大规模数据(PB量级)的分析处理是天文学界和计算机学界面临的共同挑战,大数据驱动的SKA望远镜的成败也取决于其区域中心解决这一世界难题的能力。SKA科学数据的处理过程是典型的数据密集型计算任务,其业务模式与基于计算密集型业务的传统超算有很大不同。
[0004]传统超算平台的本地存储小,共享内存容量低,数据调用耗时长,系统构架单一,不适应对这种新兴的超大规模数据进行流水线式处理。此外,传统的超算平台在存储架构上严重依赖共享文件系统,在SKA规模的数据处理上将会出现较高的系统故障率甚至系统瘫痪。SKA项目的全球化多用户应用场景也将大大影响科学用户在传统的超算平台上的科研工作。
[0005]在大数据和人工智能时代,计算密集型向数据密集型转化的趋势日益明显。如何快速处理数据结构复杂、数据类型多元化、多维度、大尺寸的海量数据,是以天文大数据为代表的数据密集型科学运算的核心关键。

技术实现思路

[0006]本专利技术的目的在于提供一种针对射电天文数据密集型科学运算的数据处理系统及方法,以提高数据密集型科学运算的数据处理速度。
[0007]为了实现上述目的,本专利技术提供一种针对射电天文数据密集型科学运算的数据处理系统,包括至少一个数据星座,每个数据星座为一个安装在一个机柜上或相邻的多个机柜上的且可扩展的综合数据单元,其均由一个可扩展的分布式的存储系统、混合异构的计
算节点系统和网络系统组成;每个计算节点与其对应的超大容量内存和闪存类型的本地存储单元在物理上集成在一起,且所述存储系统由位于每个计算节点所对应的本地存储单元和由各个存储节点组成的分布式文件系统组成;每个数据星座拥有独立的分布式文件系统。
[0008]混合异构的计算节点系统至少包含x86 CPU架构、ARM架构和x86CPU+GPU架构。
[0009]当计算节点为ARM架构时,其总访问带宽为80GB/s;当计算节点为CPU+GPU架构时,其访问带宽为2TB/s。
[0010]每个计算节点的超大容量内存的总内存容量为1TB~2TB,每个计算节点的超大容量内存的总内存容量根据CPU的内核数相应调整,每个内核对应的内存容量不低于32GB。
[0011]对于具备32个内核的计算节点,其总内存容量至少为1TB。
[0012]所述本地存储单元采用NVMe SSD,所述存储节点采用HDD。
[0013]所述分布式文件系统采用完全分布式的架构和全对称分布式架构。
[0014]所所述的网络系统包括与所有计算节点和存储节点均相连的多个IB交换机,与所有计算节点、存储节点、后台存储节点、管理节点均相连的网络交换机,以及通过因特网与管理节点连接的多个用户登录节点。
[0015]另一方面,本专利技术提供一种针对射电天文数据密集型科学运算的数据处理方法,包括:
[0016]S0:提供根据上文所述的针对射电天文数据密集型科学运算的数据处理系统;
[0017]S1:原始数据通过IB交换机送入当前的计算节点的超大容量内存,以作为超大内存缓存;
[0018]S2:当前的计算节点处理任务,并判断得到的是中间数据还是最终数据;如果是中间数据,则继续执行步骤S3;如果是最终数据,则将最终数据被保存至计算节点的超大容量内存或本地存储单元,并通过IB交换机写回存储节点的分布式文件系统来保存,并结束流程;
[0019]S3:当前的计算节点根据存储需求将得到的中间数据存入超大容量内存或闪存类型的本地存储单元,以作为超大内存缓存或闪存缓存;
[0020]S4:与当前的计算节点不同架构类型的计算节点通过IB交换机读取当前的计算节点的超大内存缓存或SSD Cache来进行计算节点之间的中间数据交互,随后作为新的当前的计算节点,回到步骤S2。
[0001]本专利技术的针对射电天文数据密集型科学运算的数据处理系统应对天文大数据,提出“数据星座架构”,每个数据星座拥有独立的共享文件系统,既能够满足天文大数据计算和存储的需求,又能够大大减少全局文件系统(传统超算的架构设计)带来的影响。同时,这种设计理念能够对不同处理任务分配不同型号处理器的设备,按需定制高效利用本地存储和网络。
[0002]本专利技术的针对射电天文数据密集型科学运算的数据处理系统针对天文大数据的超大数据量而设计,由物理上安装在一起的混合异构的计算节点系统、高性能存储系统和高速网络系统组成,采用数据星座架构,改变了传统超算中这三个系统各自独立的设计方案,能够根据计算任务的需求灵活分配资源,可由一个数据星座或者多个数据星座完成,满足多个科学数据处理流程、多类用户需求、不同计算规模和分布式任务等多种应用场景。
(2)本专利技术的数据处理系统的单个节点上的大内存容量解决了处理单个大尺寸数据文件的难题,避免或减少了数据切割、数据移动和空置等待的时间成本。此外,大内存有能力让一些需要多次读取的文件长期驻留在内存中,被多个节点访问,从而大大减少了频繁读入和读出这些文件造成的时间消耗,加快了数据处理流程。(3)本专利技术的数据处理系统的混合异构计算架构通过将流程中的计算密集型、内存密集型和数据密集型任务合理分配到对应的计算设备,有效地解决了复杂的天文数据处理流程、多数据文件和高并行性的挑战,提高了整个集群的效率,有效节约了运行成本。(4)本专利技术的数据处理系统的包含SDD和HDD的多层级混合存储系统确保了高性能读写,可满足高性能计算、高数据I/O和多负载任务等广泛的应用需求。此外,分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对射电天文数据密集型科学运算的数据处理系统,其特征在于,包括至少一个数据星座,每个数据星座为一个安装在一个机柜上或相邻的多个机柜上的且可扩展的综合数据单元,其均由一个可扩展的分布式的存储系统、混合异构的计算节点系统和网络系统组成;每个计算节点与其对应的超大容量内存和闪存类型的本地存储单元在物理上集成在一起,且所述存储系统由位于每个计算节点所对应的本地存储单元和由各个存储节点组成的分布式文件系统组成;每个数据星座拥有独立的分布式文件系统。2.根据权利要求1所述的针对射电天文数据密集型科学运算的数据处理系统,其特征在于,混合异构的计算节点系统至少包含x86 CPU架构、ARM架构和x86 CPU+GPU架构的计算节点。3.根据权利要求2所述的针对射电天文数据密集型科学运算的数据处理系统,其特征在于,当计算节点为ARM架构时,其总访问带宽为80GB/s;当计算节点为CPU+GPU架构时,其访问带宽为2TB/s。4.根据权利要求1所述的针对射电天文数据密集型科学运算的数据处理系统,其特征在于,每个计算节点的超大容量内存的总内存容量为1TB~2TB,每个计算节点的超大容量内存的总内存容量根据CPU的内核数相应调整,每个内核对应的内存容量不低于32GB。5.根据权利要求4所述的针对射电天文数据密集型科学运算的数据处理系统,其特征在于,对于具备32个内核的计算节点,其总内存容量至少为1TB。6.根据权利要求1所述的针对射电天文数据密集型科学运算的数据处理系统,其特征在于,所述本地存储单元采...

【专利技术属性】
技术研发人员:安涛
申请(专利权)人:中国科学院上海天文台
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1