【技术实现步骤摘要】
数据处理方法、装置、归约服务器及映射服务器
[0001]本申请要求于2021年4月14日提交的申请号为202110401463.9、专利技术名称为“一种基于全局大内存系统的shuffle方法”的中国专利申请的优先权,以及要求于2021年6月08日提交的申请号为202110638812.9、专利技术名称为“一种数据处理的方法、装置和系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
[0002]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、归约服务器及映射服务器。
技术介绍
[0003]近年来,以大数据、物联网、人工智能、第五代移动通信技术(5th generation mobile networks,5G)为核心特征的数字化浪潮正席卷全球,由此产生了海量数据。
[0004]在相关技术中,对海量数据进行处理时,通常采用分布式高并发计算框架,将待处理数据划分为若干数据块,通过不同计算节点并发进行运算。由于整个数据处理过程可能分为若干步骤,在一个步骤的输入数据来源于前一个步骤的多个计算节点的运算结果的情况下,必然涉及到大量数据在计算节点间的传输。而受单个计算节点的内存容量有限、计算节点间网络传输时延大、带宽小等因素的影响,计算节点间的数据传输效率较低。
技术实现思路
[0005]有鉴于此,提出了一种数据处理技术方案。
[0006]第一方面,本申请的实施例提供了一种数据处理方法,所述方法应用于分布式处理系统中的归约服务器,所述分布式处理系统包括多个映射服务器及 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法应用于分布式处理系统中的归约服务器,所述分布式处理系统包括多个映射服务器及多个归约服务器,所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存,所述方法包括:从预设的第一存储区域,获取待读取的第一数据的元数据;根据所述元数据,确定所述第一数据在所述全局内存中的第一地址;根据所述第一地址,从所述全局内存中读取所述第一数据,其中,所述第一数据包括第二数据的多个数据块中的目标数据块,所述第二数据包括相应的映射服务器对输入数据的处理结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一地址,从所述全局内存中读取所述第一数据,包括:在所述第一地址位于所述归约服务器的访问范围之外的情况下,将所述第一地址映射为第二地址,所述第二地址位于所述归约服务器的访问范围内;根据所述第二地址,从所述全局内存中读取所述第一数据。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:在所述归约服务器连接到所述分布式处理系统后,所述归约服务器通过预设的注册指令进行注册,以使所述归约服务器的内存加入所述全局内存。4.一种数据处理方法,其特征在于,所述方法应用于分布式处理系统中的映射服务器,所述分布式处理系统包括多个映射服务器及多个归约服务器,所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存,所述方法包括:对输入数据进行处理,得到第二数据;根据预设标签,将所述第二数据划分为多个数据块;将所述多个数据块存储到第二存储区域,所述第二存储区域位于所述全局内存中。5.根据权利要求4所述的方法,其特征在于,所述将所述多个数据块存储到第二存储区域,包括:在需要对多个数据块中的数据进行排序的情况下,根据预设的第二尺寸,将第二存储区域划分为多个子区域;按照子区域的顺序,将所述多个数据块存储到所述多个子区域中;在将所述多个数据块依次存储到所述多个子区域期间,通过更新有序索引链表,对存储完成的所有子区域中的数据进行排序,所述有序索引链表通过链表链接数据的位置索引的方式进行排序。6.根据权利要求4中所述的方法,其特征在于,所述映射服务器包括对所述输入数据进行处理的至少一个第一算子,所述方法通过所述映射服务器上的第一运算进程实现,所述方法还包括:在所述第一运算进程的初始化阶段,根据所述映射服务器的处理器核的数量,向所述全局内存申请所述第二存储区域,以使每个处理器核对应一个第二存储区域,其中,所述每个处理器核上运行至少一个第一算子。7.根据权利要求4所述的方法,其特征在于,所述根据预设标签,将所述第二数据划分
为多个数据块,包括:根据预设标签,通过哈希方式,将所述第二数据划分为多个数据块。8.根据权利要求4所述的方法,其特征在于,所述将所述多个数据块存储到第二存储区域,包括:确定第二存储区域的第三地址;在所述第三地址位于所述映射服务器的访问范围之外的情况下,将所述第三地址映射为第四地址,所述第四地址位于所述映射服务器的访问范围内;根据所述第四地址,将所述多个数据块存储到所述第二存储区域。9.根据权利要求4
‑
8中任一项所述的方法,其特征在于,所述方法还包括:确定所述多个数据块的元数据;将所述多个数据块的元数据存储到预设的第一存储区域。10.根据权利要求4
‑
9中任一项所述的方法,其特征在于,所述方法还包括:在所述映射服务器连接到所述分布式处理系统后,所述映射服务器通过预设的注册指令进行注册,以使所述映射服务器的内存加入所述全局内存。11.根据权利要求4
‑
10任一项所述的方法,其特征在于,所述方法还包括:当第一内存满足第一条件时,从所述第一内存存储的数据中确定第一目标数据,将所述第一目标数据存储至外部存储区域,所述第一条件为所述第一内存已经使用的空间大于或等于第一阈值,或者,为所述第一内存已经使用的空间与所述第一内存的总空间的比值大于或等于第二阈值,所述第一内存为所述全局内存或者所述全局内存的部分内存。12.根据权利要求4
‑
11任一所述的方法,其特征在于,所述方法还包括:当所述第一内存满足第二条件时,从所述外部存储区域存储的数据中确定第二目标数据,将所述第二目标数据存储至所述第一内存,所述第二条件为所述第一内存已经使用的空间小于或等于第三阈值,或者,为所述第一内存已经使用的空间与所述第一内存的总空间的比值小于或等于第四阈值。13.根据权利要求11或12所述的方法,其特征在于,所述外部存储区域包括以下至少一种:硬盘驱动器HDD、固态硬盘SSD。14.一种归约服务器,其特征在于,所述归约服务器应用于分布式处理系统,所述分布式处理系统包括多个映射服务器及多个归约服务器,所述多个映射服务器的内存及所述多个归约服务器的内存构成全局内存,所述归约服务器包括:元数据读取模块,用于从预设的第一存储区域,获取待读取的第一数据的元数据;地址确定模块,用于根据所述元数据,确定所述第一数据在所述全局内存中的第一地址;数据读取模块,用于根据所述第一地址,从所述全局内存中读取所述第一数据,其中,所述第一数据包括第二数据的多个数据块中的目标数据块,所述第二数据包括相应的映射服务器对输入数据的处理结果。1...
【专利技术属性】
技术研发人员:徐华,包小明,孙宏伟,郑宜海,刘春,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。