一种基于MIC协处理器的多数据流处理方法技术

技术编号:12626035 阅读:53 留言:0更新日期:2015-12-31 19:41
本发明专利技术公开了一种基于MIC协处理器的多数据流处理方法,该方法包括:中央处理器CPU获取数据源,将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中;所述MIC协处理器采用四层滑动窗口模型对所述多条数据流进行并行计算,并执行多数据流查询算法,得到数据流查询结果;所述MIC协处理器将所述数据流查询结果返回至所述CPU;所述CPU依据所述数据流查询结果得到用户的IO输出任务,执行所述IO输出任务。该方法实现提高多数据流处理的并行性和实时性。

【技术实现步骤摘要】

本专利技术涉及大数据高性能计算的
,特别是涉及一种基于MIC协处理器的多数据流处理方法
技术介绍
现实生活中,高速网络故障诊断,零售业务中的交易数据流、在线拍卖、交易日志、Web跟踪和个性化、医学监测、通信领域中的电话记录数据流、网络监测中的数据包流、环境温度的监测数据以及卫星传回的图像数据流等形成了一种与传统数据库中静态数据不同的数据形态。数据流中的数据到达是快速、时变、不可预测和无限的数据流形式,不可能完全存储原始数据。而且这些数据流产生的数据量在多个应用领域中快速增长,而且产生数据流的应用通常要求在线实时处理。对于传统的多数据流处理基本模型,传统的多数据流处理技术将所有数据存放到数据库或者数据仓库中;系统响应用户提交的DML语句,搜索数据存储媒介,返回查询结果。当数据规模很大时,数据往往以磁盘或者磁带为介质,因而执行查询操作需要大量的I/O交换,效率低下,不能适应实时系统的需求。由于多数据流本身不断变化且难以预测的特点,以及多数据流突发的产生对多数据流负载能力提出了更高的要求,同时多数据流处理因为时间开销过大而难以满足实时性需求,所以多数据流处理的并行性和实时性很低。
技术实现思路
本专利技术的目的是提供一种基于MIC协处理器的多数据流处理方法,以实现提高多数据流处理的并行性和实时性。为解决上述技术问题,本专利技术提供基于MIC协处理器的多数据流处理方法,该方法包括:中央处理器CPU获取数据源,将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中;所述MIC协处理器采用四层滑动窗口模型对所述多条数据流进行并行计算,并执行多数据流查询算法,得到数据流查询结果;所述MIC协处理器将所述数据流查询结果返回至所述CPU ;所述CPU依据所述数据流查询结果得到用户的1输出任务,执行所述1输出任务。优选的,所述中央处理器CPU获取数据源之后,还包括:所述中央处理器CPU将并行到达的多条数据流汇集到前缓冲区,交换前后缓冲区内容,将后缓存区中缓冲窗口的数据交换到MIC协处理器中。优选的,所述四层滑动窗口模型包括:时序数据层、缓冲窗口层、滑动窗口层和概要数据矩阵。优选的,所述时序数据层的数据为三元组:〈SID,Timestamp, Value〉,SID是数据流标识,Timestamp是元组到达时间,Value是数据值,所述时序数据层用于数据1处理和数据缓冲处理,对任意数据采样时间单位内到达的具有相同SID的数据计算和值,没有数据到达的按照O插值或线性插值进行处理。优选的,所述缓冲窗口层的数据为四元组:〈SID,Timestamp,Data,Synopsis〉,SID是数据流标识符,Timestamp是所有基本窗口内数据共享的时间戳,Data是窗口内的数据的集合,Synopsis该缓冲窗口的统计信息或摘要信息,所述缓冲窗口层用于通过PCIE总线将每条数据流对应的缓冲窗口的数据交换到MIC协处理器的内存中,在MIC协处理器上生成基本窗口的摘要信息。优选的,所述滑动窗口层的数据为三元组:〈SID,Data,Synopsis〉,SID表示该滑动窗口的数据流标识符,Data是滑动窗口数据,滑动窗口数据是在物理存储上是连续的w/b个基本窗口的数据的集合,Synopsis是整个滑动窗口的概要数据,所述滑动窗口层用于在新的缓冲窗口被交换到MIC协处理器的内存时,增量维护每条数据流的整体摘要信息。优选的,所述概要数据矩阵为:M = [s。,S1,...sn JT,M为所述概要矩阵,S1是索引SID = i的数据流的数据或概要数据结构组成的行向量,所述概要数据矩阵用于通过将多个滑动窗口密集排列在概要数据矩阵中,保存在连续的内存空间中。优选的,所述四层滑动窗口模型为跨PCIE总线的四层滑动窗口模型。优选的,所述MIC协处理器通过最小交换原则执行多数据流查询算法,仅返回最后的查询结果。优选的,所述中央处理器CPU获取数据源,将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中之后,还包括:所述MIC协处理器将多条数据流存储至连续的内存空间中,利用索引标识符和偏移量对所述多条数据流进行并行的读写操作。本专利技术所提供的一种基于MIC协处理器的多数据流处理方法,中央处理器CPU获取数据源,将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中;所述MIC协处理器采用四层滑动窗口模型对所述多条数据流进行并行计算,并执行多数据流查询算法,得到数据流查询结果;所述MIC协处理器将所述数据流查询结果返回至所述CPU ;所述CPU依据所述数据流查询结果得到用户的1输出任务,执行所述1输出任务。可见,该方法直接将数据进行读写处理,不需要写入数据库中,也不需要以磁盘为介质进行查询,节省整个并行处理时间,并且将多个数据流的并行计算处理和查询算法交由MIC协处理器并行执行,利用中央处理器处理复杂程序流程和强大的数据缓冲能力,集中处理流程控制和数据缓冲数以千计的数据流的任务,这样实现提高多数据流处理的并行性和实时性。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术提供的一种基于MIC协处理器的多数据流处理方法的流程图;图2为四层滑动窗口 I旲型不意图;图3为MIC协处理器的多数据流处理流程示意图。【具体实施方式】本专利技术的核心是提供一种基于MIC协处理器的多数据流处理方法,以实现提高多数据流处理的并行性和实时性。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术提供的一种基于MIC协处理器的多数据流处理方法的流程图,该方法包括:Sll:中央处理器CPU获取数据源,将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中;其中,数据流实际上就是连续移动的元素队伍,其中的元素是由相关数据的集合组成。令t表示任一时间戳,at表示在该时间戳到达的数据,流数据可以表示成{>",at-l,at,at+l,…}。区别于传统应用模型,流数据模型具有以下共性:数据实时到达;数据到达次序独立,不受应用系统所控制;数据规模宏大且不能预知其最大值;数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。中央处理器CPU获取数据源之后,中央处理器CPU将并行到达的多条数据流汇集到前缓冲区,交换前后缓冲区内容,将后缓存区中缓冲窗口的数据交换到MIC协处理器中。中央处理器CPU将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中之后,MIC协处理器将多条数据流存储至连续的内存空间中,利用索引标识符和偏移量对所述多条数据流进行并行的读写操作。S12:MIC协处理器采用四层滑动窗口模型对多条数据流进行并行计算,并执行多数本文档来自技高网
...

【技术保护点】
一种基于MIC协处理器的多数据流处理方法,其特征在于,包括:中央处理器CPU获取数据源,将并行到达的多条数据流通过PCIE总线传输至MIC协处理器中;所述MIC协处理器采用四层滑动窗口模型对所述多条数据流进行并行计算,并执行多数据流查询算法,得到数据流查询结果;所述MIC协处理器将所述数据流查询结果返回至所述CPU;所述CPU依据所述数据流查询结果得到用户的IO输出任务,执行所述IO输出任务。

【技术特征摘要】

【专利技术属性】
技术研发人员:卢晓伟
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1