一种融合多级缓存目录建立访问方法技术

技术编号:10279534 阅读:200 留言:0更新日期:2014-08-02 21:15
本发明专利技术涉及一种融合多级缓存目录建立访问方法,建立分级融合的层次化缓存目录机制,数个CPU和GPU处理器组成一个Quart计算单元,在CPU或GPU处理器自带的缓存内按级建立Cuckoo目录,在Quart计算单元外建立区域目录和区域目录控制器,既可以有效降低总线的通信带宽,降低仲裁冲突频率,又可以缓存三级融合Cache的数据块目录,提高三级融合缓存的访问命中率。从而,构建Quart内外分级融合的层次化Cache目录机制,能保证降低Cache失效率的同时,减少片内总线带宽,降低系统功耗,而且不必增加Cache块的新状态,对Cache一致性协议具有很好的兼容性,为构建可扩展性、高性能的异构单片千核处理器系统提供一种新的思路。

【技术实现步骤摘要】
一种融合多级缓存目录建立访问方法
本专利技术涉及一种计算机缓存技术,特别涉及一种融合多级缓存目录建立访问方法。
技术介绍
缓存(Cache)目录及其一致性机制是众核处理器存储系统中的关键技术。国际上近三年对异构众核系统的Cache目录及其一致性机制的研究比较活跃。Protoza是一种自适应粒度的Cache一致性机制,它通过避免浪费通信带宽和不必要的一致性流量来实现有效的空间局部性。SPATL将共享模式从Bloom过滤器分离出来,并采用无标签(tagless)Cache目录机制消除冗余的副本。Sanchez等人针对1024核的单片多处理器提出的可扩展一致性目录,但是该目录机制只是一个单级的Cache目录,并且需要跟踪固定数量的数据块副本;其后续研究的Jigsaw是一个对更小规模单片多处理器系统的可扩展软件化Cache。WayPoint是对经典千核处理器架构Rigel进行可扩展一致性研究,通过对Cache一致性机制增加一个广播探测过滤器以达到减小片上存储开销和目录协议的维护开销。Xu等人通过整合片上光互联技术以发挥监听协议和目录协议各自的优势,提出了针对千核单片多处理器的组合型Cache一致性机制。Hechtman等人针对异构多核系统提出了基于共享虚拟内存的Cache一致性机制,该机制也仅仅依赖于共享的二级Cache,并没有共享最后一级的CPUCache和GPUCache,也没有扩展到异构千核系统。库Cache一致性(LibraryCacheCoherence)是一个基于时钟的硬件一致性,通过保存不过期的数据块来保证单品多处理器系统的顺序一致性。时间一致性(TemporalCoherence)也是基于时钟的、面向NvidiaGPU架构的Cache一致性框架。Ubik是一种支持关键路径工作流QoS的Cache共享机制。Basu等人提出的双粒度CMP目录协议是通过采用监听区域一致性机制以最大化片上目录状态精度的方法,保证单片多处理器系统Cache的一致性。HeLM是一个新颖的共享最后一级Cache的管理策略,它通过旁路最后一级Cache来容忍GPU对内存访问的延迟,线程级并行性决定了GPU应用程序对延迟访问的容忍度。TAP是一个针对CPU-GPU异构架构的线程级并行感知的Cache管理机制,该机制主要结合基于利用率的Cache划分方法(Utility-basedCachePartitioning)和重引用间距预测技术(Re-referenceIntervalPrediction)。Alvarez等人提出了基于软硬件协同设计思想的的一致性协议,允许编译器消除别名问题从而只维护多个数据副本中的唯一副本,减少维护Cache一致性的成本。Kelm等人提出了一个Cohesion机制来直接迁移数据而不用直接复制副本的方法,从而实现更好的时间局部性。同时,还采用软硬件协议交错管理数据块实现基于Cache行的细粒度管理。本专利技术主要面向真正的单片异构计算机系统,如AMD的Fusion架构处理器和Intel的MIC架构处理器,将数据流计算部件或向量计算部件与CPU计算核心统一集成到单个芯片。真正的单片异构计算机系统的研究前景好,可以分类应用到大规模并行计算系统、服务器、桌面计算、移动计算、云计算等。异构千核处理器的研究将对云计算基础技术和大数据应用处理提供基础支撑作用。因此,对单片异构千核处理器的关键技术开展前瞻性研究是很有必要的。
技术实现思路
本专利技术是针对单片异构千核处理器缓存管理的问题,提出了一种融合多级缓存目录建立访问方法,能保证降低缓存Cache失效率的同时,减少片内总线带宽,降低系统功耗,而且不必增加Cache块的新状态,对Cache一致性协议具有很好的兼容性,为构建可扩展性、高性能的异构单片千核处理器系统提供一种新的思路。本专利技术的技术方案为:一种融合多级缓存目录建立方法,具体包括如下步骤:1)数个CPU和GPU处理器组成一个Quart计算单元,在CPU或GPU处理器自带的缓存内按级建立Cuckoo目录,在Quart计算单元外建立区域目录和区域目录控制器;2)某一个CPU或GPU处理器发射一条对地址F的操作请求,则查询CPU或GPU处理器第一级缓存的Cuckoo目录,如果查询缺失,就将该操作请求添加到第二级缓存的区域目录机制中对应的请求队列,如果查询命中,地址F对应的数据块就存在于本区域第二级缓存中,按照正常的缓存操作完成;3)如果地址F对应的数据块不在区域缓存区内,那么就发送一个查询请求到第二级缓存目录的区域目录,如果操作请求在区域目录中命中,就表明对应的数据块至少存在有一个区域中,可能是同一个Quart计算单元内的区域或者是其他Quart计算单元的区域,区域目录控制器会比较对应的向量位T、Q、C和G位,分别对应Tiles、Quart、CPU簇和GPU簇的标识,确定地址F对应的数据块存在于那个Tile那个Quart中的那个CPU或GPU区域缓存区中;4)区域目录控制器发送一个置无效探测请求给步骤3)明确的区域缓存区,此区域缓存区接收到置无效探测请求后,就会将对应的数据缓存中所有的有效状态的、对应于区域目录的数据块置无效,并将此区域缓存区域中对应的数据块写回到主存,如果存在各个Quart计算单元统一的三级数据缓存,则替代相应的数据块;5)区域目录控制器通知步骤2)发出操作请求的区域缓存区并授权它直接访问主存。本专利技术的有益效果在于:本专利技术融合多级缓存目录建立访问方法,能保证降低缓存Cache失效率的同时,减少片内总线带宽,降低系统功耗;可以交叉式直接访问统一的物理内存,避免了内存数据块复制并传送到GPU缓存区,经GPU计算并获得结果后又将新的数据块复制到共享内存的数据传输开销,从而可以打破异构处理器架构中CPU或GPU访问对方数据块的访存瓶颈;由于不需要增加Cache数据块的状态,分级融合Cache目录机制可以兼容传统的Cache一致性协议,提供了良好的系统兼容性;分级融合Cache目录机制可以扩展到千核甚至更大规模的单片众核处理器或者超级计算机系统结构,提供了良好的可扩展性。附图说明图1为本专利技术融合多级缓存目录工作流程图。具体实施方式分级融合的层次化Cache目录机制的基本组成是在Quart级以内设计Cuckoo目录,缓存同构CPU计算核心或GPU计算核心的数据块,发挥Cuckoo目录占用Cache面积小、功耗低的优点。由于在异构千核处理器架构中有64个Quart共享高速交叉总线,总线上的通信负载大,通信的仲裁冲突会急剧增加。因此,在Quart级以外设计区域目录(RegionDirectory),既可以有效降低总线的通信带宽,降低仲裁冲突频率,又可以缓存三级融合Cache的数据块目录,提高三级融合Cache的访问命中率。从而,拟构建Quart内外分级融合的层次化Cache目录机制。如图1所示融合多级缓存目录工作流程图,展示了一个独立的写请求操作在异构千核计算机四级存储模型中的基本操作过程。①GPU簇发射一条对地址F的独立的写操作请求,然后查询第一级Cache目录的Cuckoo目录机制。②如果查询缺失,就将该请求添加到第二级Cache目录的区域目录机制中对应的请求队列。如果查询命中,地址F对应的数据块就存在于GP本文档来自技高网
...
一种融合多级缓存目录建立访问方法

【技术保护点】
一种融合多级缓存目录建立方法,其特征在于,具体包括如下步骤:1)数个CPU和GPU处理器组成一个Quart计算单元,在CPU或GPU处理器自带的缓存内按级建立Cuckoo目录,在Quart计算单元外建立区域目录和区域目录控制器;2)某一个CPU或GPU处理器发射一条对地址F的操作请求,则查询CPU或GPU处理器第一级缓存的Cuckoo目录,如果查询缺失,就将该操作请求添加到第二级缓存的区域目录机制中对应的请求队列,如果查询命中,地址F对应的数据块就存在于本区域第二级缓存中,按照正常的缓存操作完成;3)如果地址F对应的数据块不在区域缓存区内,那么就发送一个查询请求到第二级缓存目录的区域目录,如果操作请求在区域目录中命中,就表明对应的数据块至少存在有一个区域中,可能是同一个Quart计算单元内的区域或者是其他Quart计算单元的区域,区域目录控制器会比较对应的向量位T、Q、C和G位,分别对应Tiles、Quart、CPU簇和GPU簇的标识,确定地址F对应的数据块存在于那个Tile那个Quart中的那个CPU或GPU区域缓存区中;4)区域目录控制器发送一个置无效探测请求给步骤3)明确的区域缓存区,此区域缓存区接收到置无效探测请求后,就会将对应的数据缓存中所有的有效状态的、对应于区域目录的数据块置无效,并将此区域缓存区域中对应的数据块写回到主存,如果存在各个Quart计算单元统一的三级数据缓存,则替代相应的数据块;5)区域目录控制器通知步骤2)发出操作请求的区域缓存区并授权它直接访问主存。...

【技术特征摘要】
1.一种融合多级缓存目录建立方法,其特征在于,具体包括如下步骤:1)数个CPU和GPU处理器组成一个Quart计算单元,在CPU或GPU处理器自带的缓存内按级建立Cuckoo目录,在Quart计算单元外建立区域目录和区域目录控制器;2)某一个CPU或GPU处理器发射一条对地址F的操作请求,则查询CPU或GPU处理器第一级缓存的Cuckoo目录,如果查询缺失,就将该操作请求添加到第二级缓存目录的区域目录机制中对应的请求队列,如果查询命中,地址F对应的数据块就存在于本区域第二级缓存中,按照正常的缓存操作完成;3)如果地址F对应的数据块不在区域缓存区内,那么就发送一个查询请求到第二级缓存目录的区域目录,如果操作请求在区域目录中命中,就表明对应的数据块至...

【专利技术属性】
技术研发人员:裴颂文
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1