具有结合的CPU和GPU的芯片器件,相应的主板和计算机系统技术方案

技术编号:10630730 阅读:185 留言:0更新日期:2014-11-07 18:05
本实用新型专利技术大体上涉及一种计算机系统,具体地说,涉及一种具有结合的CPU和GPU的芯片器件,一种包括配置成与具有结合的CPU和GPU的芯片器件连接的芯片插口的相应主板和一种包括结合的CPU和GPU的计算机系统。

【技术实现步骤摘要】
【专利摘要】本技术大体上涉及一种计算机系统,具体地说,涉及一种具有结合的CPU和GPU的芯片器件,一种包括配置成与具有结合的CPU和GPU的芯片器件连接的芯片插口的相应主板和一种包括结合的CPU和GPU的计算机系统。【专利说明】具有结合的CPU和GPU的芯片器件,相应的主板和计算机系统
本技术大体上涉及一种计算机系统,具体地说,涉及一种具有结合的CPU(中央处理单元)和GPU(图形处理单元)的芯片器件,一种包括配置成与具有结合的CPU和GPU的芯片器件连接的芯片插口的相应主板和一种包括结合的CPU和GPU的计算机系统。
技术介绍
计算机长期以来就包含CPU,其设计用于运行常规的编程任务。但是,计算机系统典型地也包括其他处理元件,最普通的是GPU,其最初设计用于并行地执行专业的图形计算。随着时间的推移,GPU已经变得更加强大和用途广泛,进而允许将它们以非常优异的功效应用于处理通用的并行计算任务。 今天,越来越多的主流应用程序要求仅仅通过高度并行计算就能够实现高性能和高效率。但是,现在的CPU和GPU被设计成独立的处理单元,不能高效地协同工作,并且编程起来非常繁琐。它们每个都具有单独的内存空间,进而需要应用程序明确地将数据从CPU复制到GPU,然后再返回来。 在CPU上运行的程序通过设备驱动器堆栈利用系统调用来使得针对GPU的任务列队等待,所述设备驱动器堆栈通过完全独立的调度程序来管理。这导致明显的具有系统开销(overhead)的调度延迟,所述系统开销只有在应用程序需要的并行计算量非常大的时候才使得这种处理过程是合算的。此外,如果在GPU上运行的程序想要直接产生工作条目的话,不管是针对它本身还是针对CPU,这在今天都是不能实现的。 同时,现有的计算系统通常包括多个处理设备。例如,一些计算系统包括处于单独的芯片上的CPU和GPU(例如,CPU可以位于主板上,而GPU可以位于显卡上)或者处于单个芯片封装中的CPU和GPU。 这种分散的芯片布局使得系统和软件设计师需要使用芯片到芯片接口,以便每个处理器访问内存。这些外部的接口(例如芯片到芯片的接口)对使异构处理器协同工作的内存延迟和功率消耗都具有负面影响,单独的内存系统(例如单独的寻址空间)和驱动器管理的共享内存使得系统开销变得不可接受。 不仅分散的芯片布局而且单个的芯片布局都可能限制能够被发送给GPU用于执行的命令的类型。这种基于性能的限制存在是因为CPU可以相对快速地请求由这些计算命令所生成的操作的结果。但是,由于现有系统中GPU上的调度工作的系统开销大并且这些命令可能不得不排队等待以便其他先前发起的命令先被执行,所以由于将计算命令发送给GPU所导致的延迟通常是不可接受的。
技术实现思路
为了解决这些缺陷和其他缺点,本技术提供一种改善的计算机系统,其将CPU与GPU结合在一起并且使得它们能够共同地高效工作。所述改善的计算机系统具有增强的浮点数据处理和计算能力,并且同时降低了功耗,并且使得所述系统的性能、可编程性和可移植性得到改善。 为了实现所述改善的计算机系统,提出了异构系统架构(HSA)。所述HSA是一种系统架构,其允许加速器(例如图形处理器)在与系统的CPU相同的处理水平上运行。利用HSA,应用程序可以在单个统一的寻址空间内创建数据结构,并且能够以最高效的方式针对所分配的任务在硬件上发起工作条目。在计算单元之间共享数据就像发送指针一样简单。多个计算任务可以在相同的相干(coherent)内存区域上运行,能够根据需要使用分界线和原子内存(barriers and atomic memory)操作以便保持数据同步。 在实施本技术的第一方面的示例性实施方式中,提供了一种芯片器件。所述芯片器件包括:CPU,其具有多个内核;GPU,其具有多个计算单元;系统内存,其连接至所述CPU和所述GPU ;内存管理单元(MMU),其连接至所述系统内存并且由所述CPU和所述GPU共享;其中,所述CPU和所述GPU集成在一起并且在共享的内存中以相干的方式运行。 作为本技术的一个方面,提供统一的寻址空间供所述CPU和所述GPU使用,以避免数据复制。所述统一的寻址空间允许包含指针的数据结构,所述指针能够由所述CPU和所述GPU自由使用。这使得在所述CPU与所述GPU之间共享资源变得更加容易,并且消除了通信延迟和瓶颈,否则的话这些通信延迟和瓶颈可能会使得GPU卸载没必要复杂化的事务。 在实施本技术的第二方面的示例性实施方式中,提供了一种主板。所述主板包括至少一个配置成连接至芯片器件的芯片插口,所述芯片器件包括:CPU,其具有多个内核;GPU,其具有多个计算单元;系统内存,其连接至所述CPU和所述GPU;内存管理单元(MMU),其连接至所述系统内存并且由所述CPU和所述GPU共享;其中,所述CPU和所述GPU集成在一起并且在共享的内存中以相干的方式运行。 在实施本技术的第三方面的示例性实施方式中,提供了一种计算机系统。所述计算机系统包括:CPU,其具有多个内核;GPU,其具有多个计算单元;系统内存,其连接至所述CPU和所述GPU;内存管理单元(MMU),其连接至所述系统内存并且由所述CPU和所述GPU共享;其中,所述CPU和所述GPU集成在一起并且在共享的内存中以相干的方式运行。 【专利附图】【附图说明】 参考附图通过举例的方式(但并不限于此)阐述本技术,其中: 图1示出现有技术中一种包括CPU和GPU的简化的计算机系统的示意性方框图,所述CPU和GPU均具有单独的内存; 图2示出一种包括CPU和GPU的经改善的简化的计算机系统的示意性方框图,所述CPU和GPU具有共享的系统内存; 图3示出一种根据本技术的示例性实施方式的经改善的简化的计算机系统的示意性方框图;以及 图4示出一种根据本技术的示例性实施方式的典型系统的示意性方框图。 【具体实施方式】 结合附图在考虑下面的详细描述的情况下更好地理解本技术。在下面的说明书中,许多具体细节都是用来提供对本技术的完全理解。但是,对本领域技术人员来说显而易见的是,本技术能够以不带有一些或全部具体细节的方式实施。在其他情况下,公知的步骤和/或结构并未进行详细阐述,以免不必要地造成本技术难于理解。 在一些实施方式中,计算机系统在单个集成电路或者主板上实现,所述集成电路或者主板的元件可以包括一个或多个CPU内核以及一个或多个统一的GPU计算单元,如下面还将详细介绍的那样。与CPU和GPU通常是独立的(例如位于单独的卡或板上或者位于单独的封装中)传统计算环境相比,改善的计算机系统创造了一种现有的和新型的编程框架、语言和工具都能够在上面应用的基础。 所述改善的计算机系统的统一环境可以使得编程人员编写相应的应用程序,所述应用程序流畅连贯地或者说无缝地在CPU与GPU之间转移数据,进而从每个设备必须要提供的最佳属性中获益。统一的单个编程平台可以提供强大的基础,以便开发采用并行方式的语言、框架和应用程序。 在下面的详细描述中,对“一种实施方式”、“一个实施方式”、“一种不例性实施方式”等的参考指示出所描述的实施方式可以包本文档来自技高网
...

【技术保护点】
一种芯片器件,其包括: CPU,其具有多个内核; GPU,其具有多个计算单元; 系统内存,其连接至所述CPU和所述GPU; 内存管理单元(MMU),其连接至所述系统内存并且由所述CPU和所述GPU共享; 其中,所述CPU和所述GPU集成在一起并且在共享的内存中以相干的方式运行。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢铭李有生
申请(专利权)人:超威半导体产品中国有限公司
类型:新型
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1