硬件加速子系统中的数据适配技术方案

技术编号:34832035 阅读:25 留言:0更新日期:2022-09-08 07:25
本文中描述用以实现硬件加速子系统中的数据聚合及型式适配的方法、设备、系统及制品。在一些实例中,一种硬件加速子系统(310)包含:第一调度器(382a);第一硬件加速器(350a),其耦合到所述第一调度器(382a)以处理至少第一数据元素及第二数据元素;及第一负载存储引擎(352a),其耦合到所述第一硬件加速器(350a),所述第一负载存储引擎(352a)经配置以通过响应于确定块计数等于第一BPR值而向所述第一调度器(382a)发送完成信号来以超级块层级与所述第一调度器(382a)进行通信,且基于所述第一BPR值而将所述第一数据元素与所述第二数据元素聚合以生成第一经聚合数据元素。素聚合以生成第一经聚合数据元素。素聚合以生成第一经聚合数据元素。

【技术实现步骤摘要】
【国外来华专利技术】硬件加速子系统中的数据适配


[0001]本描述一般来说涉及硬件加速子系统,且更特定来说,涉及硬件加速子系统中的增强型外部存储器传送及型式适配。

技术介绍

[0002]尽管中央处理单元(CPU)已改进以满足现代应用的需求,但计算机性能仍受到必须由CPU同时处理的大量数据的限制。硬件加速器子系统可通过将任务从计算机的中央处理单元(CPU)卸载到专门执行那些任务的硬件组件而提供改进的性能及/或功率消耗。
附图说明
[0003]图1是用以对从外部存储器提取的宏块执行处理任务的基于块的处理及存储子系统的实例性图式。
[0004]图2是用以处理从外部存储器提取的数据元素的硬件加速子系统的实例性图式。
[0005]图3是用以在硬件加速中实现数据聚合及型式适配的实例性硬件加速子系统的框图。
[0006]图4是图解说明用以生成经聚合数据元素的实例性数据元素聚合的实例性图式。
[0007]图5是图解说明实例性型式适配过程的实例性图式,所述实例性型式适配过程由实例性型式适配器实施以将数据块转换为行数据元素。
[0008]图6是图解说明用于图像、视觉及/或视频处理的实例性多消费者/多生产者硬件加速子系统的实例性用户定义图。
[0009]图7是图解说明实例性多消费者/多生产者硬件加速方案的实例性图式。
[0010]图8图解说明用以在第一信道上输出第一数据元素且在第二信道上输出第二数据元素的实例性多生产者镜头失真校正(LDC)硬件加速器。
[0011]图9是表示可经执行以实施图3的实例性硬件加速子系统的机器可读指令的流程图。
[0012]图10是经结构化以执行图9的指令来实施图3的设备的实例性处理器平台的框图。
[0013]图11是用以将软件(例如,与图9的实例性计算机可读指令对应的软件)分发给客户端装置(例如消费者(例如,用于许可、销售及/或使用)、零售商(例如,用于销售、转售、许可及/或分许可)及/或原始装备制造商(OEM)(举例来说,用于包含在待分发给零售商及/或直接购买客户的产品中))的实例性软件分发平台的框图。
[0014]各图未按比例。而是,层或区域的厚度可在图式中被放大。虽然各图展示具有干净的线及边界的层及区域,但这些线及/或边界中的一些或所有线及/或边界可为理想化的。实际上,边界及/或线可为不可观察的、混合的及/或不规则的。一般来说,遍及图式及所附书面描述,将使用相同参考编号来指代相同或类似零件。如本文中所使用,除非另外陈述,否则术语“上方”描述两个部分相对于地球的关系。如果第二部分具有介于地球与第一部分之间的至少一个部分,那么第一部分位于第二部分上方。同样,如本文中所使用,当第一部
分比第二部分更接近于地球时,第一部分位于第二部分“下方”。如上文所述,第一部分可在以下各项中的一或多者的情况下位于第二部分上方或下方:在其间具有其它部分、在其间不具有其它部分、第一部分与第二部分接触,或第一部分与第二部分彼此不直接接触。如本专利中所使用,对任何部分(例如,层、膜、区、区域或板)以任何方式位于另一部分上(例如,定位于另一部分上、位于另一部分上、安置于另一部分上或形成于另一部分上等)的陈述指示:所提及部分与所述另一部分接触,或所提及部分位于所述另一部分上方,其中一或多个中间部分位于所述两个部分之间。如本文中所使用,除非另外指示,否则连接参考(例如,附接、耦合、连接及接合)可包含由连接参考所参考的元素之间的中间部件及/或那些元素之间的相对移动。如此,连接参考未必推断两个元素直接连接及/或彼此呈固定关系。如本文中所使用,陈述任何部分与另一部分“接触”被定义为意指在所述两个部分之间不存在中间部分。
[0015]除非另外具体陈述,否则本文中使用例如“第一”、“第二”、“第三”等描述语,而不暗示或以其它方式指示优先级、物理顺序、列表中的布置及/或以任何方式排序的任何含义,但仅用作标签及/或任意名称来区分元素,以便于理解所描述的实例。在一些实例中,描述语“第一”可用于指代详细描述中的元素,而同一元素可在技术方案中用不同描述语(例如“第二”或“第三”)来参考。此类描述语仅用于明确识别可(举例来说)以其它方式共享同一名称的那些元素。如本文中所使用,“基本上实时”是指以近乎瞬时的方式发生,认识到可存在计算时间、传输等的现实世界延迟。因此,除非另外规定,否则“基本上实时”是指实际时间+/

1秒。
具体实施方式
[0016]在一些情形中,硬件加速可用于减少延迟、增加吞吐量、降低功率消耗并增强计算任务的并行化。常用的硬件加速器包含图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、复杂可编程逻辑装置(CPLD)及单芯片系统(SoC)。
[0017]硬件加速具有跨越许多不同领域的各种应用,包含汽车行业、先进驱动器系统(ADAS)、制造、高性能计算、机器人、无人机及涉及复杂高速处理的其它行业,例如基于硬件的加密、计算机生成图形、人工智能及数字图像处理,后者涉及对单个图像或视频流执行的各种复杂处理操作,举例来说,镜头失真校正、按比例调整、变换、噪声滤波、密集光流、金字塔表示、立体纱门效果(SDE)以及其它处理操作。与这些操作相关联的计算任务中的许多计算任务涉及大量处理能力,且在一些情形中,例如实时地处理视频流,处理图像或视频流所需的处理能力量可对CPU造成显著压力。
[0018]许多硬件加速器经设计以对从外部存储器提取的数据执行各种计算任务。许多实例性硬件加速器经配置以对呈块或行形式的数据元素执行处理任务。举例来说,在其中成像/视觉算法通常是基于二维(2D)块的图像处理中,硬件加速器可经配置以处理来自图像帧的二维块而非将整个图像帧作为行处理。各种实例性硬件加速器可对16x16字节、32x32字节及64x32字节的块大小进行操作。
[0019]如果在单芯片系统(SoC)上实施硬件加速器,那么直接存储器存取(DMA)控制器可实施直接存储器存取以从外部存储器提取数据块或数据行且将数据传送到本地芯片上存储器。许多类型的外部存储器(例如双数据速率同步动态随机存取存储器(DDR SDRAM))偏
好基于一维(1D)行的线性数据存取,这是因为行传送可不会招致页面惩罚,所述页面惩罚可(举例来说)在需要两个页面打开/关闭循环来存取落在不同页面上的垂直相邻像素时发生(每一页面打开/关闭循环具有约60ns的持续时间(例如,页面惩罚))。
[0020]尽管DDR外部存储器偏好线性存取,但DMA控制器可存取来自DDR外部存储器的呈块形式的数据;然而,由DDR外部存储器发送的数据块可为具有与DMA数据块请求中的行数目对应的块高度及64字节的固定块宽度的固定大小的矩形块。在一些情形中,由DDR发送的固定大小的矩形块可具有由外部存储器控制器管理的块高度及/或是突发大小的函数的块宽度。由于硬件加速器可对数据行或比由DDR外部存储器发送的数据块小的数据块频繁地进行操作,因此DMA控制器可仅使用由DDR发送的数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种单芯片系统(SoC),其包括:第一调度器;第一硬件加速器,其耦合到所述第一调度器以处理至少第一数据元素及第二数据元素;以及第一负载存储引擎,其耦合到所述第一硬件加速器,所述第一负载存储引擎经配置以:通过响应于确定块计数等于第一BPR值而向所述第一调度器发送完成信号来以超级块层级与所述第一调度器进行通信;及基于所述第一BPR值而将所述第一数据元素与所述第二数据元素聚合以生成第一经聚合数据元素。2.根据权利要求1所述的SoC,其中所述第一负载存储引擎:响应于所述第一硬件加速器处理所述第一数据元素而将所述块计数递增;及响应于所述第一硬件加速器处理所述第二数据元素而将所述块计数递增。3.根据权利要求1所述的SoC,其中所述第一调度器响应于从所述第一硬件加速器接收到所述完成信号而指示DMA控制器将所述第一经聚合数据元素存储到外部存储器。4.根据权利要求1所述的SoC,其中所述第一调度器响应于从所述第一硬件加速器接收到所述完成信号而指示第二硬件加速器读取所述第一经聚合数据元素。5.根据权利要求1所述的SoC,其中所述第一负载存储引擎经配置以通过响应于所述第一硬件加速器处理所述第一数据块而向所述第一调度器发送完成信号来以块层级与所述第一调度器进行通信。6.根据权利要求1所述的SoC,其中所述第一BPR值与第一数据信道相关联。7.根据权利要求1所述的SoC,其包含耦合到所述第一调度器的软件(SW)可编程存储器映射寄存器(MMR),所述MMR用以将至少所述第一BPR值提供到所述第一负载存储引擎。8.根据权利要求1所述的SoC,其中所述第一负载存储引擎经配置以基于第二BPR值而将至少第三数据元素与第四数据元素聚合以生成第二经聚合数据元素。9.根据权利要求8所述的SoC,其中所述第二BPR值与第二数据信道相关联。10.根据权利要求1所述的SoC,其中所述第一负载存储引擎启用本地存储器中的软件(SW)可编程循环缓冲器存储以用于至少基于所述第一BPR值的数据聚合。11.根据权利要求1所述的SoC,其中所述第一调...

【专利技术属性】
技术研发人员:N
申请(专利权)人:德州仪器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1