基于C6678平台的大数据转置方法技术

技术编号:20271913 阅读:27 留言:0更新日期:2019-02-02 03:26
本发明专利技术公开了一种基于C6678平台的大数据转置方法,包括下述步骤:系统初始化,设置分块转置的详细参数:分块的个数、分块矩阵的列大小、分块矩阵的行大小。依据初始化后的分块转置参数,通过QDMA通道DDR分块转置读取,完成分块矩阵由DDR到共享的数据搬移。启动8核并行开展数据共享存储的分块读取,片内存储的跳转存储,数据按照列格式顺序存储。在片内存储空间开展并行转置列的数据处理,完成矩阵转置信号处理。转置并行列处理结果顺序写入DDR,片内存储器内的转置处理结果存储到DDR缓存区内,完成分块转置处理。发明专利技术可以大幅提升矩阵转置的效率,缩短数据搬移时间,并且具备边搬移边处理的优势。

【技术实现步骤摘要】
基于C6678平台的大数据转置方法
本专利技术涉及雷达数据处理的
,具体地说是一种基于C6678平台的大数据转置方法。
技术介绍
随着雷达技术的进步,大数据、快速存储、高速运算已经成为了雷达信号处理的主流,特别是海量数据的转置读写更是STAP杂波抑制、SAR成像等重要功能必不可少的环节。但是受限于大数据存储器件线性存储的限制条件,海量数据传统转置读写的性能会随着矩阵操作的增大,性能迅速下降,有时转置时间甚至占用了整个信号处理时间的70%,成为了制约雷达实时信号处理发展的致命短板。为了解决传统矩阵转置操作单地址跳转读写效率异常低下的问题,本文结合TI公司最新信号处理芯片TMS30C6678DSP处理芯片提出了一种高速转置方法。该方法基于DDR(DoubleDataRateSDRAM)分块转置的原理,有效整合片外存储器DDR、片内存储共享、核内缓存空间三种存储器的优点,实现海量数据高速、无缝搬移,使得最终的转置效率提升4-5倍,有效缩短了数据搬移的时间,大幅提升了实时处理的性能,扩展了多种雷达算法的工程应用领域。
技术实现思路
本专利技术的目的是克服上述现有技术的不足,提供一种整合多种存储器,利用合理的分块转置算法实现海量数据高速转置的基于C6678平台的大数据转置方法。本专利技术采用的技术方案为:基于C6678平台的大数据转置方法,包括下述步骤:1)系统初始化,设置分块转置的详细参数:分块的个数、分块矩阵的列大小、分块矩阵的行大小;2)依据初始化后的分块转置参数,通过QDMA通道DDR分块转置读取,完成分块矩阵由DDR到共享的数据搬移;3)启动8核并行开展数据共享存储的分块读取,片内存储的跳转存储,数据按照列格式顺序存储;4)在片内存储空间开展并行转置列的数据处理,完成矩阵转置信号处理;5)转置并行列处理结果顺序写入DDR,片内存储器内的转置处理结果存储到DDR缓存区内,完成分块转置处理。进一步的,矩阵转置时评估公式为:其中为10GB/s为DDR顺序读写的速率,M为方位向点数,N为距离向点数,1/4为Brust读取效率,1/4为DDR跨页读取效率。进一步的,转置速率公式为:其中m为分块转置所包含的列个数,其大小为:其中2048*1024/8为2MB数据中缓存的复数的个数,实部虚部为32位浮点数,整个M*N矩阵需要分块的个数为:count=N/m。基于C6678平台的大数据转置方法与传统的转置相比,能取得如下有益效果:1、采用分块转置的方法提升外设存储其的数据搬移效率,避免DDR跳转单点读取效率低下的问题;2、采用边转置边处理的分块转置算法,每次转置大小都为二维列数的整数倍,能够在转置读取存储前开展信号处理,避免不必要的数据搬移;3、采用8核并行数据L2存储独立排序设计,既能够充分利用8核并行的运算优势,又能够充分利用片存储器的独立写通道的特性,充分提升传输效率;4、能够有机整合片DSP的多种存储器资源,大幅提升矩阵转置的效率。附图说明图1基于C6678平台的大数据转置方法的流程图。图2现有C6678平台组成示意图。图3传统转置速率的测试结果。图4DDR分块转置读取示意图。图5DDR分块转置读取速率的测试结果。图6DDR分块转置数据存储结构。图7片内L2存储器内顺序存储的数据结构。图8基于C6678平台的大数据转置工程实现的数据格式图。图9高速转置与传统转置的速率对比。具体实施方式下面结合附图对本专利技术做进一步阐述。基于C6678平台的大数据转置方法充分利用C6678的片内、片外各种存储器,以及C6678高速信号处理功能才能够完成实现,充分体现C6678的高吞吐量性能。依据图1的流程图可知,具体的实现步骤如下:1.系统初始化,设置分块转置的详细参数:分块的个数、分块矩阵的列大小、分块矩阵的行大小;2.系统同步,8核同步一次,8核处于就绪状态;3.DSP芯片0核启动,通过QDMA通道进行DDR分块转置读取,完成分块矩阵由DDR到共享的数据搬移;4.系统同步,8核同步一次,8核处于就绪状态;5.8核并行开展数据共享存储的分块读取、片内存储的跳转存储,数据按照列格式顺序存储;6.8核并行开展信号处理,完成各个数据列的信号处理;7.8核并行进行DDR数据顺序存储,片内存储器内的转置处理结果存储到DDR缓存区内,完成一次分块转置处理;8.系统同步,8核同步一次,8核处于就绪状态;9.分块转置计数器是否为0,计数器为0时矩阵转置处理完成,计数器不为0分块转置还需要继续,重新开始步骤3。本专利技术采用下述方法来实现C6678平台的快速转置:本文采用分块转置设计,充分利用C6678芯片8个高速处理内核,有效整合片外存储器、片内共享存储器、片内存储器三种存储器的优点,取长补短发挥各个单元的优势,最终完成海量数据的快速转置。其分析与实现步骤如下:由图2可知,现有的C6678平台由通信接口、外扩存储空间、处理芯片三个部分组成。与数据转置有关的主要有存储空间、处理芯片两个部分。其性能描述如下:处理芯片:主频1GHz,8核集成、每个核集成两组寄存器、16个功能单元,支持流水线数据操作。片内L2存储空间:大小512KB,每个核都单独使用,读写主频1GHz,具备独立的写入通道,但数据读取时需要经过Cache缓存;片内共享空间:大小4MB,8核共同使用,读写主频500MHz,数据的读写都需要经过Cache缓存;能够满足常规小块数据的输入与缓存,更能够应用于8个处理核之间的同步与数据交换。片外DDR扩展存储空间:大小2GB,单独数据总线与DSP芯片通信,读写主频1.33GHz,64位位宽、单个Brust通信读取数据大小32Byte,DDR翻页跳转时钟间隔为4,刷页间隔74us,刷页时间0.1us。片外DDR扩展存储空间作为大数据存储的唯一手段,为DSP实时处理提供了数据源与缓存空间,但是受限于DDR跳转读写翻页效率、与最小通信Brust数据大小的限制条件,在进行大矩阵转置时,数据读写效率会直线降低,其评估公式为:其中为10GB/s为DDR顺序读写的速率,M为方位向点数,N为距离向点数,1/4为Brust读取效率,1/4为DDR跨页读取效率。理论速率在625MB/s左右。图3是传统C6678平台实时测试了不同矩阵大小情况下,实时转置的速率。虽然DDR理论数据搬移速率可以达到10GB/s,但由于其线性数据读取的限制条件,其转置效率会随着矩阵的增大、迅速降低,转置速率下降到小于550MB/s,为数据顺序传输峰值速率的1/18,只使用了5.5%的搬移效率,高速带宽使用率低,已经无法满足实际应用中的需求。本专利技术采用分块转置的方法,提升DDR转置数据搬移的效率,分块转置时为了提升信号处理的效率需要采用边搬移边处理的方法进行分块转置。该方法每次都是以转置列长度M的整数倍进行分块,这样每次转置缓存后的结果就可以进行完整的列处理,处理后的结果再缓存到DDR,这样转置搬移的一次数据搬移过程中就可以实现转置列的信号处理,无需为了列数据处理进行二次数据搬移,提升信号处理的效率。结合C6678硬件平台,为避免数据溢出,每次分块转置的大小为2MB,即片内共享空间存储空间的一半。此时分块转置速率推导公式为:其中m为分块转置所包含的列个数,其大小为:其中2048*1024本文档来自技高网...

【技术保护点】
1.一种基于C6678平台的大数据转置方法,其特征在于包括下述步骤:1)系统初始化,设置分块转置的详细参数:分块的个数、分块矩阵的列大小、分块矩阵的行大小;2)依据初始化后的分块转置参数,通过QDMA通道DDR分块转置读取,完成分块矩阵由DDR到共享的数据搬移;3)启动8核并行开展数据共享存储的分块读取,片内存储的跳转存储,数据按照列格式顺序存储;4)在片内存储空间开展并行转置列的数据处理,完成矩阵转置信号处理;5)转置并行列处理结果顺序写入DDR,片内存储器内的转置处理结果存储到DDR缓存区内,完成分块转置处理。

【技术特征摘要】
1.一种基于C6678平台的大数据转置方法,其特征在于包括下述步骤:1)系统初始化,设置分块转置的详细参数:分块的个数、分块矩阵的列大小、分块矩阵的行大小;2)依据初始化后的分块转置参数,通过QDMA通道DDR分块转置读取,完成分块矩阵由DDR到共享的数据搬移;3)启动8核并行开展数据共享存储的分块读取,片内存储的跳转存储,数据按照列格式顺序存储;4)在片内存储空间开展并行转置列的数据处理,完成矩阵转置信号处理;5)转置并行列处理结果顺序写入DDR,片内存储器内的转置处理结果存储到DDR缓存区内,完...

【专利技术属性】
技术研发人员:李磊淩凯
申请(专利权)人:中国电子科技集团公司第十四研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1