一种基于龙芯3号处理器的FFT高效并行实现优化方法技术

技术编号:9827783 阅读:221 留言:0更新日期:2014-04-01 17:06
本发明专利技术公开了一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基-2蝶形计算并按如下步骤进行:1、设置初始化参数;2、获得所述FFT变换的级数;3、获得各旋转因子;4、划分子向量并判断是否进行分块处理;5、分块处理。本发明专利技术能解决现有并行FFT算法在龙芯3号处理器上低加速比的情况,达到在龙芯3号处理器上FFT的高效并行实现。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基-2蝶形计算并按如下步骤进行:1、设置初始化参数;2、获得所述FFT变换的级数;3、获得各旋转因子;4、划分子向量并判断是否进行分块处理;5、分块处理。本专利技术能解决现有并行FFT算法在龙芯3号处理器上低加速比的情况,达到在龙芯3号处理器上FFT的高效并行实现。【专利说明】—种基于龙芯3号处理器的FFT高效并行实现优化方法
本专利技术属于电数字数据处理
,具体涉及龙芯3号处理器上FFT高效并行实现优化方法。
技术介绍
龙芯3号处理器是由中国科学院计算所研制的一款国产高性能的通用RISC处理器,它是基于MIPS指令级集的,并且具有高集成度、高性能、低功耗以及低成本等优良特性。龙芯3号处理器包含四核龙芯3A处理器和八核龙芯3B处理器,主要是是面向高性能机应用以及高端服务器的。快速傅立叶变换FFT (Fast Fourier Translation),是计算机系统和数字系统应用中最有效的算法之一,并广泛的应用于语音信号处理、图像处理、功率谱估计、雷达信号处理等领域。FFT算法具有计算密集型和存储密集型的特点,通常被用作HPC、NAS的并行测试基准。目前实际应用的并行FFT算法由于并未针对龙芯3号处理器做专门的优化,因而通用的并行FFT算法单纯移植在龙芯3号处理器上并没有获得较好的运行加速比。
技术实现思路
本专利技术是为避免上述现有技术所存在的不足之处,提供一种基于龙芯3号处理器的FFT高效并行实现优化方法,解决现有并行FFT算法在龙芯3号处理器上低加速比的情况,达到在龙芯3号处理器上FFT的高效并行实现。 本专利技术为解决以上技术问题采用如下方案:本专利技术一种基于龙芯3号处理器的FFT高效并行实现优化方法,是采用基-2蝶形计算并按如下步骤进行:步骤1、设置初始化参数,所述初始化参数为:源向量的长度N、龙芯3号处理器的核数P和分块长度NB ;步骤2、利用式(I)获得所述FFT变换的级数S:S = 1g2N(I)步骤3、利用式⑵获得各旋转因子:.^/T k【权利要求】1.一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基-2蝶形计算并按如下步骤进行: 步骤1、设置初始化参数,所述初始化参数为:源向量的长度N、龙芯3号处理器的核数P和分块长度NB ; 步骤2、利用式(I)获得所述FFT变换的级数S: S = 1g2N(I) 步骤3、利用式(2)获得各旋转因子: 【文档编号】G06F17/14GK103678255SQ201310689271【公开日】2014年3月26日 申请日期:2013年12月16日 优先权日:2013年12月16日 【专利技术者】顾乃杰, 江国荐, 任开新 申请人:合肥优软信息技术有限公司本文档来自技高网...

【技术保护点】
一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基‑2蝶形计算并按如下步骤进行:步骤1、设置初始化参数,所述初始化参数为:源向量的长度N、龙芯3号处理器的核数p和分块长度NB;步骤2、利用式(1)获得所述FFT变换的级数S:S=log2N      (1)步骤3、利用式(2)获得各旋转因子 W N k = e - j 2 π N k - - - ( 2 ) 式(2)中,表示第k个旋转因子,k属于[1,N/2];步骤4、将长度为N的源向量均分成p个长度为m的子向量;若m小于NB,则直接执行并行FFT变换,直到完成S级基‑2蝶形计算;若m不小于NB,则执行步骤5;步骤5、将所述各子向量分块为各数据块,设定分块长度NB的取值范围为[a,b],所述a为一级高速缓冲存储器L1‑cache长度的一半;所述b为二级高速缓冲存储器L2‑cache长度的一半;将各分块长度为NB的数据块分配到所述龙芯3号处理器的每个处理器核上执行并行FFT变换,直到完成第log2(p*NB)级基‑2蝶形计算,获得中间向量;将所述中间向量按相同的旋转因子划分成p个中间子向量,所述中间子向量长度为m,将所述中间子向量分配到所述龙芯3号处理器的每个处理器核上执行,直到完成从第log2(p*NB)+1级到第S级基‑2蝶形计算,从而完成FFT高效并行实现优化方法。FDA0000438705750000012.jpg,FDA0000438705750000013.jpg,FDA0000438705750000014.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:顾乃杰江国荐任开新
申请(专利权)人:合肥优软信息技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1