【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基-2蝶形计算并按如下步骤进行:1、设置初始化参数;2、获得所述FFT变换的级数;3、获得各旋转因子;4、划分子向量并判断是否进行分块处理;5、分块处理。本专利技术能解决现有并行FFT算法在龙芯3号处理器上低加速比的情况,达到在龙芯3号处理器上FFT的高效并行实现。【专利说明】—种基于龙芯3号处理器的FFT高效并行实现优化方法
本专利技术属于电数字数据处理
,具体涉及龙芯3号处理器上FFT高效并行实现优化方法。
技术介绍
龙芯3号处理器是由中国科学院计算所研制的一款国产高性能的通用RISC处理器,它是基于MIPS指令级集的,并且具有高集成度、高性能、低功耗以及低成本等优良特性。龙芯3号处理器包含四核龙芯3A处理器和八核龙芯3B处理器,主要是是面向高性能机应用以及高端服务器的。快速傅立叶变换FFT (Fast Fourier Translation),是计算机系统和数字系统应用中最有效的算法之一,并广泛的应用于语音信号处理、图像处理、功率谱估计、雷达信号处理等领域。FFT算法具有计算密集型和存储密集型的特点,通常被用作HPC、NAS的并行测试基准。目前实际应用的并行FFT算法由于并未针对龙芯3号处理器做专门的优化,因而通用的并行FFT算法单纯移植在龙芯3号处理器上并没有获得较好的运行加速比。
技术实现思路
本专利技术是为避免上述现有技术所存在的不足之处,提供一种基于龙芯3号处理器的FFT高效并行实现优化方法,解决现有并 ...
【技术保护点】
一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基‑2蝶形计算并按如下步骤进行:步骤1、设置初始化参数,所述初始化参数为:源向量的长度N、龙芯3号处理器的核数p和分块长度NB;步骤2、利用式(1)获得所述FFT变换的级数S:S=log2N (1)步骤3、利用式(2)获得各旋转因子 W N k = e - j 2 π N k - - - ( 2 ) 式(2)中,表示第k个旋转因子,k属于[1,N/2];步骤4、将长度为N的源向量均分成p个长度为m的子向量;若m小于NB,则直接执行并行FFT变换,直到完成S级基‑2蝶形计算;若m不小于NB,则执行步骤5;步骤5、将所述各子向量分块为各数 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:顾乃杰,江国荐,任开新,
申请(专利权)人:合肥优软信息技术有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。