当前位置: 首页 > 专利查询>清华大学专利>正文

MIMO检测方法技术

技术编号:7466687 阅读:197 留言:0更新日期:2012-06-29 05:52
本发明专利技术公开了一种MIMO检测方法,涉及多输入多输出信号检测技术领域,该方法包括以下步骤:A:将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;B:根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;C:将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。本发明专利技术的方法采用基于流水线的CPU与GPU协同工作模式,在CPU与GPU进行数据传输的同时,能够在GPU上进行数据的并行处理。并且本发明专利技术的方法通过采用三个核函数,将任务进行拆分,在达到快速同步的同时,降低了运算的复杂度、减小了传输时延,提高了整个算法的执行效率,缩短了检测时间。

【技术实现步骤摘要】

本专利技术涉及无线通信
,尤其涉及一种MIMO检测方法
技术介绍
在分布式无线通信系统(DWCS)中,越来越多地将多输入多输出(MIMO)技术与正交频分复用(OFDM)技术相结合。这是因为MIMO技术能够通过增强无线通信系统的分集和容量来提高数据传输速率,而OFDM技术能够通过减少频率选择性衰落的影响而降低均衡器复杂度,同时提高频谱效率。将两者有机结合构成的MIM0-0FDM系统,已经在4G无线通信标准中广泛使用,例如LTE/LTE-Advanced、WiMAX等。而在MIM0-0FDM系统中,一个关键的模块是MIMO信号检测模块。常用的MIMO检测算法可以分为线性检测算法(最小均方误差(MMSE)、迫零(ZF)等)和非线性检测算法 (基于最大似然(ML)、球形译码(SD)、K-Best等)两大类。其中,基于最大似然的检测算法误码率最小,但复杂度最高,特别适用于存在大频率选择性衰落的恶劣信道。而最小均方误差算法误码率相对较高,但实现复杂度较低。考虑到降低数据突发错误率的需要,现有技术在LTE/LTE-Advanced等4G协议中采用了自适应信道估计、预编码矩阵指示(PMI)反馈等技术,从而大大提高了信道质量。此时,与最大似然算法相比,MMSE检测算法也可以达到期望的误码率。由于MMSE检测算法需要对大量信道矩阵进行求逆运算,且无线通信系统特别是在高速传输的新型无线通信系统中,对数据业务实时性要求非常高。传统的基于CPU的 MMSE检测器运算复杂、检测耗时长,很难达到数据业务实时性要求。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是如何降低MIM0-0FDM系统中MIMO信号检测运算的复杂度、缩短检测时间。( 二 )技术方案为解决上述问题,本专利技术提供了一种MIMO检测方法,包括以下步骤A 将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;B 根据匪SE算法调用CUDA内部函数在GPU上多线程并行计算匪SE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;C 将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。优选地,所述步骤B中,根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算匪SE检测子的符号估计值包括Bl 计算匪SE检测子的内核J,J = HhH+Im/P,其中P表示信噪比,Im表示MXM 维的单位阵,上标H表示共轭转置;B2 计算内核J的逆矩阵Γ1 ;B3 计算匪SE检测子Gmmse及相应的符号估计结果i ;Gmmse = J-1Hh_7] i = GMMSEy。优选地,所述步骤B1、B2和B3,进一步包括将计算结果存储于所述全局存储器中的步骤。优选地,所述步骤Bl和B2,进一步包括使一个计算线程块处理多个信道矩阵,且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理的步骤。优选地,所述步骤A,进一步包括利用函数cudaMemcpyAsync将信道矩阵和接收信号数据从CPU设备端的内存拷贝到GPU设备端的全局存储器中的步骤。优选地,所述步骤C,进一步包括利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中的步骤。(三)有益效果本专利技术的方法采用基于流水线的CPU与GPU协同工作模式,在CPU与GPU进行数据传输的同时,能够在GPU上进行数据的并行处理。并且本专利技术的方法通过采用三个核函数,将任务进行拆分,在达到快速同步的同时,降低了运算的复杂度、减小了传输时延,提高了整个算法的执行效率,缩短了检测时间。附图说明图1为本专利技术实施方式中所述MIMO检测方法的流程图;图2为本专利技术实施方式中所述不同数据量下吞吐量的比较图。具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。如图1所示,本专利技术所述的MIMO检测方法,包括以下步骤A 将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;本步骤中,利用函数cudaMemcpyAsync将信道矩阵和接收信号从CPU设备端的内存传输到GPU的全局存储器。B 根据匪SE算法调用CUDA内部函数在GPU上多线程并行计算匪SE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;具体可通过以下步骤实现Bl 计算匪SE检测子的内核J,J = HhH+Im/P,其中P表示信噪比,Im表示MXM 维的单位阵,上标H表示共轭转置;B2 计算内核J的逆矩阵Γ1 ;B3 计算匪SE检测子Gmse及相应的符号估计结果i ;Gmnse = T1Hh4χ = GMMSEy。所述步骤B1、B2和B3,进一步包括将计算结果存储于所述全局存储器中的步骤。所述步骤Bl和B2中,可使一个计算线程块处理多个信道矩阵,且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理。例如,本专利技术设定一个线程块处理多个矩阵,即对于1个MXM的矩阵,设一个线程块含有M个线程,每个线程依次把矩阵中的元素读入到共享存储器中,再按照上述公式分别进行矩阵共轭转置、矩阵乘法、矩阵加法、矩阵求逆等处理。这样,就可以把在CPU上对各个信道矩阵的串行MIMO信号检测,转换为同时对多个信道矩阵的并行执行。C 将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。本步骤中,可利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中。一个带有M根发射天线、N根接收天线的MIM0-0FDM系统可以表示为y = Hx+w, 其中,y = [y。,Y1,... , yN-JT是NX 1维的接收信号矢量,上标T表示转置,H是NXM维的 MIMO信道矩阵,χ是MX 1维的发射信号矢量,w是MX 1维的高斯白噪声矢量。基于匪SE准则的MIMO检测算法的基本思想是最小化估计值的均方误差,即min|^},其中,Ε表示对随机变量求数学期望,上标H表示共轭转置。那么,匪SE检测子可以表示为Gmmse = (HhH+Im/ ρ ) -1Hh = J-1Hh其中,P表示信噪比,Im表示MXM维的单位阵。相应的符号估计结果可以表示为X - ^MMSEy。最新的NVIDIA Fermi架构的GPU,由14个流多处理器(SMs)组成,每个流多处理器包含32个CUDA核。每个SM可以作为一个单指令多线程(SIMT)的处理器,并且最高支持1536个并发线程。并且,每个SM还拥有48KB的共享存储器,能够支持快速低时延的数据访问。在CUDA编程模型中,若干个线程(thread)组织在一起构成线程块(block),若干个线程块再组成一个网格(grid)。本专利技术还采用了一种基于多个子流的CPU与GPU协同工作方法,即将CPU与GPU 之间的数据传输与GPU上的核函数执行相重叠,在CPU向GPU传输数据的同时,可以在GPU 上继续进行运算。类似地,在GPU运行时,可以将部分已经计算处理的结果传回CPU。从而进一步提高了 MIMO检测算法的速度。为了测试加速结果,本专利技术选取一个满足LTE标准的测试床进行实验,分别考虑 MIM0-0FDM系统的带宽为5MHz、1 OMHz、15MHz、20本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:隋丹李云洲钟晓峰许希斌赵明王京
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术