一种基于改进随机森林算法的CSI系统多径分类方法技术方案

技术编号:24331855 阅读:86 留言:0更新日期:2020-05-29 19:59
本发明专利技术属于无线定位领域,涉及一种基于改进随机森林算法的CSI系统多径分类方法。该方法以区分LOS和NLOS两种传播方式为目的,步骤为:根据无线信号在LOS和NLOS环境下的传播特点,对所有样本的能量利用K均值聚类算法聚类,构造一种基于K均值聚类算法的特征因子;计算所有样本的类间散射距离与类内散射距离,依据费歇尔准则获得最优特征组合;利用基于C4.5算法的随机森林算法对不同的特征组合进行训练和测试,完成多径分类。本发明专利技术的特点是,有效避免了多径分类受精确阈值制约的现象,能够满足多径分类应用场景中高正确率、低运算量的要求。

A multi-path classification method of CSI system based on improved random forest algorithm

【技术实现步骤摘要】
一种基于改进随机森林算法的CSI系统多径分类方法
本专利技术属于无线定位领域,涉及一种基于改进随机森林算法的CSI系统多径分类方法。
技术介绍
WiFi定位技术具有经济、方便、快捷和易部署等优势,近年来已被成功应用于工业自动化、商业自动化、交通运输控制管理等诸多领域。尤其在室内定位应用场景,理想情况下的WiFi定位系统可以获得较高的定位精度,展现出巨大的发展潜力和实用价值。在基于WiFi的室内定位系统中,定位精度是评价定位性能的根本指标,室内环境的复杂性和多变性使得定位精度常常受制于多址干扰、电路中的时延和多径传播等因素。在多径传播条件下,信号的传播方式分为视距(Lineofsight,LOS)传播和非视距(Non-lineofsight,NLOS)传播。在LOS传播条件下,无线信号直接从发射端传播到接收端,接收信号的测量信息相对稳定,而在NLOS传播条件下,发射端和接收端之间的直线路径被阻挡,信号只能通过衍射、反射或者绕射到达接收端,接收信号的测量信息会出现偏差,从而影响定位精度。对以上两种信号传播方式进行分类称为多径分类。为了提高室内定位的精度,已经有学者针对多径分类问题做了相关研究,但其分类准确率有待进一步提高。基于以上背景,本专利技术以实现更高正确率、更低运算量的多径分类为目标,采用信道状态信息(ChannelStateInformation,CSI)为多径分类参考依据,提出一种基于改进随机森林算法的CSI系统多径分类方法。
技术实现思路
本专利技术的目的是,提供一种基于改进随机森林算法的CSI系统多径分类方法。本专利技术首先分析信号在LOS和NLOS环境下的传播特点,构造一种基于K均值聚类算法的特征因子,然后鉴于不同的特征组合会有不同的分类性能,通过计算不同类别的类间散射距离与类内散射距离,依据费歇尔准则进行特征筛选,最后建立基于C4.5算法的随机森林分类架构,对不同的特征组合进行训练和测试,采用简单多数投票机制获得分类结果。其具体步骤如下:步骤1:以LOS和NLOS传播环境下统计特征的分布特性为建模条件,建立多径分类系统模型。系统包括三部分组成,分别为数据采集与预处理模块、特征提取模块、多径分类模块。利用搭载无线网卡的笔记本采集CSI数据,执行数据预处理操作,并对预处理之后的CSI样本进行特征提取。步骤2:以无线信号在LOS和NLOS环境下的传播特点为基础,构造基于K均值聚类算法的特征因子。鉴于LOS环境中的CIR样本的信号能量主要集中在主径中,而与主径相邻的采样点是与主径属于同一类的样本,通过K均值聚类算法对LOS和NLOS场景下采集的CIR样本按照其能量的不同进行聚类。步骤3:在LOS场景下,首先对采集到的CIR样本的振幅随机选择K个点作为初始聚类中心,然后将每一个点分配到最近的聚类中心,形成K个簇,再重新计算每个簇的聚类中心并且不断更新,直到迭代次数达到最大或者簇内元素不发生变化停止,然后比较聚类中心的距离,选择聚类中心距离较大的类别为本专利技术所要分的类别,这里的类别数代表环境中的多径数。步骤4:采用步骤3中的方法,对NLOS环境下的CIR样本的振幅进行聚类。以此为基础,定义基于K均值聚类算法的特征因子为ξ,ξ=-1/lg(M)·M/R,其中M表示采集到的CIR样本中最大能量值所属类的所有能量之和,R表示CIR样本中除最大能量值所在那一类样本之外的其他路径样本能量之和,-1/lg(M)表示距离因子。步骤5:鉴于不同的特征组合会有不同的分类性能,依据费歇尔准则,对属于LOS和NLOS的每个特征进行评估。在每个特征下,定义所有样本的类内散射距离为式中其中k表示特征索引号,m表示所分类别的数量,在本专利技术中m=2,x表示样本数据集,x(k)表示第k个特征的样本集,表示第i类样本的第k个特征样本集的均值,Di表示第i类的样本集,ni表示属于第i类样本的数量。类内离散距离表征的是属于同一类别的样本在被测特征上的方差。在被测特征上,定义所有样本的类间散射距离为其中n表示各类样本总数,D表示样本集,μ(k)表示所有样本中第k个特征样本集的均值,类间离散距离表征的是属于不同类别的样本在特征k处的相似性。步骤6:以步骤5中的类内散射距离和类间散射距离为基础,计算特征k的判别函数步骤7:依据步骤5、步骤6中的特征筛选方法,对不同的特征组合进行筛选,然后利用基于C4.5算法的随机森林算法进行训练和测试。计算每个特征的信息增益率,选择信息增益率突出的特征作为根节点,而其他特征留待进一步分裂,在每个决策节点处应用相同的分割标准,令树持续增长,直到此节点成为包含预测类别的叶节点时停止分裂,其中从根节点到叶节点的路径表示分类规则。在步骤7中,定义属性“x1”、“x2”和“x3”分别为从训练数据集中随机获取的三个不同特征,LOS和NLOS的类标签分别设置为“1”和“-1”,将特征值分类为左子节点和右子节点,若特征“x3”的值为3.4535,且它为根节点,则表示在所有特征中“x3”的信息增益率最高,“x3”的右子节点变为叶节点,其类预测为1,这意味着大于3.4535的所有特征“x3”的值都属于LOS,右子节点的熵为零,而“x3”的左子节点进一步分裂,在其他决策节点处递归地应用分裂标准,直到到达叶节点则表示这棵决策树构建完成。在测试阶段,每个需要测试的值同时通过森林内的所有树,从根节点开始,直到它到达相应的叶节点。通过各棵树的多数投票得到随机森林算法的预测值,根据测试数据集的第i次观察值,树p(p=1,...,P)的输出预测值为yip,则整个随机森林算法的预测输出为分类结果可以描述为基于yi的假设检验,即当yi≥0时,则属于LOS,当yi<0时,则属于NLOS。附图说明:图1是本专利技术的结构框架图;图2是基于K均值聚类算法的特征因子构造流程图;图3是随机森林算法中决策树结构示意图;图4是实测场景示意图;图5是不同场景下环境的复杂程度;具体实施方式:首先,以装有无线网卡的电脑、路由器为基础构建数据采集系统,采集LOS和NLOS环境下的CSI数据,并对预处理之后的样本进行特征提取,以提高分类性能为目标,引入K均值聚类算法提出一种基于K均值聚类算法的特征因子。如图2所示为基于K均值聚类算法的特征因子构造流程图。鉴于在LOS环境下的CIR样本中,信号能量主要集中在主径中,而与主径相邻的采样点是与主径属于同一类的样本,能量相对较高,其他通过反射路径传播的信号能量相对较小。在NLOS传播条件下,信号在传播过程中不存在直视路径,因此接收端接收到的各子载波的信号能量分布较为随机,存在多条信号能量相对较大的路径。以此为基础,本专利技术通过K均值聚类算法对LOS和NLOS场景下采集的CIR样本按照其能量的不同进行聚类,首先对采集到的CIR样本的振幅随机选择K个点作为初始聚类中心,然后将每一个点分配到最近的聚类中心,形成K个簇,再重新计算每个簇的聚类中心并且不断更新,直到迭代次数达到最大或者簇内元素不发生变化停止,然后比本文档来自技高网...

【技术保护点】
1.一种基于改进随机森林算法的CSI系统多径分类方法,其具体步骤如下:/n步骤1:以LOS和NLOS传播环境下统计特征的分布特性为建模条件,建立多径分类系统模型,系统包括三部分组成,分别为数据采集与预处理模块、特征提取模块、多径分类模块,利用搭载无线网卡的笔记本采集CSI数据,执行数据预处理操作,并对预处理之后的CSI样本进行特征提取;/n步骤2:以无线信号在LOS和NLOS环境下的传播特点为基础,构造基于K均值聚类算法的特征因子,鉴于LOS环境中的CIR样本的信号能量主要集中在主径中,而与主径相邻的采样点是与主径属于同一类的样本,通过K均值聚类算法对LOS和NLOS场景下采集的CIR样本按照其能量的不同进行聚类;/n步骤3:在LOS场景下,首先对采集到的CIR样本的振幅随机选择K个点作为初始聚类中心,然后将每一个点分配到最近的聚类中心,形成K个簇,再重新计算每个簇的聚类中心并且不断更新,直到迭代次数达到最大或者簇内元素不发生变化停止,然后比较聚类中心的距离,选择聚类中心距离较大的类别为本专利技术所要分的类别,这里的类别数代表环境中的多径数;/n步骤4:采用步骤3中的方法,对NLOS环境下的CIR样本的振幅进行聚类,以此为基础,定义基于K均值聚类算法的特征因子为ξ,ξ=-1/lg(M)·M/R,其中M表示采集到的CIR样本中最大能量值所属类的所有能量之和,R表示CIR样本中除最大能量值所在那一类样本之外的其他路径样本能量之和,-1/lg(M)表示距离因子;/n步骤5:鉴于不同的特征组合会有不同的分类性能,依据费歇尔准则,对属于LOS和NLOS的每个特征进行评估,在每个特征下,定义所有样本的类内散射距离为...

【技术特征摘要】
1.一种基于改进随机森林算法的CSI系统多径分类方法,其具体步骤如下:
步骤1:以LOS和NLOS传播环境下统计特征的分布特性为建模条件,建立多径分类系统模型,系统包括三部分组成,分别为数据采集与预处理模块、特征提取模块、多径分类模块,利用搭载无线网卡的笔记本采集CSI数据,执行数据预处理操作,并对预处理之后的CSI样本进行特征提取;
步骤2:以无线信号在LOS和NLOS环境下的传播特点为基础,构造基于K均值聚类算法的特征因子,鉴于LOS环境中的CIR样本的信号能量主要集中在主径中,而与主径相邻的采样点是与主径属于同一类的样本,通过K均值聚类算法对LOS和NLOS场景下采集的CIR样本按照其能量的不同进行聚类;
步骤3:在LOS场景下,首先对采集到的CIR样本的振幅随机选择K个点作为初始聚类中心,然后将每一个点分配到最近的聚类中心,形成K个簇,再重新计算每个簇的聚类中心并且不断更新,直到迭代次数达到最大或者簇内元素不发生变化停止,然后比较聚类中心的距离,选择聚类中心距离较大的类别为本发明所要分的类别,这里的类别数代表环境中的多径数;
步骤4:采用步骤3中的方法,对NLOS环境下的CIR样本的振幅进行聚类,以此为基础,定义基于K均值聚类算法的特征因子为ξ,ξ=-1/lg(M)·M/R,其中M表示采集到的CIR样本中最大能量值所属类的所有能量之和,R表示CIR样本中除最大能量值所在那一类样本之外的其他路径样本能量之和,-1/lg(M)表示距离因子;
步骤5:鉴于不同的特征组合会有不同的分类性能,依据费歇尔准则,对属于LOS和NLOS的每个特征进行评估,在每个特征下,定义所有样本的类内散射距离为式中其中k表示特征索引号,m表示所分类别的数量,在本发明中m=2,x表示样本数据集,x(k)表示第k个特征的样本集,表示第i类样本的第k个特征样本集的均值,Di表示第i类的样本集,ni表示属于第i类...

【专利技术属性】
技术研发人员:史伟光李耀辉李婉琪
申请(专利权)人:天津工业大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1