一种基于Wi-Fi指纹库文本分类的室内房间级定位方法技术

技术编号:24456274 阅读:31 留言:0更新日期:2020-06-10 15:38
本发明专利技术涉及一种基于Wi‑Fi指纹库文本分类的室内房间级定位方法,包括步骤:首先采集商场室内环境中的Wi‑Fi信号强度以及基本服务集标识符;将Wi‑Fi指纹库转换成短文本数据;进行特征选择和单词权重计算;使用Crammer‑Singer支持向量分类器;计算分类精度。本发明专利技术的有益效果是:本发明专利技术将Wi‑Fi的信号强度转换成短文本单词直接忽略其信号强度大小的影响,不再考虑其信号强度的大小的特征,缩减了Wi‑Fi指纹库;本发明专利技术将Wi‑Fi指纹库转换成短文本数据集,缩减了数据维度,同时文本分类器时基于线性核SVM分类器,其训练和测试的效率极高,并能大幅度地降低定位时间和提高定位精度。

An indoor room level location method based on text classification of Wi Fi fingerprint database

【技术实现步骤摘要】
一种基于Wi-Fi指纹库文本分类的室内房间级定位方法
本专利技术涉及一种基于Wi-Fi指纹库文本分类的室内房间级定位方法,主要是使用文本分类的方法对Wi-Fi指纹库进行室内房间级定位。
技术介绍
随着移动通信和普适计算技术的飞速发展,各种应用都在广泛尝试各种技术进行室内定位。目前技术如基于GPS的室外定位、基于地磁、RFID、ZigBee网络、蓝牙等的室内定位技术。基于Wi-Fi的定位主要分为两类:基于位置指纹的方法和基于信号传播模型的方法。其中基于指纹的室内定位系统采用由多个接入点(APs)及其信号强度(RSSI)组成Wi-Fi指纹。但是Wi-Fi信号容易受到环境因素的影响如墙壁、门、家具甚至人。此外,它可能来自个人访问点或临时热点。因此,智能手机接收到的Wi-Fi信号强度,即RSSI,并不是恒定和稳定的。
技术实现思路
本专利技术的目的是克服现有技术中的不足,提供一种基于Wi-Fi指纹库文本分类的室内房间级定位方法。这种基于Wi-Fi指纹库文本分类的室内房间级定位方法,包括以下步骤:步骤1、首先采集商场室内环境中的Wi-Fi信号强度以及基本服务集标识符;统计基本服务集标识符出现的次数,将基本服务集标识符出现次数小于5次的数据剔除;构建Wi-Fi指纹库;所述Wi-Fi指纹库中有标签S={s1,…,sr},si为商场中第i编号的商铺标签;将剔除后的基本服务集标识符替换成接入点APs={AP1,…,APn},Wi-Fi指纹库的Wi-Fi信号强度为f={f1,…,fn},其中n为特征个数;fi为接入点APi的信号强度值,i的范围为[1,n],fi的范围为(-100,0);步骤2、将Wi-Fi指纹库转换成短文本数据:将Wi-Fi信号强度大小和接入点Aps的标签结合生成短文本单词,多个短文本单词构成一句短句作为特征;将参数α设定为α=10,按照RSSI的大小范围进行转换:如果RSSI(APn)>-50,转换成单词为AP_n_1;如果-60<RSSI(APn)<=-50,转成单词为AP_n_2;如果-70<RSSI(APn)<=-60,转换成单词为AP_n_3;如果-80<RSSI(APn)<=-70,转换成单词为AP_n_4;如果-90<RSSI(APn)<=-80,转换成单词为AP_n_5;如果-100<RSSI(APn)<=-90,转换成单词为AP_n_6;如果RSSI(APn)<-100,转换成单词为AP_n_7;所述RSSI为信号强度;n对应APn的下标值;得到短文本数据{Sr|AP_k_X},其中X=1,2,3,4,5,6;X的值由上述转换方式得到,k∈n;从短文本数据中剔除单词AP_n_7,将短文本数据划分成训练集和测试集;步骤3、进行特征选择和单词权重计算:步骤3.1、将文档频率DF低于阈值的样本特征作为低频特征,将低频特征直接去除;所述文档频率DF为样本特征在训练集中出现的次数;步骤3.2、使用TF-IDF函数计算权重:Weight=TF×IDF(1)上式(1)中,Weigt为权重,TF为词频,所述词频为单个短文本单词在每行中出现的概率;IDF为倒排文档频率,所述倒排文档频率为单个短文本单词在整个列表数据集中出现频数的倒数;上式(2)中,n为包含该特征项的短句个数,N表示整个训练集中短句的个数,用来修正该特征项的偏差;步骤4、使用Crammer-Singer支持向量分类器:将一个测试集数据内的测试样本x划分到第r类,使得矩阵M的第r行与测试样本x的内积最大:HM(x)=argmaxr=1,..,k{Mr·x}(3)上式(3)中,x为测试样本;Mr为矩阵的第r行;将训练集数据输入到文本分类器中,进行训练生成模型;步骤5、计算分类精度:使用步骤4中产生的模型来对测试集数据进行预测分类,将与实际商铺标签相同的测试集数据作为正例,将与实际商铺标签不同的测试集数据作为负例;计算分类精度:上式(4)中,TP为正确划分为正例的个数,FP为错误划分为正例的个数,TN为正确划分负例的个数,FN为错误划分为负例的个数。作为优选,步骤1所述接入点APi的信号强度值fi呈正态分布。作为优选,步骤2所述RSSI的值不等于-100,-100对应空信号强度将空信号强度表示为没有检测到Wi-Fi信号。作为优选,步骤2所述单词AP_n_7对应的信号强度为-100,表示没有检测到Wi-Fi信号。作为优选,步骤3.1所述阈值经由实验确定为三次。作为优选,步骤3.2所述TF-IDF函数用于衡量每个特征项权重:若单词在每句短句中出现频率很高,但其他类别短句中出现频率很低,则该特征项区分度高。本专利技术的有益效果是:本专利技术将Wi-Fi的信号强度转换成短文本单词直接忽略其信号强度大小的影响,不再考虑其信号强度的大小的特征,缩减了Wi-Fi指纹库;本专利技术将Wi-Fi指纹库转换成短文本数据集,缩减了数据维度,同时文本分类器时基于线性核SVM分类器,其训练和测试的效率极高,并能大幅度地降低定位时间和提高定位精度。附图说明图1为Wi-Fi室内房间级定位的流程图;图2为本专利技术分类精度与参数α的柱状图;图3为本专利技术房间级定位的分类精度图。具体实施方式下面结合实施例对本专利技术做进一步描述。下述实施例的说明只是用于帮助理解本专利技术。应当指出,对于本
的普通人员来说,在不脱离本专利技术原理的前提下,还可以对本专利技术进行若干修饰,这些改进和修饰也落入本专利技术权利要求的保护范围内。本专利技术提出了一种基于Wi-Fi指纹库文本分类的房间级定位方法,对于Wi-Fi的信号强度的大小构建短文本数据,通过分析信号强度的特征对每个特征与接入点进行结合构成单词,最终,每个标签的特征就是多个单词构成的短文本。将Wi-Fi的信号强度以及接入点(Aps)进行结合生成短文本单词,将基于Wi-Fi指纹库转换成短文本数据集,使用文本分类的方法进行室内房间级室内定位的方法,降低定位时间并能提高定位精度。这种基于Wi-Fi指纹库文本分类的室内房间级定位方法,包括以下步骤:步骤1、首先采集商场室内环境中的Wi-Fi信号强度以及基本服务集标识符;由于商场环境中存在大量的个人热点,因此需要将其剔除,减少指纹库的维度;统计基本服务集标识符出现的次数,将基本服务集标识符出现次数小于5次的数据剔除;构建Wi-Fi指纹库;所述Wi-Fi指纹库中有标签S={s1,…,sr},si为商场中第i编号的商铺标签;原始Wi-Fi数据集如下表1所示:表1原始Wi-Fi数据集将剔除后的基本服务集标识符替换成接入点APs={AP1,…,APn},Wi-Fi指纹库的Wi-Fi信号强度为f={f1,…,fn},其中n为特征个数;fi本文档来自技高网
...

【技术保护点】
1.一种基于Wi-Fi指纹库文本分类的室内房间级定位方法,其特征在于,包括以下步骤:/n步骤1、首先采集商场室内环境中的Wi-Fi信号强度以及基本服务集标识符;统计基本服务集标识符出现的次数,将基本服务集标识符出现次数小于5次的数据剔除;构建Wi-Fi指纹库;所述Wi-Fi指纹库中有标签S={s

【技术特征摘要】
1.一种基于Wi-Fi指纹库文本分类的室内房间级定位方法,其特征在于,包括以下步骤:
步骤1、首先采集商场室内环境中的Wi-Fi信号强度以及基本服务集标识符;统计基本服务集标识符出现的次数,将基本服务集标识符出现次数小于5次的数据剔除;构建Wi-Fi指纹库;所述Wi-Fi指纹库中有标签S={s1,…,sr},si为商场中第i编号的商铺标签;
将剔除后的基本服务集标识符替换成接入点APs={AP1,…,APn},Wi-Fi指纹库的Wi-Fi信号强度为f={f1,…,fn},其中n为特征个数;fi为接入点APi的信号强度值,i的范围为[1,n],fi的范围为(-100,0);
步骤2、将Wi-Fi指纹库转换成短文本数据:将Wi-Fi信号强度大小和接入点Aps的标签结合生成短文本单词,多个短文本单词构成一句短句作为特征;将参数α设定为α=10,按照RSSI的大小范围进行转换:
如果RSSI(APn)>-50,转换成单词为AP_n_1;
如果-60<RSSI(APn)<=-50,转成单词为AP_n_2;
如果-70<RSSI(APn)<=-60,转换成单词为AP_n_3;
如果-80<RSSI(APn)<=-70,转换成单词为AP_n_4;
如果-90<RSSI(APn)<=-80,转换成单词为AP_n_5;
如果-100<RSSI(APn)<=-90,转换成单词为AP_n_6;
如果RSSI(APn)<-100,转换成单词为AP_n_7;
所述RSSI为信号强度;n对应APn的下标值;得到短文本数据{Sr|AP_k_X},其中X=1,2,3,4,5,6;X的值由上述转换方式得到,k∈n;
从短文本数据中剔除单词AP_n_7,将短文本数据划分成训练集和测试集;
步骤3、进行特征选择和单词权重计算:
步骤3.1、将文档频率DF低于阈值的样本特征作为低频特征,将低频特征直接去除;所述文档频率DF为样本特征在训练集中出现的次数;
步骤3.2、使用TF-IDF函数计算权重:
Weight=TF×IDF(1)

【专利技术属性】
技术研发人员:郑增威汪振陈垣毅陈丹
申请(专利权)人:浙江大学城市学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1