一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法技术

技术编号:16079887 阅读:34 留言:0更新日期:2017-08-25 15:27
本发明专利技术涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,具体实施如下:1)从智能手机使用日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征;2)根据场所的活动分布,计算场所语义相似性以获取代价矩阵;3)结合代价矩阵对场所的特征进行建模,引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器;4)集成多个基分类器输出识别模型,对用户访问场所进行个性化语义识别。本发明专利技术结合情境感知、代价敏感和半监督学习进行场所个性化语义识别,在普适计算、基于位置的服务等领域具有广阔的应用前景。

【技术实现步骤摘要】
一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法
本专利技术涉及场所语义识别领域,尤其涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法。
技术介绍
随着智能设备的普及和移动互联网的发展,越来越多的基于位置的服务给生活带来了极大便利。“位置”之上有另一种情境层次更高、表达能力更强的概念,即“场所”。场所除了有基本的地理位置信息外,往往还具有语义,通常表现为标签的形式,如家、公司、餐厅等。场所语义是以用户为中心的位置表达方式,可使基于位置的服务更智能。例如,基于场所语义的提醒服务可将待办事项与特定语义的场所相关联。因此,场所语义识别在普适计算、基于位置的服务等领域具有广阔应用空间。传统的场所语义识别方法一般通过分析场所下所有用户共性的行为对场所语义进行识别。然而,这种方法的前提是场所对所有用户具有相同语义,而未考虑场所对用户的个性化语义。例如,超市对消费者是购物场所,但对超市员工则是工作场所。为了识别场所个性化语义,研究人员从用户角度出发,根据用户历史记录,获取用户的场所访问模式。典型做法是通过用户的GPS轨迹发现用户停留的场所,根据场所位置以及访问时间等信息识别场所语义。由于GPS存在耗电高、室内没有信号等问题,这一方法在实际应用中无法工作。针对这一问题,现有研究从智能手机使用日志中挖掘用户情境,识别场所个性化语义。然而,现有方法均未考虑高情境层次的场所特征。此外,由于不同类型场所在语义上的相似性,不同错误识别造成的代价损失有所差异,但现有方法在评估模型性能时很少考虑这一指标。用户标注场所语义代价高昂,因此场所个性化语义识别方法普遍存在训练数据不足导致模型性能不佳的问题。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,本专利技术方法从智能手机使用日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征。接着,根据场所的活动分布,计算场所语义相似性以获取代价矩阵。然后,结合代价矩阵对场所的特征进行建模,引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器。最后,集成多个基分类器输出识别模型,对用户访问场所进行个性化语义识别。本专利技术结合情境感知、代价敏感和半监督学习进行场所个性化语义识别,在普适计算、基于位置的服务等领域具有广阔的应用前景。本专利技术是通过以下技术方案达到上述目的:一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其包括如下步骤:1)从智能手机上的使用访问日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征,并获得有标签数据集与无标签数据集;2)根据场所活动分布,计算场所语义相似性,得到代价矩阵;3)结合代价矩阵对场所的特征进行建模,引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器;4)集成若干个基分类器输出识别模型,对用户访问场所进行个性化语义识别。作为优选,所述步骤1)具体如下:1.1)将用户在相同场所下的所有访问记录v整合形成场所的访问记录集合V,V在识别中看作一个场所;1.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;1.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计活动分布,并构建高情境层次的场所用户活动特征Fh;1.4)根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。作为优选,所述的有效特征包括时间特征Ft、App使用特征Fa、通话记录特征Fc。作为优选,所述步骤1.3)得到场所用户活动特征Fh的方法具体如下:1.3.1)将加速度数据<(t1,(x1,y1,z1)),...,(tn,(xn,yn,zn))>按时长δ划分成多个具有重合时长ε的时间窗口,其中,δ>ε;1.3.2)对每个时间窗口提取时域特征,得到加速度特征向量fi,其中时域特征包括均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差;1.3.3)利用k-means算法,对加速度特征向量fi进行聚类,得到k个簇,将每个簇看作一种活动类别;1.3.4)在该场所的访问记录集合V中,对场所活动分布进行统计,得到场所用户活动特征Fh。作为优选,所述步骤2)得到代价矩阵的步骤如下:2.1)分别统计每类相同语义的场所下各类活动的时间占比,得到该类场所活动分布向量t=[t1,t2,...,tn],n为活动类别数目;2.2)基于TF-IDF检索模型,从Wikipedia上获取与活动最相关的d篇文章;2.3)基于得到的d篇文章,采用文本表示方法,基于PV-DBOW模型进行学习,将各类活动表示为m维向量αj=[αj,1,αj,2,...,αj,m];2.4)以场所活动分布为权重,结合各活动向量,将该类场所表示为m维向量2.5)基于余弦相似性,分别计算每两类场所向量的相似性,得到场所相似性矩阵SM,其中,计算公式如下:2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM。作为优选,所述步骤2.1)得到该类场所活动分布向量t=[t1,t2,...,tn]的方法为:对具有相同语义标签的所有场所,将每类活动的所有时长进行累加,再进行归一化后获得该类场所的活动分布向量t=[t1,t2,...,tn]。作为优选,所述步骤3)得到若干个代价敏感的基分类器的步骤如下:3.1)输入有标签数据集T与无标签数据集U;3.2)对有标签数据集T进行可重复自助取样,获得n个训练子集Ti(1≤i≤n);3.3)利用得到的Ti训练n个基分类器Ci(1≤i≤n);3.4)n个基分类器分别对无标签数据集U的样本进行识别,并通过置信度度量得到高置信度的候选样本集Pi(1≤i≤n);3.5)根据置信度优先的选择策略从步骤4所得候选样本集Pi中挑选若干样本作为辅助学习集Fi(1≤i≤n),将辅助学习集Fi和训练子集Ti一同训练,得到新的基分类器Ci;3.6)重复步骤3.4)、3.5)直到不再有无标签数据集U的样本被挑选,或者迭代次数已经达到预先设定的最大迭代次数;3.7)输出n个代价敏感的基分类器。作为优选,所述步骤3.4)中第i个基分类器Ci对无标签样本xu的置信度的计算如公式如下:其中,hj(xu)为第j个基分类器的识别结果,li(xu)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。作为优选,所述步骤3.5)中将样本置信度按照从高到低排序,顺序挑选若干数目的样本,使模型的训练误差和代价损失得到控制,如下式所示:其中,mi、mi′分别为本轮次和上一轮次辅助学习集Fi的大小,ei、ei′分别为本轮次和上一轮次的训练误差,Ri、Ri′分别为本轮次和上一轮次的代价损失;当候选样本集Pi中样本个数ni大于mi时,挑选置信度前mi的样本加入辅助学习集Fi;否则,将候选样本集Pi直接作为辅助学习集Fi。作为优选,所述步骤4)对用户访问场所进行个性化语义识别的步骤如下:4.1)获取用户在该场所的访问记录集合V;4.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;4.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计本文档来自技高网
...
一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

【技术保护点】
一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于,包括如下步骤:1)从智能手机上的使用访问日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征,并获得有标签数据集与无标签数据集;2)根据场所活动分布,计算场所语义相似性,得到代价矩阵;3)结合代价矩阵对场所的特征进行建模,引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器;4)集成若干个基分类器输出识别模型,对用户访问场所进行个性化语义识别。

【技术特征摘要】
1.一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于,包括如下步骤:1)从智能手机上的使用访问日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征,并获得有标签数据集与无标签数据集;2)根据场所活动分布,计算场所语义相似性,得到代价矩阵;3)结合代价矩阵对场所的特征进行建模,引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器;4)集成若干个基分类器输出识别模型,对用户访问场所进行个性化语义识别。2.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤1)具体如下:1.1)将用户在相同场所下的所有访问记录v整合形成场所的访问记录集合V,V在识别中看作一个场所;1.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;1.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计活动分布,并构建高情境层次的场所用户活动特征Fh;1.4)根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。3.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述的有效特征包括时间特征Ft、App使用特征Fa、通话记录特征Fc。4.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤1.3)得到场所用户活动特征Fh的方法具体如下:1.3.1)将加速度数据<(t1,(x1,y1,z1)),...,(tn(xn,yn,zn))>按时长δ划分成多个具有重合时长ε的时间窗口,其中,δ>ε;1.3.2)对每个时间窗口提取时域特征,得到加速度特征向量fi,其中时域特征包括均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差;1.3.3)利用k-means算法,对加速度特征向量fi进行聚类,得到k个簇,将每个簇看作一种活动类别;1.3.4)在该场所的访问记录集合V中,对场所活动分布进行统计,得到场所用户活动特征Fh。5.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤2)得到代价矩阵的步骤如下:2.1)分别统计每类相同语义的场所下各类活动的时间占比,得到该类场所活动分布向量t=[t1,t2,...,tn],n为活动类别数目;2.2)基于TF-IDF检索模型,从Wikipedia上获取与活动最相关的d篇文章;2.3)基于得到的d篇文章,采用文本表示方法,基于PV-DBOW模型进行学习,将各类活动表示为m维向量αj=[αj,1,αj,2,...,αj,m];2.4)以场所活动分布为权重,结合各活动向量,将该类场所表示为m维向量2.5)基于余弦相似性,分别计算每两类场所向量的相似性,得到场所相似性矩阵SM,其中,计算公式如下:2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM。6.根据权利要...

【专利技术属性】
技术研发人员:王敬昌陈岭吴晓杰张圣
申请(专利权)人:浙江鸿程计算机系统有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1