一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法技术

技术编号：16079887 阅读：34 留言：0更新日期：2017-08-25 15:27

本发明专利技术涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，具体实施如下：1)从智能手机使用日志的各类情境数据中提取有效特征，并通过聚类发现加速度数据中的用户活动，构建高情境层次的场所用户活动特征；2)根据场所的活动分布，计算场所语义相似性以获取代价矩阵；3)结合代价矩阵对场所的特征进行建模，引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器；4)集成多个基分类器输出识别模型，对用户访问场所进行个性化语义识别。本发明专利技术结合情境感知、代价敏感和半监督学习进行场所个性化语义识别，在普适计算、基于位置的服务等领域具有广阔的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法
本专利技术涉及场所语义识别领域，尤其涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法。
技术介绍
随着智能设备的普及和移动互联网的发展，越来越多的基于位置的服务给生活带来了极大便利。“位置”之上有另一种情境层次更高、表达能力更强的概念，即“场所”。场所除了有基本的地理位置信息外，往往还具有语义，通常表现为标签的形式，如家、公司、餐厅等。场所语义是以用户为中心的位置表达方式，可使基于位置的服务更智能。例如，基于场所语义的提醒服务可将待办事项与特定语义的场所相关联。因此，场所语义识别在普适计算、基于位置的服务等领域具有广阔应用空间。传统的场所语义识别方法一般通过分析场所下所有用户共性的行为对场所语义进行识别。然而，这种方法的前提是场所对所有用户具有相同语义，而未考虑场所对用户的个性化语义。例如，超市对消费者是购物场所，但对超市员工则是工作场所。为了识别场所个性化语义，研究人员从用户角度出发，根据用户历史记录，获取用户的场所访问模式。典型做法是通过用户的GPS轨迹发现用户停留的场所，根据场所位置以及访问时间等信息识别场所语义。由于GPS存在耗电高、室内没有信号等问题，这一方法在实际应用中无法工作。针对这一问题，现有研究从智能手机使用日志中挖掘用户情境，识别场所个性化语义。然而，现有方法均未考虑高情境层次的场所特征。此外，由于不同类型场所在语义上的相似性，不同错误识别造成的代价损失有所差异，但现有方法在评估模型性能时很少考虑这一指标。用户标注场所语义代价高昂，因此场所个性化语义识别方法普...
一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

【技术保护点】
一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于，包括如下步骤：1)从智能手机上的使用访问日志的各类情境数据中提取有效特征，并通过聚类发现加速度数据中的用户活动，构建高情境层次的场所用户活动特征，并获得有标签数据集与无标签数据集；2)根据场所活动分布，计算场所语义相似性，得到代价矩阵；3)结合代价矩阵对场所的特征进行建模，引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器；4)集成若干个基分类器输出识别模型，对用户访问场所进行个性化语义识别。

【技术特征摘要】
1.一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于，包括如下步骤：1)从智能手机上的使用访问日志的各类情境数据中提取有效特征，并通过聚类发现加速度数据中的用户活动，构建高情境层次的场所用户活动特征，并获得有标签数据集与无标签数据集；2)根据场所活动分布，计算场所语义相似性，得到代价矩阵；3)结合代价矩阵对场所的特征进行建模，引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器；4)集成若干个基分类器输出识别模型，对用户访问场所进行个性化语义识别。2.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤1)具体如下：1.1)将用户在相同场所下的所有访问记录v整合形成场所的访问记录集合V，V在识别中看作一个场所；1.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征；1.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动，统计活动分布，并构建高情境层次的场所用户活动特征Fh；1.4)根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。3.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述的有效特征包括时间特征Ft、App使用特征Fa、通话记录特征Fc。4.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤1.3)得到场所用户活动特征Fh的方法具体如下：1.3.1)将加速度数据<(t1，(x1，y1，z1))，...，(tn(xn，yn，zn))>按时长δ划分成多个具有重合时长ε的时间窗口，其中，δ＞ε；1.3.2)对每个时间窗口提取时域特征，得到加速度特征向量fi，其中时域特征包括均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差；1.3.3)利用k-means算法，对加速度特征向量fi进行聚类，得到k个簇，将每个簇看作一种活动类别；1.3.4)在该场所的访问记录集合V中，对场所活动分布进行统计，得到场所用户活动特征Fh。5.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤2)得到代价矩阵的步骤如下：2.1)分别统计每类相同语义的场所下各类活动的时间占比，得到该类场所活动分布向量t＝[t1，t2，...，tn]，n为活动类别数目；2.2)基于TF-IDF检索模型，从Wikipedia上获取与活动最相关的d篇文章；2.3)基于得到的d篇文章，采用文本表示方法，基于PV-DBOW模型进行学习，将各类活动表示为m维向量αj＝[αj，1，αj，2，...，αj，m]；2.4)以场所活动分布为权重，结合各活动向量，将该类场所表示为m维向量2.5)基于余弦相似性，分别计算每两类场所向量的相似性，得到场所相似性矩阵SM，其中，计算公式如下：2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM。6.根据权利要...

【专利技术属性】
技术研发人员：王敬昌，陈岭，吴晓杰，张圣，
申请(专利权)人：浙江鸿程计算机系统有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人