当前位置: 首页 > 专利查询>中山大学专利>正文

一种对长尾兴趣点进行扩展的模型构建方法技术

技术编号:18860827 阅读:35 留言:0更新日期:2018-09-05 14:21
本发明专利技术提供一种对长尾兴趣点进行扩展的模型构建方法,该方法计算兴趣点v的访问者集合UV={u′1,u′2,···,u′t}的相关兴趣点集JV;再计算每个用户u的模型下的似然概率p(u|RV);本算法通过相关模型Rv,计算基于兴趣点v简况的似然概率就能够通过相关兴趣点集Jv来计算得到,该方法对长尾兴趣点进行扩展,从而缓解数据稀疏问题,解决了当前模型的局限性。

A model building method for extending interest points in long tail

The present invention provides a model building method for extending the long tail interest point, which calculates the relevant interest point set JV of the visitor set UV={u'1, u'2,..., u't} of the interest point v, and then calculates the likelihood probability p (u | RV) under the model of each user u; the algorithm calculates the likelihood probability p (u | RV) based on the profile of the interest point v through the relevant model Rv. Likelihood probability can be calculated by the set of interest points Jv. This method extends the long tail interest points, thus alleviating the problem of data sparsity and solving the limitations of the current model.

【技术实现步骤摘要】
一种对长尾兴趣点进行扩展的模型构建方法
本专利技术涉及信息推送领域,更具体地,涉及一种对长尾兴趣点进行扩展的模型构建方法。
技术介绍
在基于位置服务的社交网络中,有大量的兴趣点(pointofinterest,POI,或位置点)存在,如餐馆、酒店、景点等,用户经常需要面对数以万计的兴趣点来做出选择。如何帮助用户过滤掉无用的信息,找出用户可能最关心或喜欢的兴趣点,并推荐给用户,这是兴趣点推荐系统所要完成的工作。在兴趣点推荐方面,主要面对的是,如何解决数据稀疏所带来的推荐效果并不好的问题。以及面临多源的异构数据,如地理信息和文本信息,如何将他们融入到现有的兴趣点推荐系统中,达到提高推荐效果是非常有必要的。目前相关领域主要采用的技术是协同过滤,包括基于内存的协同过滤,和基于模型的协同过滤。基于内存的协同过滤方法,是根据用户与用户之间的相似性,向用户推荐相似用户也可能喜欢的兴趣点。但是在学习的数据集-用户的签到数据中,数据是十分稀疏的,数据稀疏度在0.01%左右,这会造成很多用户之间没有共同的签到数据,以致于计算出的用户相似性并不准确,从而导致推荐效果并不好。基于模型的协同过滤方法,如矩阵分解方法,将原有的用户对兴趣点的签到矩阵转化为评分矩阵,然后分解出用户特征隐向量和兴趣点特征隐向量,接着根据学习到的特征向量相乘来预测用户对兴趣点的喜好值,并将喜好值最高的K个兴趣点推荐给用户。在兴趣点推荐中,一个重要的现象是数据稀疏问题。它对推荐质量起到关键性影响。当前的这些相关工作已经提出多样的模型来缓解数据稀疏问题,并且大部分工作都是从用户角度来解决该问题。而就目前所了解的,几乎没有研究者从兴趣点的角度来着手。
技术实现思路
本专利技术提供一种可缓解数据稀疏问题的对长尾兴趣点进行扩展的模型构建方法。为了达到上述技术效果,本专利技术的技术方案如下:一种对长尾兴趣点进行扩展的模型构建方法,包括以下步骤:S1:计算兴趣点v的访问者集合UV={u1',u'2,···,ut'}的相关兴趣点集JV;S2;计算每个用户u的模型下的似然概率p(u|RV)。进一步地,所述步骤S1的具体过程是:S11:计算兴趣点间的一般相似度;S12:计算兴趣点间的空间相似度;S13:将以上两种相似度进行融合。进一步地,所述步骤S11的过程是:相似兴趣点是真实相关兴趣点的近似,把兴趣点v的相似兴趣点称作相关模型Rv的伪相关兴趣点,采用余弦相似度,兴趣点vi和vj之间的相似度如下:其中,U表示所有用户的集合,V表示所有兴趣点的集合,V′表示长尾兴趣点的集合,其中C代表“用户-兴趣点”矩阵,它表示每个用户和兴趣点之间的关系,cu,v代表用户u在兴趣点v的签到活动,当cu,v=1,表示用户u在过去访问过兴趣点v,否则表示用户u没有去过兴趣点v,每个兴趣点都有若干历史访问者,用Uv={u′1,u′2,…u′t}表示兴趣点v的访问者集合,它看作为兴趣点的简况。进一步地,所述步骤S12的过程是:两个兴趣点之间距离可用来衡量兴趣点间的空间相似度,空间相似度与距离之间并不是线性关系,为了从距离信息中获取兴趣点间的空间相似度,并能够反映它们的非线性关系,采用核估计方法,兴趣点vi和vj的空间相似度计算公式如下:其中,是兴趣点间的空间距离,h是核函数的带宽。进一步地,所述步骤S13的过程是:为了使模型具有完整性和鲁棒性,将以上两种相似度进行融合,同时为了使融合具有自适应性,采用如下的融合方式:Z=exp(s(vi,vj))+exp(sp(vi,vj))根据两部分因子在指数空间的比例,来确定各个相似度的系数。进一步地,所述步骤S2的过程是:1)由于p(u|Rv)≈p(u|u1',···,ut'),通过应用条件概率的定义有:由于对同一个兴趣点v,分母部分保持不变,公式简化为如下:2)为了估计兴趣点v的相关模型Rv,给予先验概率p(u)采样一个用户u,用户u′1,u′2,…u′t的采样概率依赖于用户u,为计算条件概率p(u′|u),从相关兴趣点vj的分布中,以概率p(u′|vj),采样一个用户u′∈Uv,公式如下:3)根据贝叶斯定理并结合步骤2)中的公式,得到:再结合步骤1)中的公式,得到:其中,p(u),p(vj)服从均匀分布:为了计算p(u|vj),采用基于签到数据多项式分布的最大似然估计方法:使用绝对折扣方法来平滑该似然估计,使用绝对折扣来从所有的观测到的签到数据计数中减去一个相同的常数δ,然后一个相应的比例项再被加到每一个用户上,于是,可得:其中,p(u|C)的计算公式如下:与现有技术相比,本专利技术技术方案的有益效果是:本专利技术计算兴趣点v的访问者集合UV={u1',u'2,···,ut'}的相关兴趣点集JV;再计算每个用户u的模型下的似然概率p(u|RV);本算法通过相关模型Rv,计算基于兴趣点v简况的似然概率就能够通过相关兴趣点集Jv来计算得到,该方法对长尾兴趣点进行扩展,从而缓解数据稀疏问题,解决了当前模型的局限性。附图说明图1为本模型的结构图,a)是模型的原理图b)是模型中参数推导图;图2为在两个公开数据集(Foursquare,Gowalla)中,该模型在不同数据稀疏度的兴趣点上推荐的精准度与其他模型的对比;图3为在两个公开数据集(Foursquare,Gowalla)中,该模型在不同长度(top-n)的推荐列表下,推荐的准确率(Pre@n)和召回率(Rec@n)与其他当前最优模型的对比。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1在所有兴趣点中,“长尾”兴趣点(那些具有少量签到数据,有很少机会被展示给用户的兴趣点)占据很大比例。因此,从兴趣点角度,研究长尾兴趣点的推荐是很有意义的。本专利技术提出了一个新的模型“地理相关模型”(geographicalrelevancemodel,GRM)。通过相关兴趣点,并利用地理信息,该模型对长尾兴趣点进行扩展,从而缓解数据稀疏问题,解决了当前模型的局限性。通过在两个公开数据集上进行实验,证明了该模型的有效性,而且它优于当前最好的模型。问题定义:U表示所有用户的集合,V表示所有兴趣点的集合,V′表示长尾兴趣点的集合,其中C代表“用户-兴趣点”矩阵。它表示每个用户和兴趣点之间的关系。cu,v代表用户u在兴趣点v的签到活动。当cu,v=1,表示用户u在过去访问过兴趣点v。否则表示用户u没有去过兴趣点v。每个兴趣点都有若干历史访问者。用Uv={u′1,u′2,…u′t}表示兴趣点v的访问者集合,它也可以被看作为兴趣点的简况。基于Uv,为每个用户计算似然概率p(u|Uv),然后将排序在最前的n个用户,组成推荐列表推荐给相应的长尾兴趣点v。由于长尾兴趣点具有少量的访问者,这里如何计算p(u|Uv)就成为了一个关键的挑战。基本思想:推荐用户给兴趣点可以被看作用候选用户扩展兴趣点简况的过程。如图1,图中Uv={u′1,u′2,…u′t}表示兴趣点v的访问者集合,同时,它也代表兴趣点v的简况,然后基于它来估计用户u的似然概率本文档来自技高网
...

【技术保护点】
1.一种对长尾兴趣点进行扩展的模型构建方法,其特征在于,包括以下步骤:S1:计算兴趣点v的访问者集合UV={u1',u'2,···,ut'}的相关兴趣点集JV;S2;计算每个用户u的模型下的似然概率p(u|RV)。

【技术特征摘要】
1.一种对长尾兴趣点进行扩展的模型构建方法,其特征在于,包括以下步骤:S1:计算兴趣点v的访问者集合UV={u1',u'2,···,ut'}的相关兴趣点集JV;S2;计算每个用户u的模型下的似然概率p(u|RV)。2.根据权利要求1所述的对长尾兴趣点进行扩展的模型构建方法,其特征在于,所述步骤S1的具体过程是:S11:计算兴趣点间的一般相似度;S12:计算兴趣点间的空间相似度;S13:将以上两种相似度进行融合。3.根据权利要求2所述的对长尾兴趣点进行扩展的模型构建方法,其特征在于,所述步骤S11的过程是:相似兴趣点是真实相关兴趣点的近似,把兴趣点v的相似兴趣点称作相关模型Rv的伪相关兴趣点,采用余弦相似度,兴趣点vi和vj之间的相似度如下:其中,U表示所有用户的集合,V表示所有兴趣点的集合,V′表示长尾兴趣点的集合,其中C代表“用户-兴趣点”矩阵,它表示每个用户和兴趣点之间的关系,cu,v代表用户u在兴趣点v的签到活动,当cu,v=1,表示用户u在过去访问过兴趣点v,否则表示用户u没有去过兴趣点v,每个兴趣点都有若干历史访问者,用Uv={u′1,u′2,…u′t}表示兴趣点v的访问者集合,它看作为兴趣点的简况。4.根据权利要求3所述的对长尾兴趣点进行扩展的模型构建方法,其特征在于,所述步骤S12的过程是:两个兴趣点之间距离可用来衡量兴趣点间的空间相似度,空间相似度与距离之间并不是线性关系,为了从距离信息中获取兴趣点间的空间相似度,并能够反映它们的非线性...

【专利技术属性】
技术研发人员:刘威杨伟伟王志杰印鉴高静
申请(专利权)人:中山大学广东恒电信息科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1