当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于内容环境增强的用户事件相关度计算方法技术

技术编号:11378156 阅读:94 留言:0更新日期:2015-04-30 20:38
本发明专利技术公开了一种基于内容环境增强的用户事件相关度计算方法。利用话题模型将用户和社交事件的档案降低维度转化成话题分布;计算得到该用户档案和该社交事件档案的用户偏好特征;将用户偏好特征作为用户参加所对应事件的概率,计算采用基于协同过滤方法提取线上、线下社交影响特征;根据用户城市的事件,得到当地兴趣的话题分布,再与事件比较来得到本地流行度特征;通过训练学习排序模型,得到用户事件相关度。本发明专利技术通过充分挖掘事件社交网络中的内容环境相关信息,提取出用户偏好、社交影响、当地流行度的特征进行计算,并通过结合多项特征提高了最终结果的准确度,解决了个性化推荐系统中针对社交事件这类新对象进行推荐的技术问题。

【技术实现步骤摘要】
一种基于内容环境增强的用户事件相关度计算方法
本专利技术涉及一种计算机语言内容处理方法,尤其涉及计算机自然语言处理领域的一种基于内容环境增强的用户事件相关度计算方法。
技术介绍
话题模型是一种在文档集合中提取抽象话题的统计学方法。隐含狄利克雷分布(LatentDirichletallocation,LDA)是一种常用的主题模型,它以词袋模型为前提,即一篇文档是由一组词构成的集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个话题,文档中的每一个词则由其中的某一个话题生成。LDA方法可以将文档集合中每篇文档的话题以概率分布的形式生成,并且每个话题也能以词语分布的形式来描述。由于通常话题的数量远远小于词的数量,因此主题模型还可以用来进行文本对象的降维,以优化文本处理的效果。协同过滤是推荐系统中的一种重要方法,被广泛应用于众多商业系统中。协同过滤利用兴趣相似、拥有共同经验的其他用户对某个对象的评分,来预测目标用户对该对象的喜好程序。协同过滤可以分为基于用户的方法、基于对象的方法和基于模型的方法。协同过滤方法依赖于用户针对对象的历史评分信息,因此对于一个新加入系统的对象,只有当足够的用户对其进行评分后,推荐系统才能推荐出该对象。学习排序是在构建信息检索系统的排序模型时的一种机器学习方法,并被广泛应用于许多领域,如文档获取、推荐系统、情感分析和广告投放等。在推荐系统中,学习排序是一种重要的排序方法。学习排序针对被推荐的用户、所要推荐的对象和推荐任务学习特定的排序模型。在用户和推荐对象之间定义多项特征,训练数据是这些特征向量的列表的集合,每个列表中的向量之间具有特定的顺序。排序模型的目标是对于新的对象产生的向量组成的列表,能够以训练集中相似的方式产生对象的排列。学习排序方法分为逐点方法、逐对方法以及逐列方法。社交事件不同于传统的推荐内容,每一个待推荐的事件都还未发生,因此是一个新对象。已有的推荐方法不能很好地解决这类新对象的推荐问题。另一方面,事件社交网络中包含了用户之间线上和线下的双重社交关系,需要同时考虑这两种社交关系对用户和事件之间相关度的影响。本专利技术以用户和事件的内容为核心,充分挖掘内容环境相关的多种信息,提供了用户事件相关度的计算方法,并解决了社交事件推荐的问题。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供了一种基于内容环境增强的用户事件相关度计算方法,其中包含有话题模型方法、推荐系统领域的协同过滤方法以及机器学习领域的学习排序方法,很好地解决计算机语言处理中社交事件推荐这类对象计算的技术问题。本专利技术解决其技术问题采用的技术方案如下:1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布向量;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;3)根据用户所在地举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;即通过计算事件ej和用户ui所在城市的当地兴趣之间的话题相似度,作为事件ej的本地流行度特征。4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度,以对用户进行事件推荐。所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合,用户的描述信息为用户自己选择的兴趣关键词集合,社交事件的描述信息为社交事件的属性关键词集合。本专利技术通过事件的内容信息,即名字和描述来构建事件ej的档案,该档案是以文本的形式表示,即一个词的集合。用户ui的档案则由两部分组成:用户自己选择的兴趣关键词以及他已参加过的社交事件,这样用户档案便同时包含了用户的自我评价和过往的行为。然后,对用户和事件的档案进行比较,以得到用户和事件的相似度。但是,由于文本内容的高维度和稀疏性,直接对文本形式的档案之间计算相似度效果不好。因此,步骤1)的用户偏好特征采用以下方式计算得到:采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布ui表示第i个用户,ej表示第j个社交事件,然后采用以下公式计算用户偏好特征Pref(ui,ej):其中,和分别是用户档案和事件档案下的话题分布,M是用户话题分布和社交事件话题分布的平均量;上述的是M到的Kullback-Leibler散度(Kullback-LeiblerDivergence),采用以下公式计算:其中,是用户档案的话题分布中第z个话题的权重,M(z)是平均量M中第z个话题的权重;上述的是M到的Kullback-Leibler散度,采用以下公式计算:其中,是社交事件档案的话题分布中第z个话题的权重。为方便比较,把用户偏好特征Pref(ui,ej)在[0,1]范围内,在Kullback-Leibler散度和的计算过程中使用以2为底的对数。本专利技术涉及的其他Kullback-Leibler散度的计算都使用以2为底的对数。由于用户偏好特征代表了事件和用户个人兴趣的匹配程度,也就是用户会参加该事件的可能性。因此,将用户偏好特征作为用户参加所对应事件的概率,从而可以基于协同过滤方法提取出描述社交影响的特征。由于事件社交网络区别于传统社交网络的独特之处在于它包含了线上和线下的两种社交关系,所以需要同时考虑线上朋友和线下朋友的影响。由此,步骤2)中的线上、线下社交影响特征采用以下方式进行计算:将用户偏好特征作为用户参加所对应事件的概率,对所对应事件进行评分计算,并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Infon(ui,ej)和线下社交影响特征Infoff(ui,ej):其中,v、v′分别表示用户ui的一个线上朋友和一个线下朋友,线上朋友为参加同一个小组的用户,小组为具有相同兴趣爱好的用户组成的用户集合,线下朋友为参加同一个事件的用户,分别表示用户ui线上、线下的朋友集合,Pref(v,ej)、Pref(v′,ej)分别表示用户ui的线上朋友v和线下朋友v′对事件ej的用户偏好特征,表示用户ui与其线上朋友v的用户偏好特征,表示用户ui与其线下朋友v′的用户偏好特征。用户ui与其线上朋友v的用户偏好特征采用以下公式进行计算:其中,θv是用户ui的线上朋友v档案的话题分布,M1是用户话题分布与其线上朋友v档案的话题分布θv的平均量;上述的是M1到的Kullback-Leibler散度,采用以下公式计算:其中,是用户档案的话题分布中第z个话题的权重,M1(z)是平均量M1中第z个话题的权重;上述的Dkl(θv||M1)是M1到θv的Kullback-Leibler散度,采用以下公式计算:其中,θv(z)是线上朋友v档案的话题分布中第z个话题的权重。用户ui与其线下朋友v′的用户偏好特征为:其中,θv'是用户ui的线下朋友v′档案的话题分布,M2是用户话题分布与其线下朋友v′档案本文档来自技高网
...
一种基于内容环境增强的用户事件相关度计算方法

【技术保护点】
一种基于内容环境增强的用户事件相关度计算方法,其特征在于,该方法的步骤如下:1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;3)根据用户所在城市举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度。

【技术特征摘要】
1.一种基于内容环境增强的用户事件相关度计算方法,所述方法用于计算机语言处理中社交事件推荐,其特征在于,该方法的步骤如下:1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;所述的步骤2)中的线上、线下社交影响特征采用以下方式进行计算:将用户偏好特征作为用户参加所对应事件的概率,对所对应事件进行评分计算,并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Infon(ui,ej)和线下社交影响特征Infoff(ui,ej):其中,v、v′分别表示用户ui的一个线上朋友和一个线下朋友,线上朋友为参加同一个小组的用户,小组为具有相同兴趣爱好的用户组成的用户集合,线下朋友为参加同一个事件的用户,Fion、Fioff分别表示用户ui线上、线下的朋友集合,Pref(v,ej)、Pref(v′,ej)分别表示用户ui的线上朋友v和线下朋友v′对事件ej的用户偏好特征,表示用户ui与其线上朋友v的用户偏好特征,表示用户ui与其线下朋友v′的用户偏好特征;3)根据用户所在城市举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度。2.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。3.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合,用户的描述信息为用户自己选择的兴趣关键词集合,社交事件的描述信息为社交事件的属性关键词集合。4.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的步骤1)的用户偏好特征采用以下方式计算得到:采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布ui表示第i个用户,ej表示第j个社交事件,然后采用以下公式计算用户偏好特征Pref(ui,ej):其中,和分别是用户档案和事件档案下的话题分布,M是用户话题分布和社交事件话题分布的平均量;上述的是用户话题分布M到事件档案话题分布的Kullback-Leibler散度,采用以下公式计算:其中,是用户档案的话题分布中第z个话题的权重,M(z)是平均量M中第z个话题的权重;上述的是用户话题分布M到社交事件话题分布的Kullback-Leibler散度,采用以下公式计算:其中,是社交事件档案的话题分布中第z个话题的权重。5.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户ui与其线上朋友v的用户偏好特征采用以下公式进行计算:其中,θv是用户ui的线上朋友v档案的话题分布,M1是用户话题分布与其线上朋友v档案的话题分布θv的平均量;上述的是M1到的Kullback-Leibler散度,采用以下公式计算:其中,是用户档案的话题分布中第z个话题的权重,M1(z)是平均量M1中第z个话题的权重;上述的Dkl(θv||M1)是M1到θv的Kullback-Leibler散度,采用以下公式计算:

【专利技术属性】
技术研发人员:寿黎但陈刚陈珂伍赛胡天磊王振华
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1