【技术实现步骤摘要】
一种基于内容环境增强的用户事件相关度计算方法
本专利技术涉及一种计算机语言内容处理方法,尤其涉及计算机自然语言处理领域的一种基于内容环境增强的用户事件相关度计算方法。
技术介绍
话题模型是一种在文档集合中提取抽象话题的统计学方法。隐含狄利克雷分布(LatentDirichletallocation,LDA)是一种常用的主题模型,它以词袋模型为前提,即一篇文档是由一组词构成的集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个话题,文档中的每一个词则由其中的某一个话题生成。LDA方法可以将文档集合中每篇文档的话题以概率分布的形式生成,并且每个话题也能以词语分布的形式来描述。由于通常话题的数量远远小于词的数量,因此主题模型还可以用来进行文本对象的降维,以优化文本处理的效果。协同过滤是推荐系统中的一种重要方法,被广泛应用于众多商业系统中。协同过滤利用兴趣相似、拥有共同经验的其他用户对某个对象的评分,来预测目标用户对该对象的喜好程序。协同过滤可以分为基于用户的方法、基于对象的方法和基于模型的方法。协同过滤方法依赖于用户针对对象的历史评分信息,因此对于一个新加入系统的对象,只有当足够的用户对其进行评分后,推荐系统才能推荐出该对象。学习排序是在构建信息检索系统的排序模型时的一种机器学习方法,并被广泛应用于许多领域,如文档获取、推荐系统、情感分析和广告投放等。在推荐系统中,学习排序是一种重要的排序方法。学习排序针对被推荐的用户、所要推荐的对象和推荐任务学习特定的排序模型。在用户和推荐对象之间定义多项特征,训练数据是这些特征向量的列表的集合,每个列表中的向量之间具 ...
【技术保护点】
一种基于内容环境增强的用户事件相关度计算方法,其特征在于,该方法的步骤如下:1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;3)根据用户所在城市举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度。
【技术特征摘要】
1.一种基于内容环境增强的用户事件相关度计算方法,所述方法用于计算机语言处理中社交事件推荐,其特征在于,该方法的步骤如下:1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;所述的步骤2)中的线上、线下社交影响特征采用以下方式进行计算:将用户偏好特征作为用户参加所对应事件的概率,对所对应事件进行评分计算,并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Infon(ui,ej)和线下社交影响特征Infoff(ui,ej):其中,v、v′分别表示用户ui的一个线上朋友和一个线下朋友,线上朋友为参加同一个小组的用户,小组为具有相同兴趣爱好的用户组成的用户集合,线下朋友为参加同一个事件的用户,Fion、Fioff分别表示用户ui线上、线下的朋友集合,Pref(v,ej)、Pref(v′,ej)分别表示用户ui的线上朋友v和线下朋友v′对事件ej的用户偏好特征,表示用户ui与其线上朋友v的用户偏好特征,表示用户ui与其线下朋友v′的用户偏好特征;3)根据用户所在城市举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度。2.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。3.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合,用户的描述信息为用户自己选择的兴趣关键词集合,社交事件的描述信息为社交事件的属性关键词集合。4.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的步骤1)的用户偏好特征采用以下方式计算得到:采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布ui表示第i个用户,ej表示第j个社交事件,然后采用以下公式计算用户偏好特征Pref(ui,ej):其中,和分别是用户档案和事件档案下的话题分布,M是用户话题分布和社交事件话题分布的平均量;上述的是用户话题分布M到事件档案话题分布的Kullback-Leibler散度,采用以下公式计算:其中,是用户档案的话题分布中第z个话题的权重,M(z)是平均量M中第z个话题的权重;上述的是用户话题分布M到社交事件话题分布的Kullback-Leibler散度,采用以下公式计算:其中,是社交事件档案的话题分布中第z个话题的权重。5.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户ui与其线上朋友v的用户偏好特征采用以下公式进行计算:其中,θv是用户ui的线上朋友v档案的话题分布,M1是用户话题分布与其线上朋友v档案的话题分布θv的平均量;上述的是M1到的Kullback-Leibler散度,采用以下公式计算:其中,是用户档案的话题分布中第z个话题的权重,M1(z)是平均量M1中第z个话题的权重;上述的Dkl(θv||M1)是M1到θv的Kullback-Leibler散度,采用以下公式计算:
【专利技术属性】
技术研发人员:寿黎但,陈刚,陈珂,伍赛,胡天磊,王振华,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。