The invention relates to a method and device for information recommendation, the method comprises: according to user data across the field to extract the user label; the user label of the same user form are used to describe the user tag set; according to the theme of creating model and the user label sets the user label set the theme and, the user label set belongs to theme as the user belongs to the user community; according to the user belongs to the user community for information recommendation. Information recommendation method and apparatus are provided, in the case of high data sparsity based on user data across the field, to accurately determine the user belongs to the user community by the subject generation model, and then use the user belongs to the user community for information recommendation in data sparsity under high still accurately information recommendation.
【技术实现步骤摘要】
信息推荐方法和装置
本专利技术涉及计算机
,特别是涉及一种信息推荐方法和装置。
技术介绍
随着互联网的发展,信息快速增长,如何对信息进行有效的筛选和过滤,将用户感兴趣的信息,比如电影、商品或者食物等信息,准确地推荐给用户是一个重要的研究题目。目前普遍使用的推荐算法包括基于相似性的协同过滤算法、矩阵分解等,此类算法基于相似用户或者相似项目等各种类型信息,实现某用户对某项目的个性化喜爱程度的预测,从而达到个性化推荐的效果。然而,目前的推荐算法只使用用户的单个活动场景的数据,具有局限性,特别是在数据稀疏度高的情况下,推荐效果差。比如购物网站上的物品可以达到上百万件,但是与某一用户有关系(比如浏览、购买等)的商品可能只有几十件。以用户和物品这两个维度来构建关系矩阵的话,横轴代表用户,纵轴代表商品。如果用户浏览或购买某一个商品,其矩阵中对应值为1,否则为0,那么这个矩阵几乎都是0。这样的情况下用协同过滤等一些传统的算法就非常的低效,预测不准确,导致推荐结果也不准确。
技术实现思路
基于此,有必要针对目前的推荐算法在数据稀疏度高的情况下推荐结果不准确的问题,提供一种信息推荐 ...
【技术保护点】
一种信息推荐方法,所述方法包括:根据跨领域的用户数据提取用户标签;将相同用户的所述用户标签形成用于描述所述用户的用户标签集;根据主题生成模型和所述用户标签集确定所述用户标签集所属主题,并将所述用户标签集所属主题作为用户所属用户社区;根据所述用户所属用户社区进行信息推荐。
【技术特征摘要】
1.一种信息推荐方法,所述方法包括:根据跨领域的用户数据提取用户标签;将相同用户的所述用户标签形成用于描述所述用户的用户标签集;根据主题生成模型和所述用户标签集确定所述用户标签集所属主题,并将所述用户标签集所属主题作为用户所属用户社区;根据所述用户所属用户社区进行信息推荐。2.根据权利要求1所述的方法,其特征在于,所述根据跨领域的用户数据提取用户标签,包括:获取跨领域的每份用户数据的词在相应用户数据中的词频;获取跨领域的各份用户数据中包括所述词的用户数据份数;获取所述词的重要度评分;所述重要度评分与所述词频正相关,且与所述用户数据份数负相关;根据所述重要度评分筛选出关键词;根据所述关键词确定用户标签。3.根据权利要求2所述的方法,其特征在于,所述获取所述词的重要度评分,包括:将跨领域的用户数据总份数除以所述用户数据份数与正的常数的和后取对数,再乘以所述词频,获得所述词的重要度评分。4.根据权利要求1所述的方法,其特征在于,所述根据主题生成模型和所述用户标签集确定所述用户标签集所属主题,并将所述用户标签集所属主题作为用户所属用户社区,包括:根据主题生成模型,对于所述用户标签集中的每个用户标签,按照预设数量的主题与用户标签的多项式分布选择当前用户标签所属的主题,并且按照用户标签集与主题的多项式分布生成在选择的主题条件下的当前用户标签,以构建用户标签生成概率函数;获取所述用户标签集中各个用户标签的出现概率;根据获取的出现概率和所述用户标签生成概率函数,获得所述用户标签集属于预设数量的主题中各主题的概率;将概率最大的主题确定为用户所属用户社区。5.根据权利要求1所述的方法,其特征在于,所述根据所述用户所属用户社区进行信息推荐,包括:根据用户属性信息和所述跨领域的用户数据中的至少一种以及所述用户所属用户社区进行信息推荐。6.根据权利要求1所述的方法,其特征在于,所述根据所述用户所属用户社区进行信息推荐,包括:将用户属性信息、所述跨领域的用户数据以及所述用户所属用户社区进行二值化处理,获得相应的特征向量;计算各种特征向量彼此之间的关联性;根据各种特征向量及各种特征向量彼此之间的关联性预测用户评分值;根据所述用户评分值进行信息推荐。7.根据权利要求6所述的方法,其特征在于,所述用户评分值具体按照以下公式计算:其中,y是用户评分值,w0表示全局偏值,wi表示用户属性信息u的权重,wi表示跨领域的用户数据i的权重,wm表示用户所属用户社区m的权重;vu表示用户属性信息u的特征向量,vi表示跨领域的用户数据i的特征向量,vm表示用户所属用户社区m的特征向量;LDAu表示用户标签集与主题的多项式分布中的主题集合,|LDAu|表示LDAu的大小;<>符号表示求取内积,用于表示特征向量之间的关联性。8.一种信息推荐装置,其特征在于,所述装置包括:用户标签提取模块,用于根据跨领域的...
【专利技术属性】
技术研发人员:郑子彬,
申请(专利权)人:腾讯科技深圳有限公司,中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。