一种基于用户标签算法制造技术

技术编号:18350443 阅读:31 留言:0更新日期:2018-07-01 23:40
本发明专利技术公开了一种基于用户标签算法,通过获取Herpink平台用户信息,对用户信息进行定量化分析,用户信息包括以下内容:分析关注用户的人数、用户的粉丝数量和发布的留言为标准,根据分析结果,针对不同特征的用户群体提出了相应的标签推荐方法,为用户提供更好的影响力,为粉丝选择更好的、更喜欢的关注对对象,这样可以提高用户的更大价值。

【技术实现步骤摘要】
一种基于用户标签算法
本专利技术主要将用户标签和用户兴趣相结合,建立用户兴趣模型和用户属性描述,为用户进行个性化兴趣推荐,主要为用户推荐感兴趣的标签或为用户推荐感兴趣的用户。
技术介绍
在用户兴趣点相似或关注用户的标签里,计算用户与标签的联系程度;并不是所有存在于—点内的标签都可以很好的反映出用户的真实兴趣。例如,一个用户兴趣推荐系统中,用户可能会对某个美食大V标签反映自己对这个用户评价的标签,比如:我很喜欢这道“菜”,看上去很有“味道”,我就是一个“吃货”。但是,对于系统来说不能够因为用户标记了“菜”这个标签,就认为这个是用户的兴趣偏好。因此需要计算用户与该标签的联系程度来推断该标签是否能够真正的描述用户的兴趣偏好。在标签系统中,一个标签在系统中出现的频率越低,但是某一用户使用该标签的频率越高,则这个标签越能描述该用户的兴趣偏好。这一特点刚好与传统算法的核心思想一致,因此在计算用户与该标签的联系程度时引入算法。本专利利用基于相似性的聚类方法将用户使用过的标签进行聚类,将用户的兴趣利用一类标签来进行描述;具体步骤如下:计算该用户所使用过的所有标签之间的相似性;根据设定的阈值,将标签进行聚类,生成若干能够描述用户兴趣点的标签集合。最终生成的用户u的整体兴趣模型Hu可以用一个k维向量进行表示:Hu=(interest1,interest2,…,interestk),其中k为用户的兴趣点个数,intersti为用户第i个兴趣点的权重。可以简单的将权重认为是该兴趣点下所包含的标签频率数量。
技术实现思路
在用户某一兴趣类别下,也同样存在着不同的兴趣特征,为了更好的为用户进行推荐,需要为每个具体的兴趣类别计算用户标签联系程度。结合本专利提出的推荐方法,利用TF-IDF理念对用户标签联系程度进行计算:在用户A的某一兴趣类别下找出最能够描述这个兴趣类别的标签t,即计算兴趣类别in与标签t的联系程度rel(i,t),其步骤如下:根据TF-IDF方法思想,计算用户i兴趣与标签的联系程度rel(i,t),其定义如下:TAGS:表示用户某一兴趣类别下所有的标签集合;i:表示用户兴趣的集合;rel(i,t):表示使用标签t标记项目i的次数。计算公式如公式(1)所示:rel(i,t)=TF(i,t)*IDF(t)(1)其中,公式(2)表示在用户某一兴趣类别下,使用标签的频率,数值越大表示使用标签t用户兴趣i的频率越高。附图说明图1为本申请一示例性实施例提供的一种基于用户标签算法的架构意图。具体实施方式1、对数据集进行处理,将标签数据中的特殊字符,例如问号,双引号等字符进行清理,保持标签数据的可读性;为降低数据的稀疏性,选择相对已经处于用户标签较多,用户关注较多或留言较多,因此过滤掉标签较少的用户,留言的数量小于20条、数丝数量不超过20小,称为不活跃用户,将这些不活跃用户过滤掉。然后采用预测目标用户的相似标签。根据系统对每位用户的行为记录,按照一定格式生成一个在指定的标签和用户评论数据集;将产生的数据集按照一定的要求进行处理,并按照所需规则将数据集切分成M份,其中M-1份作为训练集,剩余的作为测试集;让推荐算法在M-1份训练集上进行训练,在测试集上进行测试,分别选用不同的测试集总共进行M次测试;通过定义好的评测指标算法在每个测试集上得到预测结果,最终将M次的平均值作为最终预测结果。本文档来自技高网...
一种基于用户标签算法

【技术保护点】
1.一种基于用户标签算法,其特征在于,包括如下步骤:(1)根据用户信息,来获取相应的数据,如用户的UID、用户的真实姓名或昵称、用户标签、性别、用户粉丝数、关注数、留言数、创建时间和用户的基本属性;(2)采用数据处理工具Python对数据进行抽取的关注用户的人数、用户的粉丝数量和发布的留言为标准;(3)对用户数据进行特征分析,如留言的数量小于20条、数丝数量不超过20小,称为不活跃用户,将这些不活跃用户过滤掉;(4)最后,根据用户关注者代表了用户的特征和兴趣,只要抽取用户关注者的标签作为原始标签,根据其发表的留言,可以提取出潜在的标签,作为补充添加到候选标签中,最后对频率较高的标签进行筛选,将频率较高的结果推荐给用户。

【技术特征摘要】
1.一种基于用户标签算法,其特征在于,包括如下步骤:(1)根据用户信息,来获取相应的数据,如用户的UID、用户的真实姓名或昵称、用户标签、性别、用户粉丝数、关注数、留言数、创建时间和用户的基本属性;(2)采用数据处理工具Python对数据进行抽取的关注用户的人数、用户的粉丝数量和发布的留言为标准;(3)对用户数据进行特征分析,如留言的数量小于20条、数丝数量不超过20小,称为不活跃用户,将这些不活跃用户过滤掉;(4)最后,根据用...

【专利技术属性】
技术研发人员:万迅
申请(专利权)人:爱品克科技武汉股份有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1