基于社交平台的数据挖掘方法及装置制造方法及图纸

技术编号:10982754 阅读:67 留言:0更新日期:2015-01-30 19:49
本发明专利技术公开了一种基于社交平台的数据挖掘方法及装置。其中,该方法包括:获取资讯客户端上已注册用户的兴趣标签字典和社交平台中与资讯客户端上已注册用户具有关注关系的第一对象;根据已注册用户具有关注关系的第一对象,确定与已注册用户对应的第一关注集合;根据已注册用户的兴趣标签字典和第一关注集合,构建兴趣模型;获取资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取新注册用户与第二对象之间的关系信息;根据新注册用户具有关注关系的第二对象;将第二关注集合与兴趣模型进行匹配,确定新注册用户的推荐兴趣标签。本发明专利技术解决了现有技术中因新注册用户没有历史浏览记录,导致的无法提供有针对性的资讯的问题。

【技术实现步骤摘要】
基于社交平台的数据挖掘方法及装置
本专利技术涉及计算机领域,具体而言,涉及一种基于社交平台的数据挖掘方法及装置。
技术介绍
目前,在计算机技术的发展和互联网的逐渐普及,越来越多的人通过互联网来获取各种各样的资讯。而相应的,互联网上的资讯数量也随着计算机技术的发展和互联网的普及变得更加丰富起来。 近些年来,移动互联网的快速发展,人们逐渐习惯通过移动终端上的资讯客户端来获取资讯内容。这种方式使得用户在通过网络进行获取资讯的时间变得更加碎片化。在这种背景下,如何精准的为用户提供有价值,且用户感兴趣的资讯信息变得更加重要。尤其,在为新用户提供有价值且感兴趣的资讯,成为了亟待解决的问题。 在现有的技术当中,推荐系统的冷启动问题是资讯客户端这类产品应用中的一个主要挑战。其中,推荐系统的冷启动问题是指对于新用户系统缺乏足够的数据来捕获用户的兴趣并有效的推荐内容。这个问题在众多解决方案中,有一类被广泛使用的方法,就是鼓励用户用社交网络(Social Network Service:SNS)账号登陆推荐系统,例如:微博、腾讯QQ、人人网等社交账号登陆。推荐系统可以利用用户社交网络平台的信息(例如:关注关系,好友关系,兴趣标签,发布内容等)初始化用户的兴趣模型,从而进行有效推荐。 一方面,单纯利用社交网络平台的公开数据用于内容推荐(公开数据例如:视频,文章,图片,音乐,游戏,软件,好友等)在实际应用中还有不少困难。例如:在社交网络平台的发布内容往往篇幅较短,且内容杂乱,用户的标签内容往往标新立异(例如:不睡懒觉会死星人、密集恐惧症晚期患者等),较难被机器学习算法理解,对改进推荐服务帮助有限。而对于在社交网络上不活跃,社交关系薄弱的用户来说,其社交网络平台上的公开数据在改进推荐效果上作用就更加有限。另一方面,对于比较成熟,用户量较大的内容推荐服务商来说,在长期的运营过程中,往往已经积累了大量的用户行为信息,例如:用户点播的视频,看过或评论过的文章。这部分数据如果能够有效的和社交网络公开数据融合使用,有可能极大的改进用户的推荐效果。然而,现有的技术,基本将关注点都聚焦在利用社交网络平台提供的公开数据挖掘用户兴趣模型并进行推荐,此种方法实现的难度较大,且准确率较低。 针对现有技术中因新注册用户没有历史浏览记录,导致的无法提供有针对性的资讯的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种基于社交平台的数据挖掘方法及装置,以解决现有技术中因新注册用户没有历史浏览记录,导致的无法提供有针对性的资讯的问题。 为了实现上述目的,根据本专利技术实施例的一个方面,提供了一种基于社交平台的数据挖掘方法。该方法包括:获取资讯客户端上已注册用户的兴趣标签字典;获取社交平台中与资讯客户端上已注册用户具有关注关系的第一对象,并读取已注册用户与第一对象之间的关系信息;根据已注册用户具有关注关系的第一对象,确定与已注册用户对应的第一关注集合;根据已注册用户的兴趣标签子典和弟一关注集合,构建兴趣I旲型,其中,兴趣模型用于表征具有相同第一关注集合的已注册用户与兴趣标签的对应关系;获取资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取新注册用户与第二对象之间的关系信息;根据新注册用户具有关注关系的第二对象,确定与新注册用户的第二关注集合;将第二关注集合与兴趣模型进行匹配,根据兴趣模型确定新注册用户的推荐兴趣标签。 为了实现上述目的,根据本专利技术实施例的另一方面,提供了一种基于社交平台的数据挖掘装置,该装置包括:第一获取模块,用于获取资讯客户端上已注册用户的兴趣标签字典;第二获取模块,用于获取社交平台中与资讯客户端上已注册用户具有关注关系的第一对象,并读取已注册用户与第一对象之间的关系信息;第一确定模块,用于根据已注册用户具有关注关系的第一对象,确定与已注册用户对应的第一关注集合;第一处理模块,用于根据已注册用户的兴趣标签字典和第一关注集合,构建兴趣模型,其中,兴趣模型用于表征具有相同第一关注集合的已注册用户与兴趣标签的对应关系;第三获取模块,用于获取资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取新注册用户与第二对象之间的关系信息;第二确定模块,用于根据新注册用户具有关注关系的第二对象,确定与新注册用户的第二关注集合;第二处理模块,用于将第二关注集合与兴趣模型进行匹配,根据兴趣模型确定新注册用户的推荐兴趣标签。 根据专利技术实施例,通过获取资讯客户端上已注册用户的兴趣标签字典;获取社交平台中与资讯客户端上已注册用户具有关注关系的第一对象,并读取已注册用户与第一对象之间的关系信息;根据已注册用户具有关注关系的第一对象,确定与已注册用户对应的第一关注集合;根据已注册用户的兴趣标签字典和第一关注集合,构建兴趣模型,其中,兴趣模型用于表征具有相同第一关注集合的已注册用户与兴趣标签的对应关系;获取资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取新注册用户与第二对象之间的关系信息;根据新注册用户具有关注关系的第二对象,确定与新注册用户的第二关注集合;将第二关注集合与兴趣模型进行匹配,根据兴趣模型确定新注册用户的推荐兴趣标签,解决了现有技术中因新注册用户没有历史浏览记录,导致的无法提供有针对性的资讯的问题。实现了通过新注册用户在社交平台的关注关系为用户提供有针对性资讯的效果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术实施例一的基于社交平台的数据挖掘的流程图; 图2是根据本专利技术实施例一的优选的基于社交平台的数据挖掘的流程图; 图3是通过微博中关注集合对已注册用户进行匹配生成已注册用户集合的流程示意图; 图4是根据本专利技术实施例二的基于社交平台的数据挖掘装置的结构示意图; 图5是根据本专利技术实施例二的优选的基于社交平台的数据挖掘装置的结构示意图;以及 图6是根据本专利技术实施例二的优选的基于社交平台的数据挖掘装置的结构示意图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。 为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。 需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设本文档来自技高网
...

【技术保护点】
一种基于社交平台的数据挖掘方法,其特征在于,包括:获取资讯客户端上已注册用户的兴趣标签字典;获取社交平台中与所述资讯客户端上已注册用户具有关注关系的第一对象,并读取所述已注册用户与所述第一对象之间的关系信息;根据所述已注册用户具有关注关系的所述第一对象,确定与所述已注册用户对应的第一关注集合;根据所述已注册用户的兴趣标签字典和所述第一关注集合,构建兴趣模型,其中,所述兴趣模型用于表征具有相同所述第一关注集合的所述已注册用户与兴趣标签的对应关系;获取所述资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取所述新注册用户与所述第二对象之间的关系信息;根据所述新注册用户具有关注关系的所述第二对象,确定与所述新注册用户的第二关注集合;将所述第二关注集合与所述兴趣模型进行匹配,根据所述兴趣模型确定所述新注册用户的推荐兴趣标签。

【技术特征摘要】
1.一种基于社交平台的数据挖掘方法,其特征在于,包括: 获取资讯客户端上已注册用户的兴趣标签字典; 获取社交平台中与所述资讯客户端上已注册用户具有关注关系的第一对象,并读取所述已注册用户与所述第一对象之间的关系信息; 根据所述已注册用户具有关注关系的所述第一对象,确定与所述已注册用户对应的第一关注集合; 根据所述已注册用户的兴趣标签字典和所述第一关注集合,构建兴趣模型,其中,所述兴趣模型用于表征具有相同所述第一关注集合的所述已注册用户与兴趣标签的对应关系; 获取所述资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取所述新注册用户与所述第二对象之间的关系信息; 根据所述新注册用户具有关注关系的所述第二对象,确定与所述新注册用户的第二关注集合; 将所述第二关注集合与所述兴趣模型进行匹配,根据所述兴趣模型确定所述新注册用户的推荐兴趣标签。2.根据权利要求1所述的方法,其特征在于,在所述获取资讯客户端上已注册用户的兴趣标签字典之前,所述方法包括: 获取推荐资讯; 从所述推荐资讯的内容提取所述推荐资讯的所述兴趣标签; 获取所述已注册用户的历史行为数据,其中,所述历史行为数据用于记录所述已注册用户对所述推荐资讯的操作行为; 根据所述历史行为数据,确定所述兴趣标签的标签权重值; 根据所述标签权重值,确定与所述已注册用户对应的所述兴趣标签字典。3.根据权利要求2所述的方法,其特征在于,所述根据所述已注册用户的兴趣标签字典和所述第一关注集合,构建兴趣模型的步骤包括: 对所述第一关注集合进行筛选,得到与所述已注册用户对应的第三关注集合,其中,所述筛选方法至少包括:数据筛选法、指标筛选法、条件筛选法和信息筛选法; 通过所述第三关注集合对所述已注册用户进行匹配,生成已注册用户集合,其中,所述已注册用户集合包括拥有相同第三关注集合的所述已注册用户; 根据所述已注册用户集合中包含的所述已注册用户的所述兴趣标签字典,生成与所述已注册用户集合对应的用户集合标签字典。4.根据权利要求3所述的方法,其特征在于,所述根据所述已注册用户集合中包含的所述已注册用户的所述兴趣标签字典,生成与所述已注册用户集合对应的用户集合标签字典的步骤包括: 获取所述资讯客户端上已注册用户的第一用户数量和所述已注册用户集合的第二用户数量; 根据所述标签权重值和所述第一用户数量,计算各个所述兴趣标签的权重分布平均值; 根据所述已注册用户集合中的所述已注册用户的所述标签权重值和所述第二用户数量,计算所述用户集合兴趣标签字典中的各个所述兴趣标签的集合权重平均值; 根据所述权重分布平均值和所述集合权重平均值,计算得出所述兴趣标签在所述用户集合兴趣标签字典中的已注册用户集合权重值; 依次将所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值与预先设定的噪声阈值进行比较; 当所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值大于预先设定的噪声阈值时,在所述用户集合标签字典中保留与所述已注册用户集合权重值对应的兴趣标签; 当所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值小于或等于预先设定的噪声阈值时,在所述用户集合标签字典中删除与所述已注册用户集合权重值对应的兴趣标签。5.根据权利要求4所述的方法,其特征在于,所述将所述第二关注集合与所述兴趣模型进行匹配,根据所述兴趣模型确定所述新注册用户的推荐兴趣标签的步骤包括: 对所述第二关注集合进行筛选,得到与所述新注册用户对应的第四关注集合,其中,所述筛选方法至少包括:数据筛选法、指标筛选法、条件筛选法和信息筛选法; 将所述第四关注集合与所述第三关注集进行匹配,确定与所述新注册用户对应的所述已注册用户集合; 根据与所述新注册用户对应的所述已注册用户集合的所述用户集合标签字典,确定所述新注册用户的所述推荐兴趣标签。6.根据权利要求1至5中任意一项所述的方法,其特征在于,在所述将所述第二关注集合与所述兴趣模型进行匹配,根据所述兴趣模型确定所述新注册用户的推荐兴趣标签之后,所述方法还包括: 根据所述推荐兴趣标签,为所述新注册用户推送所述推荐资讯。7.一种基于社交平台的数据...

【专利技术属性】
技术研发人员:陈韬曹欢欢罗立新
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1