基于社交平台的数据挖掘方法及装置制造方法及图纸

技术编号：10982754 阅读：67 留言：0更新日期：2015-01-30 19:49

本发明专利技术公开了一种基于社交平台的数据挖掘方法及装置。其中，该方法包括：获取资讯客户端上已注册用户的兴趣标签字典和社交平台中与资讯客户端上已注册用户具有关注关系的第一对象；根据已注册用户具有关注关系的第一对象，确定与已注册用户对应的第一关注集合；根据已注册用户的兴趣标签字典和第一关注集合，构建兴趣模型；获取资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象，并读取新注册用户与第二对象之间的关系信息；根据新注册用户具有关注关系的第二对象；将第二关注集合与兴趣模型进行匹配，确定新注册用户的推荐兴趣标签。本发明专利技术解决了现有技术中因新注册用户没有历史浏览记录，导致的无法提供有针对性的资讯的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于社交平台的数据挖掘方法及装置
本专利技术涉及计算机领域，具体而言，涉及一种基于社交平台的数据挖掘方法及装置。
技术介绍
目前，在计算机技术的发展和互联网的逐渐普及，越来越多的人通过互联网来获取各种各样的资讯。而相应的，互联网上的资讯数量也随着计算机技术的发展和互联网的普及变得更加丰富起来。近些年来，移动互联网的快速发展，人们逐渐习惯通过移动终端上的资讯客户端来获取资讯内容。这种方式使得用户在通过网络进行获取资讯的时间变得更加碎片化。在这种背景下，如何精准的为用户提供有价值，且用户感兴趣的资讯信息变得更加重要。尤其，在为新用户提供有价值且感兴趣的资讯，成为了亟待解决的问题。在现有的技术当中，推荐系统的冷启动问题是资讯客户端这类产品应用中的一个主要挑战。其中，推荐系统的冷启动问题是指对于新用户系统缺乏足够的数据来捕获用户的兴趣并有效的推荐内容。这个问题在众多解决方案中，有一类被广泛使用的方法，就是鼓励用户用社交网络(Social Network Service:SNS)账号登陆推荐系统,例如:微博、腾讯QQ、人人网等社交账号登陆。推荐系统可以利用用户社交网络平台的信息(例如:关注关系，好友关系，兴趣标签，发布内容等)初始化用户的兴趣模型，从而进行有效推荐。一方面，单纯利用社交网络平台的公开数据用于内容推荐(公开数据例如:视频，文章，图片，音乐，游戏，软件，好友等)在实际应用中还有不少困难。例如:在社交网络平台的发布内容往往篇幅较短，且内容杂乱，用户的标签内容往往标新立异(例如:不睡懒觉会死星人、密集恐惧症晚期患者等)，较...

【技术保护点】
一种基于社交平台的数据挖掘方法，其特征在于，包括：获取资讯客户端上已注册用户的兴趣标签字典；获取社交平台中与所述资讯客户端上已注册用户具有关注关系的第一对象，并读取所述已注册用户与所述第一对象之间的关系信息；根据所述已注册用户具有关注关系的所述第一对象，确定与所述已注册用户对应的第一关注集合；根据所述已注册用户的兴趣标签字典和所述第一关注集合，构建兴趣模型，其中，所述兴趣模型用于表征具有相同所述第一关注集合的所述已注册用户与兴趣标签的对应关系；获取所述资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象，并读取所述新注册用户与所述第二对象之间的关系信息；根据所述新注册用户具有关注关系的所述第二对象，确定与所述新注册用户的第二关注集合；将所述第二关注集合与所述兴趣模型进行匹配，根据所述兴趣模型确定所述新注册用户的推荐兴趣标签。

【技术特征摘要】
1.一种基于社交平台的数据挖掘方法，其特征在于，包括: 获取资讯客户端上已注册用户的兴趣标签字典；获取社交平台中与所述资讯客户端上已注册用户具有关注关系的第一对象，并读取所述已注册用户与所述第一对象之间的关系信息；根据所述已注册用户具有关注关系的所述第一对象，确定与所述已注册用户对应的第一关注集合；根据所述已注册用户的兴趣标签字典和所述第一关注集合，构建兴趣模型，其中，所述兴趣模型用于表征具有相同所述第一关注集合的所述已注册用户与兴趣标签的对应关系; 获取所述资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象，并读取所述新注册用户与所述第二对象之间的关系信息；根据所述新注册用户具有关注关系的所述第二对象，确定与所述新注册用户的第二关注集合；将所述第二关注集合与所述兴趣模型进行匹配，根据所述兴趣模型确定所述新注册用户的推荐兴趣标签。2.根据权利要求1所述的方法，其特征在于，在所述获取资讯客户端上已注册用户的兴趣标签字典之前，所述方法包括: 获取推荐资讯；从所述推荐资讯的内容提取所述推荐资讯的所述兴趣标签；获取所述已注册用户的历史行为数据，其中，所述历史行为数据用于记录所述已注册用户对所述推荐资讯的操作行为；根据所述历史行为数据，确定所述兴趣标签的标签权重值；根据所述标签权重值，确定与所述已注册用户对应的所述兴趣标签字典。3.根据权利要求2所述的方法，其特征在于，所述根据所述已注册用户的兴趣标签字典和所述第一关注集合，构建兴趣模型的步骤包括: 对所述第一关注集合进行筛选，得到与所述已注册用户对应的第三关注集合，其中，所述筛选方法至少包括:数据筛选法、指标筛选法、条件筛选法和信息筛选法；通过所述第三关注集合对所述已注册用户进行匹配，生成已注册用户集合，其中，所述已注册用户集合包括拥有相同第三关注集合的所述已注册用户；根据所述已注册用户集合中包含的所述已注册用户的所述兴趣标签字典，生成与所述已注册用户集合对应的用户集合标签字典。4.根据权利要求3所述的方法，其特征在于，所述根据所述已注册用户集合中包含的所述已注册用户的所述兴趣标签字典，生成与所述已注册用户集合对应的用户集合标签字典的步骤包括: 获取所述资讯客户端上已注册用户的第一用户数量和所述已注册用户集合的第二用户数量；根据所述标签权重值和所述第一用户数量，计算各个所述兴趣标签的权重分布平均值；根据所述已注册用户集合中的所述已注册用户的所述标签权重值和所述第二用户数量，计算所述用户集合兴趣标签字典中的各个所述兴趣标签的集合权重平均值；根据所述权重分布平均值和所述集合权重平均值，计算得出所述兴趣标签在所述用户集合兴趣标签字典中的已注册用户集合权重值；依次将所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值与预先设定的噪声阈值进行比较；当所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值大于预先设定的噪声阈值时，在所述用户集合标签字典中保留与所述已注册用户集合权重值对应的兴趣标签；当所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值小于或等于预先设定的噪声阈值时，在所述用户集合标签字典中删除与所述已注册用户集合权重值对应的兴趣标签。5.根据权利要求4所述的方法，其特征在于，所述将所述第二关注集合与所述兴趣模型进行匹配，根据所述兴趣模型确定所述新注册用户的推荐兴趣标签的步骤包括: 对所述第二关注集合进行筛选，得到与所述新注册用户对应的第四关注集合，其中，所述筛选方法至少包括:数据筛选法、指标筛选法、条件筛选法和信息筛选法；将所述第四关注集合与所述第三关注集进行匹配，确定与所述新注册用户对应的所述已注册用户集合；根据与所述新注册用户对应的所述已注册用户集合的所述用户集合标签字典，确定所述新注册用户的所述推荐兴趣标签。6.根据权利要求1至5中任意一项所述的方法，其特征在于，在所述将所述第二关注集合与所述兴趣模型进行匹配，根据所述兴趣模型确定所述新注册用户的推荐兴趣标签之后，所述方法还包括: 根据所述推荐兴趣标签，为所述新注册用户推送所述推荐资讯。7.一种基于社交平台的数据...

【专利技术属性】
技术研发人员：陈韬，曹欢欢，罗立新，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人