【技术实现步骤摘要】
用户兴趣标签分类的方法及装置
本专利技术涉及互联网
,尤其涉及一种用户兴趣标签分类的方法及装置。
技术介绍
随着Twitter、微博、QQ等网络社区的兴起,开放平台已经成为互联网应用的核心组成部分。开放平台拥有海量的用户和丰富的用户信息,应用开发者或第三方网站(后续统称为第三方)可以在开放协议许可的条件下,通过平台的应用程序接口(ApplicationProgramInterface,简称API)从开放平台获取这些用户信息,分析用户兴趣、好友关系等价值信息,实现开放平台与第三方之间的信息共享。开放平台从起始到现在只有数年的时间,因此目前第三方引入开放平台用户信息辅方式还相对简单。对于用户性别、用户年龄等信息,各个网站的表达方式基本一致,第三方可以直接从开放平台引入,而对于用户兴趣这类信息,由于各个网站的兴趣分类体系互不相同(包括分类方式和分类粒度),因此第三方往往不能对开放平台的用户兴趣信息直接进行引入。例如在开放平台中的用户兴趣分类为电影、美食、足球、互联网,而某电影类第三方垂直网站中的用户兴趣则分类为惊悚、搞笑、科幻,对于开放平台中的用户兴趣信息,该垂直 ...
【技术保护点】
一种用户兴趣标签分类的方法,其特征在于,包括:获取活跃用户的训练数据,所述训练数据包括所述活跃用户的第一站点数据以及所述活跃用户在第二站点中选择的用户兴趣标签;对第二站点中的第二站点兴趣标签进行二元标签转换,得到二分类器;根据所述用户兴趣标签以及所述二分类器,建立所述第一站点数据与所述第二站点兴趣标签之间的关联关系;通过二元分解算法以及所述第一站点数据与所述第二站点兴趣标签之间的关联关系,训练得到用户兴趣标签分类模型;获取新用户的第一站点数据;根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型,计算获得所述新用户在所述第二站点中的用户兴趣标签。
【技术特征摘要】
1.一种用户兴趣标签分类的方法,其特征在于,包括:获取活跃用户的训练数据,所述训练数据包括所述活跃用户的第一站点数据以及所述活跃用户在第二站点中选择的用户兴趣标签;将K个第二站点兴趣标签进行两两配对,得到K*(K-1)/2个二分类器,其中K为正整数;根据所述用户兴趣标签以及所述二分类器,建立所述第一站点数据与所述第二站点兴趣标签之间的关联关系;通过二元分解算法以及所述第一站点数据与所述第二站点兴趣标签之间的关联关系,训练得到用户兴趣标签分类模型,其中,所述二元分解算法包括支持向量机(SVM)算法、引导(bootstrap)算法任意之一;获取新用户的第一站点数据;根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型,计算获得所述新用户在所述第二站点中的用户兴趣标签。2.根据权利要求1所述的用户兴趣标签分类的方法,其特征在于,在所述获取活跃用户的训练数据的步骤之前,所述方法进一步包括:对现有的第一站点用户进行遍历,将在所述第二站点中进行注册并选择用户兴趣标签的第一站点用户确定为待选用户;按照第一预设比例将所述待选用户中活跃度较高的用户确定为所述活跃用户。3.根据权利要求1所述的用户兴趣标签分类的方法,其特征在于,所述获取活跃用户的训练数据的步骤,包括:向第一站点服务器请求所述活跃用户的第一站点数据,所述第一站点数据包括下述数据中的至少一种:所述活跃用户在所述第一站点中选择的用户兴趣标签、所述活跃用户的个人信息数据或所述活跃用户的好友链数据;向第二站点请求所述活跃用户在所述第二站点中选择的用户兴趣标签。4.根据权利要求1所述的用户兴趣标签分类的方法,其特征在于,在所述将K个第二站点兴趣标签进行两两配对,得到K*(K-1)/2个二分类器的步骤之前,所述方法进一步包括:按照第二预设比例选取第二站点中词频较高的兴趣标签,作为所述第二站点兴趣标签。5.根据权利要求1所述的用户兴趣标签分类的方法,其特征在于,所述根据所述用户兴趣标签以及所述二分类器,建立所述第一站点数据与所述第二站点兴趣标签之间的关联关系的步骤,包括:将活跃用户在第二站点中选择的用户兴趣标签依次与每个二分类器进行匹配,分别得到下述三种匹配结果之一:a、与二分类器中的一个第二站点兴趣标签匹配,b、与二分类器中的两个第二站点兴趣标签均匹配,c、与二分类器中的两个第二站点兴趣标签均不匹配;当匹配结果为a时,将所述活跃用户的第一站点数据与匹配的第二站点兴趣标签建立关联关系;当匹配结果为b或c时,丢弃所述活跃用户的第一站点数据。6.根据权利要求1所述的用户兴趣标签分类的方法,其特征在于,所述根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型,计算获得所述新用户在所述第二站点中的用户兴趣标签的步骤,包括:根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型对二元标签转换后的第二站点兴趣标签进行投票;按照票数由多至少的顺序对第二站点兴趣标签进行排序;从票数最高的第二站点兴趣标签开始,选择预设数量的第二站点兴趣标签作为所述新用户在所述第二站点中的用户兴趣标签。7.根据权利要求1所述的用户兴趣标签分类的方法,...
【专利技术属性】
技术研发人员:王亮,孙拔群,李京生,冯扬,张娜,柳超,姜爱荣,李庆国,程刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。