【技术实现步骤摘要】
用户数据处理方法及装置
本申请涉及互联网数据处理
,尤其涉及一种用户数据处理方法及装置。
技术介绍
随着互联网技术的发展,人们在互联网上进行的活动越来越多,不仅是简单的浏览网页,还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及,个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,从而可节省用户搜索信息或商品的时间。
技术实现思路
本申请提出了一种用户数据处理方法,包括:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。本申请还提出了一种用户数据处理装置,包括:访问记录获取单元,用于获取多个用户分别在指定时间段内对多条信息的访 ...
【技术保护点】
1.一种用户数据处理方法,其特征在于,包括:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。
【技术特征摘要】
1.一种用户数据处理方法,其特征在于,包括:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。2.根据权利要求1所述的方法,其中,所述根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数,包括:基于所述概率估计模型,利用所述各组样本数据中每个用户对应的各兴趣标签的访问量统计值,确定每个用户对信息感兴趣的概率;其中,所确定的每个用户的所述概率与该用户对应的各兴趣标签的权重参数及其对应的各信息类目的权重参数相关;根据所述确定的每个用户对信息感兴趣的概率,计算产生所述多个用户对应的多个指示值的概率,所确定的所述概率与每一兴趣标签的权重参数和每一信息类目的权重参数相关;基于最大似然法,使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值。3.根据权利要求2所述的方法,其中,所述使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值包括:对所述每一兴趣标签的权重参数和每一信息类目的权重参数赋初值;设置学习率λ;根据迭代公式迭代求解所述每一兴趣标签的权重参数wt和每一信息类目的权重参数wg,直至所述每一兴趣标签的权重参数和每一信息类目的权重参数收敛,其中为产生所述多个用户对应的多个指示值的概率的对数,其中N为选取的抽样用户的个数,yi为第i个用户的指示值,p代表某个用户对信息感兴趣的概率,WG代表信息类目的权重向量,是一个G维的向量,G为信息类目总数,WT代表兴趣标签的权重向量,是一个T维的向量,T为所有兴趣标签的个数;将所述收敛的每一兴趣标签的权重参数和每一信息类目的权重参数的取值确定为每一兴趣标签的权重参数和每一信息类目的权重参数的取值。4.根据权利要求1所述的方法,其特征在于,所述概率估计模型为二分类算法模型。5.根据权利要求4所述的方法,其特征在于,所述二分类算法模型为以下公式表征的逻辑斯蒂回归算法模型:其中p代表一个用户对信息感兴趣的概率,wg代表信息类目g的权重参数,WG代表信息类目的权重向量,是一个G维的向量,G为信息类目总数;t∈wg代表兴趣标签t为信息类目g中的兴趣标签;xt代表兴趣标签t的访问统计值;wt代表兴趣标签t...
【专利技术属性】
技术研发人员:蔡业首,汤煌,张小鹏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。