用户数据处理方法及装置制造方法及图纸

技术编号:19123066 阅读:29 留言:0更新日期:2018-10-10 05:40
本申请提出了一种用户数据处理方法,通过样本数据的训练可以获得每个兴趣标签的权重参数,同时还可以获得兴趣标签聚合到信息类目组后各信息类目组的权重参数,从而能够更加准确地计算用户在各信息类目下的兴趣值。本申请还提出了相应的用户数据处理装置。

【技术实现步骤摘要】
用户数据处理方法及装置
本申请涉及互联网数据处理
,尤其涉及一种用户数据处理方法及装置。
技术介绍
随着互联网技术的发展,人们在互联网上进行的活动越来越多,不仅是简单的浏览网页,还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及,个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,从而可节省用户搜索信息或商品的时间。
技术实现思路
本申请提出了一种用户数据处理方法,包括:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。本申请还提出了一种用户数据处理装置,包括:访问记录获取单元,用于获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;样本数据创建单元,用于针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;估计模型构建单元,用于构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;参数确定单元,用于基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;兴趣值计算单元,用于针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。采用本申请提出的上述方案,能够更加准确地计算用户在各信息类目下的兴趣值,进而能够改善信息推送效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实例提出的用户数据处理方法涉及的系统架构示意图;图2是本申请实例提出的用户数据处理方法的流程示意图;图3是本申请实例提出的求解概率估计模型参数的流程示意图;图4是本申请实例提出的迭代求解概率估计模型参数的流程示意图;图5是本申请实例提出的用户数据处理装置的结构示意图;图6是本申请实例提出的用户数据处理方法在广告应用场景下的流程图;图7是本申请实例提出的用户数据处理方法在广告应用场景下的计算模型参数的流程图;及图8是本申请实例提出的信息推送平台所在的计算设备的组成结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提出了一种用户数据处理方法,该方法可应用于图1所示的系统构架中。如图1所示,该系统构架包括:应用(APP)客户端101、媒体方服务器102、信息推送平台103和推送信息提供方客户端104,这些实体可以通过互联网105进行通信。终端用户可以使用应用客户端101访问媒体方服务器102,比如:浏览网页或者观看在线视频等。当用户使用应用客户端101访问媒体方服务器102时,应用客户端101可以向信息推送平台103发出信息推送请求,信息推送平台103可以将与该信息推送请求相匹配的媒体内容(比如:图片、视频等)推送给应用客户端101。通过推送信息提供方客户端104,推送信息提供方可以将其要推送的媒体内容的素材上传到信息推送平台103。应用客户端101向信息推送平台103发出信息推送请求携带用户信息、展示位置信息和/或设备信息等,用户信息可以包括互联网用户在各种APP、网站上注册使用的各种账号,如:QQ等即时通讯号码、e-mail地址、微信账号、微博账号、淘宝账号等。信息推送平台103将与信息推送请求相匹配的媒体内容推送给应用客户端101时,可以根据用户历史访问信息的记录,计算用户对不同信息的兴趣值,从而在推送信息时,推送用户更感兴趣的信息。当上述媒体内容为广告时,图1所示的系统构架可以为实现互联网广告投放的系统构架,其中,信息推送平台103可以为广告投放平台,推送信息提供方可以为广告主。具体地,对于一个使用应用客户端101的客户,根据该用户对各类广告的兴趣值,信息推送平台103推送用户更感兴趣的广告,从而能够进行更有效的广告投送。计算用户对各种信息感兴趣的融合兴趣值的过程是将不同数据源构建的用户画像自动融合的过程,随着对各种用户行为数据的持续挖掘和探索,基于不同数据源的用户画像数量不断增加。目前计算用户的融合兴趣的过程为:依据经验人为设定每一个用户画像i的权重Wi,将一个用户的来自不同数据源的用户画像上的标签按照语意映射到不同的信息类目上,将用户映射到同一信息类目上的多个兴趣标签依据每一个兴趣标签来自的用户画像的权重Wi加权相加,计算融合兴趣。目前的兴趣融合方法存在以下缺陷:权重设置包含很强的主观因素,可能导致权重设置不合理。人为确定兴趣特征的权重,虽然可以借助如信息增益等离线指标的计算得出,但采用这种方式对来自不同数据源的用户画像进行加权,很难找到全局最优的赋值策略。此外人为设置权重,很难做到标签粒度的权重定制,只能基于数据源层面,为数据源总体赋权。基于上述技术问题,本申请提出一种用户数据处理方法,该方法可应用于信息推送平台,如图2所示,该方法包括以下步骤:步骤201:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值。在本步骤中,选取多个用户作为样本,获取每一个用户的对多条信息的访问记录的用户行为记录数据,并根据所述用户行为记录数据确定每一个用户的指示值,所述指示值用于表征对应用户是否对信息感兴趣。对于所述用户行为记录数据,终端用户在使用应用客户端访问媒体方服务器时,应用客户端将用户访问过哪些信息的行为记录下来并存储成用户行为记录数据,信息推送平台可以从应用客户端本文档来自技高网...
用户数据处理方法及装置

【技术保护点】
1.一种用户数据处理方法,其特征在于,包括:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。

【技术特征摘要】
1.一种用户数据处理方法,其特征在于,包括:获取多个用户分别在指定时间段内对多条信息的访问记录,基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值;针对所述多个用户中的每个用户,根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值,创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据;其中,所述多个用户对应的各个兴趣标签被划分到多个信息类目下,每一兴趣标签对应一个信息类目;构建概率估计模型,其中,所述概率估计模型用于确定一用户对信息感兴趣的概率,所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数;基于所述概率估计模型,根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数;针对任一用户对应的任一信息类目,根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数,计算该用户对该信息类目的兴趣值。2.根据权利要求1所述的方法,其中,所述根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数,包括:基于所述概率估计模型,利用所述各组样本数据中每个用户对应的各兴趣标签的访问量统计值,确定每个用户对信息感兴趣的概率;其中,所确定的每个用户的所述概率与该用户对应的各兴趣标签的权重参数及其对应的各信息类目的权重参数相关;根据所述确定的每个用户对信息感兴趣的概率,计算产生所述多个用户对应的多个指示值的概率,所确定的所述概率与每一兴趣标签的权重参数和每一信息类目的权重参数相关;基于最大似然法,使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值。3.根据权利要求2所述的方法,其中,所述使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值包括:对所述每一兴趣标签的权重参数和每一信息类目的权重参数赋初值;设置学习率λ;根据迭代公式迭代求解所述每一兴趣标签的权重参数wt和每一信息类目的权重参数wg,直至所述每一兴趣标签的权重参数和每一信息类目的权重参数收敛,其中为产生所述多个用户对应的多个指示值的概率的对数,其中N为选取的抽样用户的个数,yi为第i个用户的指示值,p代表某个用户对信息感兴趣的概率,WG代表信息类目的权重向量,是一个G维的向量,G为信息类目总数,WT代表兴趣标签的权重向量,是一个T维的向量,T为所有兴趣标签的个数;将所述收敛的每一兴趣标签的权重参数和每一信息类目的权重参数的取值确定为每一兴趣标签的权重参数和每一信息类目的权重参数的取值。4.根据权利要求1所述的方法,其特征在于,所述概率估计模型为二分类算法模型。5.根据权利要求4所述的方法,其特征在于,所述二分类算法模型为以下公式表征的逻辑斯蒂回归算法模型:其中p代表一个用户对信息感兴趣的概率,wg代表信息类目g的权重参数,WG代表信息类目的权重向量,是一个G维的向量,G为信息类目总数;t∈wg代表兴趣标签t为信息类目g中的兴趣标签;xt代表兴趣标签t的访问统计值;wt代表兴趣标签t...

【专利技术属性】
技术研发人员:蔡业首汤煌张小鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1