用户数据的处理方法和装置制造方法及图纸

技术编号:8190959 阅读:179 留言:0更新日期:2013-01-10 01:51
本发明专利技术涉及一种用户数据的处理方法和装置。该方法主要包括:根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息;计算出所述有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息;将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息。利用本发明专利技术实施例,可以有效地获取用户的综合的没有产品偏向性的兴趣类别分布信息。

【技术实现步骤摘要】
用户数据的处理方法和装置
本专利技术涉及计算机应用
,尤其涉及一种用户数据的处理方法、以及一种实现该方法的装置。
技术介绍
目前,获取用户的兴趣数据的第一种方法为:基于用户主动输入的信息获取用户的兴趣数据,比如,根据用户在新浪微博或百度知道中主动输入的信息挖掘出用户的兴趣数据。上述现有技术中的获取用户的兴趣数据的方法的缺点为:依赖于用户的主动输入信息的行为,在用户不主动输入信息时,该方法无法获取用户的兴趣数据。获取用户的兴趣数据的第二种方法为:基于用户在单一产品中的行为数据获取用户的兴趣数据。例如Google搜索引擎中,通过记录分析特定用户在本应用中使用行为,例如检索的搜索词、点击的查询结果来挖掘用户的兴趣数据;在百度知道中通过分析用户提出、回答问题的类别来挖掘用户的兴趣数据。上述现有技术中的获取用户的兴趣数据的方法的缺点为:该方法只是分析用户在单一产品中的行为数据,会造成获取的用户兴趣数据有产品偏向性。
技术实现思路
本专利技术的实施例提供了一种用户数据的处理方法和装置,以实现有效地获取用户的综合的无偏向的兴趣数据。一种用户数据的处理方法,包括:根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息;计算出所述有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息;将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息。一种用户数据的处理装置,包括:有偏向兴趣类别分布信息获取模块,用于根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息;无偏向兴趣类别分布信息获取模块,用于计算出所述有偏向兴趣类别分布信息获取模块所获取的有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息;兴趣类别分布信息综合模块,用于将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例通过计算用户在某种产品上的有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,得到所述用户在所述产品上的无偏向的兴趣类别分布信息,再将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,从而可以有效地获取用户的综合的没有产品偏向性的兴趣类别分布信息。附图说明图1为本专利技术实施例一提供的一种用户数据的处理方法的流程示意图;图2为本专利技术实施例二提供的一种用户数据的处理方法的原理示意图图3为本专利技术实施例二提供的一种用户数据的处理方法的流程示意图;图4为本专利技术实施例三提供的一种用户数据的处理装置的具体结构图;图5为本专利技术实施例三提供的另一种用户数据的处理装置的具体结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图,以对本专利技术实施例进行清楚、完整地描述人员。实施例一该实施例提供的一种用户数据的处理方法的处理流程如图1所示,具体包括以下步骤11~13。步骤11、根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息。预先设定包括多种兴趣类别的兴趣类别体系,获取用户在某种产品中的行为数据,通过设定的映射方法得到所述行为数据所对应的所述兴趣类别体系中的多种兴趣类别和每种兴趣类别的权重值。根据所述多种兴趣类别和每种兴趣类别的权重值,构造出所述用户在所述产品中的有偏向的兴趣类别分布信息。步骤12、计算出所述有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息。根据某种产品上设定数量的用户的行为数据对应的有偏向的兴趣类别分布信息,以及该产品包含的用户兴趣影响特性,确定该产品的用户兴趣背景分布信息。通过相对熵散度衡量方法计算出上述用户在某种产品上的有偏向的兴趣类别分布信息与上述某种产品的用户兴趣背景分布信息之间的差异值,将所述差异值作为所述用户在所述产品上的无偏向的兴趣类别分布信息。分别计算出用户在多种产品上的无偏向的兴趣类别分布信息。步骤13、将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息。根据经验值设定用户在每种产品上的无偏向的兴趣类别分布信息对应的线性组合参数;或者,基于支持向量机方法学习得到用户在每种产品上的无偏向的兴趣类别分布信息对应的线性组合参数;根据每种兴趣类别分布信息对应的线性组合参数,使用线性组合方式将用户在每种产品上的兴趣类别分布信息叠加在一起,得到所述用户的综合的兴趣类别分布信息。实施例二该实施例提供的一种用户数据的处理方法的原理示意图如图2所示,具体处理流程如图3所示,具体包括以下步骤31~34。步骤31、计算出用户在某种产品中的行为数据所对应的多种兴趣类别和每种兴趣类别的权重值。该实施例采用传统分类方法设定用户行为数据的兴趣类别体系,该兴趣类别体系主要包括:体育、娱乐、财经、科技、汽车、旅行、房产、女性、健康、游戏、教育、动漫、图书、星座、视频和儿童共16个兴趣类别。在获取了用户在某种产品中的行为数据后,根据上述设定的兴趣类别体系,通过设定的映射方法得到上述行为数据所对应的多种兴趣类别和每种兴趣类别的权重值。上述映射方法可以包括:tag(标签)集合映射方法或者贝叶斯分类器映射方法。比如,分别获取了用户Q在下列5种产品中的行为数据:1、QQ印象分类兴趣数据;2、Qzone个人档数据;3、腾讯微博用户填写的兴趣tag;4、SoSo查询日志数据;5、问问中参与的问题数据等。对于用户Q在上述1、2或3种产品中的行为数据,用户Q和一个封闭tag集合对应,该tag集合中包括多种类别的tag。可以预先设定一个完整的tag集合中的每种类别的tag和上述兴趣类别体系中的各个兴趣类别的对应关系,然后,根据用户Q对应的tag集合查询上述对应关系,得到用户Q对应的tag集合所对应的各种兴趣类别,将每种兴趣类别的权重设为一个统一的数值。对于上述用户Q在上述4或5种产品中的行为数据,该行为数据通常为文本数据,比如,用户Q最近一段时间内查询的信息,提出或回答的问问中的问题内容。可以将上述行为数据输入到贝叶斯分类器中,该贝叶斯分类器经过映射处理后,输出上述行为数据对应的各个兴趣类别和每个兴趣类别对应的后验概率,该后验概率即为兴趣类别的权重。上述贝叶斯分类器是基于贝叶斯公式:将具有特征F的用户对于兴趣类别C的后验概率计算转化为类别C下各特征F的条件概率密度函数与类别C的先验概率的乘积,而后两者都可以在有类别标注的训练数据上利用最大似然估计获得。步骤32、根据用户在某种产品中的行为数据所对应的多种兴趣类别和每种兴趣类别的权重值,构造出用户在某种产品中的有偏向的兴趣类别分布信息。比如,如图2所示,根据用户Q在产品S中的行为数据构造出用户Q在产品S中的无偏向的兴趣类别分布信息。进一步地,对于用户Q在上述1、2或3种产品中的行为数据,根据上述用户Q对应的tag集合所对应的各种兴趣类别,以及每种兴趣类别的权重,构成出用本文档来自技高网...
用户数据的处理方法和装置

【技术保护点】
一种用户数据的处理方法,其特征在于,包括:根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息;计算出所述有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息;将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息。

【技术特征摘要】
1.一种用户数据的处理方法,其特征在于,包括:根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息;计算出所述有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息;其中,所述用户兴趣背景分布信息是指设定数量的用户在所述产品中的行为数据,所述产品的用户兴趣背景分布信息是通过计算设定数量用户在该产品上的兴趣类别分布信息的平均值而得到的;将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息。2.根据权利要求1所述的用户数据的处理方法,其特征在于,所述的根据用户在某种产品中的行为数据,计算出所述用户在所述产品上的有偏向的兴趣类别分布信息,包括:预先设定包括多种兴趣类别的兴趣类别体系;获取用户在某种产品中的行为数据,通过设定的映射方法得到所述行为数据所对应的所述兴趣类别体系中的多种兴趣类别和每种兴趣类别的权重值;根据所述多种兴趣类别和每种兴趣类别的权重值,构造出所述用户在所述产品中的有偏向的兴趣类别分布信息。3.根据权利要求1所述的用户数据的处理方法,其特征在于,所述的方法还包括:根据某种产品上设定数量的用户的行为数据对应的有偏向的兴趣类别分布信息,确定该产品的用户兴趣背景分布信息,再根据该产品中包含的用户兴趣影响特性,对该产品的用户兴趣背景分布信息中相应兴趣类别的权重值进行调整,而得到最终的该产品的用户兴趣背景分布信息。4.根据权利要求2所述的用户数据的处理方法,其特征在于,所述的计算出所述有偏向的兴趣类别分布信息与所述产品的用户兴趣背景分布信息之间的差异值,根据所述差异值得到所述用户在所述产品上的无偏向的兴趣类别分布信息,包括:通过相对熵散度衡量方法计算出用户在某种产品上的行为数据所对应的有偏向的兴趣类别分布信息与上述某种产品的用户兴趣背景分布信息之间的差异值,将所述差异值作为所述用户在所述产品上的无偏向的兴趣类别分布信息;分别计算出用户在多种产品上的无偏向的兴趣类别分布信息。5.根据权利要求1或2或3或4所述的用户数据的处理方法,其特征在于,所述的将所述用户在多种产品上的无偏向的兴趣类别分布信息进行综合,获取所述用户的综合的兴趣类别分布信息,包括:根据经验值设定用户在每种产品上的无偏向的兴趣类别分布信息对应的线性组合参数;或者,基于支持向量机方法学习得到用户在每种产品上的无偏向的兴趣类别分布信息对应的线性组合参数;根据每种兴趣类别分布信息对应的线性组合参数,使用线性组合方式将用户在每种产品上的兴趣类别分布信息叠加在一起,得到所述用户的综合的兴趣类别分布信息。6.一种用户数据的处理装置,其特征在于,...

【专利技术属性】
技术研发人员:邸楠刘玉璇肖慧贾自艳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1