The invention discloses a method and a device for processing user behavior data. Among them, the method includes: obtaining the user behavior data, determine the user corresponding to each dimension of the data set contains the search term preference score after acquisition to be positioned according to the search terms and search word query multiple positioning has a corresponding relationship with the search term search, and access to each search term weights corresponding to each location the dimension of the set of data values; according to each dimension of the data set contains the search term preference score and get each retrieval weights corresponding to each dimension of the data set value, calculated behavior weights coupling relationship between each user and the search term by the value of weight according to the coupling relationship between behavior; between each user and the search term value determined by determining the user group to be positioned by positioning the search term. The invention solves the technical problem of simply realizing the crowd orientation through the structured data and the positioning result is not accurate enough.
【技术实现步骤摘要】
用户行为数据的处理方法及装置
本专利技术涉及计算机领域,具体而言,涉及一种用户行为数据的处理方法及装置。
技术介绍
目前,用户在使用互联网产品(例如在门户网站进行购物)时会产生大量的结构化数据,商家往往会通过上述结构化数据来实现人群定向以此分析出用户的兴趣,比如,DMP的标签人群定向技术,利用用户的基础信息和基础行为,完成圈人打标定向的活动,进一步向定向的用户组推送广告或应用。这里需要说明的,在用户使用互联网产品时也会产生大量的非结构化数据(例如文本数据),同上述结构化数据相比,文本数据中的用户的评论、标题也可以更加反映出用户更加细粒度的兴趣偏好,从文本数据中挖掘的商业信息会更有价值,因此,在相关技术中,单纯的通过上述结构化数据来实现人群定向,定位结果不够准确。针对上述单纯的通过结构化数据来实现人群定向,定位结果不够准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种用户行为数据的处理方法及装置,以至少解决单纯的通过结构化数据来实现人群定向,定位结果不够准确的技术问题。根据本专利技术实施例的一个方面,提供了一种用户行为数据的处理方法,包括:获取用户行为数据,其中,用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据搜索词查询得到与搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据 ...
【技术保护点】
一种用户行为数据的处理方法,其特征在于,包括:获取用户行为数据,其中,所述用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,所述访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据在所述每个维度上的数据集合所包含的检索项的偏好分值和获取所述每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与所述搜索词之间的耦合关系所确定的行为权重值;根据所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值,确定所述待定位的搜索词所定位的用户组。
【技术特征摘要】
1.一种用户行为数据的处理方法,其特征在于,包括:获取用户行为数据,其中,所述用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,所述访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据在所述每个维度上的数据集合所包含的检索项的偏好分值和获取所述每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与所述搜索词之间的耦合关系所确定的行为权重值;根据所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值,确定所述待定位的搜索词所定位的用户组。2.根据权利要求1所述的方法,其特征在于,确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,包括:分别获取所述关键词集合中包含的至少一个第一检索项、所述属性信息集合中包含的至少一个第二检索项和所述分类信息集合中包含的至少一个第三检索项;分别统计每个维度上的数据集合中检索项的人均访问次数,以及所述用户访问所述每个维度上的数据集合中检索项的访问次数;根据所述每个维度上的数据集合中检索项的人均访问次数,以及所述用户访问所述每个维度上的数据集合中检索项的访问次数,计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值。3.根据权利要求2所述的方法,其特征在于,根据所述每个维度上的数据集合中检索项的人均访问次数,以及所述用户访问所述每个维度上的数据集合中检索项的访问次数,计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值:通过如下计算公式计算得到所述用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d):偏好分其中,wi为在第i个维度上的数据集合中发生访问行为的权重值,Ni为在第i个维度上的数据集合中所述用户对检索项t执行所述访问行为后所统计的访问次数;ni为在第i个维度上的数据集合中检索项t的人均访问次数,检索项t为数据集合中的任意一个检索项,其中,所述访问行为包括如下任意一种类型:点击、收藏和点评。4.根据权利要求3所述的方法,其特征在于,在获取待定位的搜索词之后,根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项,并获取所述每个定位检索项对应每个维度上的数据集合的权重值,包括:获取所述待定位的搜索词,并根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项;根据查询得到的所述多个定位检索项,确定所述搜索词对应所述每个维度上的数据集合的维度关系;根据所述搜索词对应所述每个维度上的数据集合的维度关系,计算得到所述每个定位检索项对应每个维度上的数据集合的权重值。5.根据权利要求4所述的方法,其特征在于,通过如下计算公式确定所述搜索词对应所述每个维度上的数据集合的维度关系:其中,A表示三个维度上的数据集合中包含任意一个所述搜索词的数据集合,B表示三个维度上的数据集合中包含任意一个定位检索项t的数据集合,w为所述搜索词w与检索项t的相关性。6.根据权利要求5所述的方法,其特征在于,通过如下计算公式计算得到所述每个定位检索项对应每个维度上的数据集合的权重值:其中,所述r(w,t)为所述搜索词对应所述每个维度上的数据集合的维度关系,w为所述搜索词w与检索项t的相关性,I(w)为所述搜索词在文本中的词频。7.根据权利要求6所述的方法,其特征在于,获取所述待定位的搜索词的步骤包括:在接收到查询用户输入的关键词之后,确定所述输入的关键词为所述待定位的搜索词;或者,在接收到所述查询用户输入的文本之后,对所述文本进行分词处理,所述分词处理得到的至少一个关键词为所述待定位的搜索词。8.根据权利要求7所述的方法,其特征在于,在所述定位检索项为多个文档中分词根据所述每个维度上的数据集合所包含的检索项的偏好分值和所述每个定位检索项对应每个维度上的数据集合的权重值,计算得到所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值,包括:获取所述定位检索项在所述用户行为数据中的IDF值idf(t);获取所述定位检索项在多个文档中的最高权重值coord(q,d);将同一个文档中查询的所述搜索词的归一化处理,得到归一化的搜索词分值queryNorm(q,d);所述定位检索项在所述多个文档的权重值进行归一化处理,得到多个文档的归一分值norm(t.field);通过如下计算公式获取所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值Score(q,d):Score(q,d)=coord(q,d)*queryNorm(q,d)*∑t∈qtf(t,d)*idf2(t)*t.boost*normt.field,其中,tft,d为所述用户对应每个维度上的数据集合所包含的检索项的偏好分值,t.boost为所述每个定位检索项对应每个维度上的数据集合的权重值。9.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到所述定位检索项在所述用户行为数据中的IDF值idf(t):10.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到所述定位检索项在多个文档中的最高权重值coord(q,d):11.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d):12.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到多个文档的归一分值norm(t.field):其中,所述域为所述访问数据集合中任意一个维度上的数据集合,f.boost为每个维度上的数据集合的权重值。13.一种用...
【专利技术属性】
技术研发人员:周强,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。