用户行为数据的处理方法及装置制造方法及图纸

技术编号:15840552 阅读:35 留言:0更新日期:2017-07-18 16:48
本发明专利技术公开了一种用户行为数据的处理方法及装置。其中,该方法包括:获取用户行为数据,确定用户对应每个维度上的数据集合所包含的检索项的偏好分值在获取待定位的搜索词之后,根据搜索词查询得到与搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值;根据每个用户与搜索词之间的耦合关系所确定的行为权重值,确定待定位的搜索词所定位的用户组。本发明专利技术解决了单纯的通过结构化数据来实现人群定向,定位结果不够准确的技术问题。

Method and device for processing user behavior data

The invention discloses a method and a device for processing user behavior data. Among them, the method includes: obtaining the user behavior data, determine the user corresponding to each dimension of the data set contains the search term preference score after acquisition to be positioned according to the search terms and search word query multiple positioning has a corresponding relationship with the search term search, and access to each search term weights corresponding to each location the dimension of the set of data values; according to each dimension of the data set contains the search term preference score and get each retrieval weights corresponding to each dimension of the data set value, calculated behavior weights coupling relationship between each user and the search term by the value of weight according to the coupling relationship between behavior; between each user and the search term value determined by determining the user group to be positioned by positioning the search term. The invention solves the technical problem of simply realizing the crowd orientation through the structured data and the positioning result is not accurate enough.

【技术实现步骤摘要】
用户行为数据的处理方法及装置
本专利技术涉及计算机领域,具体而言,涉及一种用户行为数据的处理方法及装置。
技术介绍
目前,用户在使用互联网产品(例如在门户网站进行购物)时会产生大量的结构化数据,商家往往会通过上述结构化数据来实现人群定向以此分析出用户的兴趣,比如,DMP的标签人群定向技术,利用用户的基础信息和基础行为,完成圈人打标定向的活动,进一步向定向的用户组推送广告或应用。这里需要说明的,在用户使用互联网产品时也会产生大量的非结构化数据(例如文本数据),同上述结构化数据相比,文本数据中的用户的评论、标题也可以更加反映出用户更加细粒度的兴趣偏好,从文本数据中挖掘的商业信息会更有价值,因此,在相关技术中,单纯的通过上述结构化数据来实现人群定向,定位结果不够准确。针对上述单纯的通过结构化数据来实现人群定向,定位结果不够准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种用户行为数据的处理方法及装置,以至少解决单纯的通过结构化数据来实现人群定向,定位结果不够准确的技术问题。根据本专利技术实施例的一个方面,提供了一种用户行为数据的处理方法,包括:获取用户行为数据,其中,用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据搜索词查询得到与搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值;根据每个用户与搜索词之间的耦合关系所确定的行为权重值,确定待定位的搜索词所定位的用户组。根据本专利技术实施例的另一方面,还提供了一种用户行为数据的处理装置,包括:第一获取单元,用于获取用户行为数据,其中,用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;第一确定单元,用于确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;第二获取单元,用于在获取待定位的搜索词之后,根据搜索词查询得到与搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;第三获取单元,根据每个用户在每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值;第二确定单元,根据每个用户与搜索词之间的耦合关系所确定的行为权重值,确定待定位的搜索词所定位的用户组。在本专利技术实施例中,采用获取用户行为数据,其中,用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据搜索词查询得到与搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据每个维度上的数据集合所包含的检索项的偏好分值和获取每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与搜索词之间的耦合关系所确定的行为权重值;根据每个用户与搜索词之间的耦合关系所确定的行为权重值,确定待定位的搜索词所定位的用户组,解决了单纯的通过结构化数据来实现人群定向,定位结果不够准确的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种用户行为数据的处理方法的计算机终端的硬件结构框图;图2是根据本专利技术实施例的一种用户行为数据的处理方法的流程图;图3是根据本专利技术实施例的一种可选地用户行为数据的处理方法的示意图;图4是根据本专利技术实施例的一种可选地用户行为数据的处理方法的示意图;图5是根据本专利技术实施例的一种用户行为数据的处理装置的结构示意图;图6是根据本专利技术实施例的一种可选地用户行为数据的处理装置的结构示意图;图7是根据本专利技术实施例的一种可选地用户行为数据的处理装置的结构示意图;图8是根据本专利技术实施例的一种可选地用户行为数据的处理装置的结构示意图;以及图9是根据本专利技术实施例的一种用户行为数据的处理方法的计算机终端的硬件结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中专业术语解释如下:ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。LR:Logisticregression的简称,一种常用的线性分类器。SVM:支持向量机SVM(SupportVectorMachine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。Lucene:Lucene是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。实施例1根据本专利技术实施例,还提供了一种用户行为数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例一所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。本文档来自技高网
...
用户行为数据的处理方法及装置

【技术保护点】
一种用户行为数据的处理方法,其特征在于,包括:获取用户行为数据,其中,所述用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,所述访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据在所述每个维度上的数据集合所包含的检索项的偏好分值和获取所述每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与所述搜索词之间的耦合关系所确定的行为权重值;根据所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值,确定所述待定位的搜索词所定位的用户组。

【技术特征摘要】
1.一种用户行为数据的处理方法,其特征在于,包括:获取用户行为数据,其中,所述用户行为数据包括多个用户访问目标对象之后所产生的访问数据集合,所述访问数据集合至少包括如下三个维度上的数据集合:关键词集合、属性信息集合和分类信息集合;确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,其中,每个维度上的数据集合包含至少一个检索项;在获取待定位的搜索词之后,根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项,并获取每个定位检索项对应每个维度上的数据集合的权重值;根据在所述每个维度上的数据集合所包含的检索项的偏好分值和获取所述每个定位检索项对应每个维度上的数据集合的权重值,计算得到每个用户与所述搜索词之间的耦合关系所确定的行为权重值;根据所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值,确定所述待定位的搜索词所定位的用户组。2.根据权利要求1所述的方法,其特征在于,确定用户对应每个维度上的数据集合所包含的检索项的偏好分值,包括:分别获取所述关键词集合中包含的至少一个第一检索项、所述属性信息集合中包含的至少一个第二检索项和所述分类信息集合中包含的至少一个第三检索项;分别统计每个维度上的数据集合中检索项的人均访问次数,以及所述用户访问所述每个维度上的数据集合中检索项的访问次数;根据所述每个维度上的数据集合中检索项的人均访问次数,以及所述用户访问所述每个维度上的数据集合中检索项的访问次数,计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值。3.根据权利要求2所述的方法,其特征在于,根据所述每个维度上的数据集合中检索项的人均访问次数,以及所述用户访问所述每个维度上的数据集合中检索项的访问次数,计算得到所述用户对应每个维度上的数据集合所包含的检索项的偏好分值:通过如下计算公式计算得到所述用户对应任意一个维度上的数据集合所包含的检索项的偏好分值tf(t,d):偏好分其中,wi为在第i个维度上的数据集合中发生访问行为的权重值,Ni为在第i个维度上的数据集合中所述用户对检索项t执行所述访问行为后所统计的访问次数;ni为在第i个维度上的数据集合中检索项t的人均访问次数,检索项t为数据集合中的任意一个检索项,其中,所述访问行为包括如下任意一种类型:点击、收藏和点评。4.根据权利要求3所述的方法,其特征在于,在获取待定位的搜索词之后,根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项,并获取所述每个定位检索项对应每个维度上的数据集合的权重值,包括:获取所述待定位的搜索词,并根据所述搜索词查询得到与所述搜索词具有对应关系的多个定位检索项;根据查询得到的所述多个定位检索项,确定所述搜索词对应所述每个维度上的数据集合的维度关系;根据所述搜索词对应所述每个维度上的数据集合的维度关系,计算得到所述每个定位检索项对应每个维度上的数据集合的权重值。5.根据权利要求4所述的方法,其特征在于,通过如下计算公式确定所述搜索词对应所述每个维度上的数据集合的维度关系:其中,A表示三个维度上的数据集合中包含任意一个所述搜索词的数据集合,B表示三个维度上的数据集合中包含任意一个定位检索项t的数据集合,w为所述搜索词w与检索项t的相关性。6.根据权利要求5所述的方法,其特征在于,通过如下计算公式计算得到所述每个定位检索项对应每个维度上的数据集合的权重值:其中,所述r(w,t)为所述搜索词对应所述每个维度上的数据集合的维度关系,w为所述搜索词w与检索项t的相关性,I(w)为所述搜索词在文本中的词频。7.根据权利要求6所述的方法,其特征在于,获取所述待定位的搜索词的步骤包括:在接收到查询用户输入的关键词之后,确定所述输入的关键词为所述待定位的搜索词;或者,在接收到所述查询用户输入的文本之后,对所述文本进行分词处理,所述分词处理得到的至少一个关键词为所述待定位的搜索词。8.根据权利要求7所述的方法,其特征在于,在所述定位检索项为多个文档中分词根据所述每个维度上的数据集合所包含的检索项的偏好分值和所述每个定位检索项对应每个维度上的数据集合的权重值,计算得到所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值,包括:获取所述定位检索项在所述用户行为数据中的IDF值idf(t);获取所述定位检索项在多个文档中的最高权重值coord(q,d);将同一个文档中查询的所述搜索词的归一化处理,得到归一化的搜索词分值queryNorm(q,d);所述定位检索项在所述多个文档的权重值进行归一化处理,得到多个文档的归一分值norm(t.field);通过如下计算公式获取所述每个用户与所述搜索词之间的耦合关系所确定的行为权重值Score(q,d):Score(q,d)=coord(q,d)*queryNorm(q,d)*∑t∈qtf(t,d)*idf2(t)*t.boost*normt.field,其中,tft,d为所述用户对应每个维度上的数据集合所包含的检索项的偏好分值,t.boost为所述每个定位检索项对应每个维度上的数据集合的权重值。9.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到所述定位检索项在所述用户行为数据中的IDF值idf(t):10.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到所述定位检索项在多个文档中的最高权重值coord(q,d):11.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到归一化的搜索词分值queryNorm(q,d):12.根据权利要求8所述的方法,其特征在于,通过如下计算公式计算得到多个文档的归一分值norm(t.field):其中,所述域为所述访问数据集合中任意一个维度上的数据集合,f.boost为每个维度上的数据集合的权重值。13.一种用...

【专利技术属性】
技术研发人员:周强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1