评估标签数据的方法和装置制造方法及图纸

技术编号:21514854 阅读:21 留言:0更新日期:2019-07-03 09:18
本发明专利技术公开了一种评估标签数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据多个待评估标签数据向用户进行特定信息展示;在展示效果数据符合预设的第一判别条件时,将待评估标签数据评估为合格;和/或,根据待评估标签数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为初始效果数据;将待评估标签数据、与待评估标签数据中的用户标识进行错位处理,根据错位处理得到的数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为错位效果数据;在初始效果数据优于错位效果数据时,将待评估标签数据评估为合格。该实施方式能够在没有标注数据的情况下,对标签数据的质量进行准确评估。

Method and Device for Evaluating Label Data

【技术实现步骤摘要】
评估标签数据的方法和装置
本专利技术涉及计算机
,尤其涉及一种评估标签数据的方法和装置。
技术介绍
在计算机
,为了实现推送信息的精确匹配,往往需要进行用户画像。用户画像指的是根据用户的社会属性、生活习惯和消费行为等信息抽象出一个标签化的用户模型,也就是说为用户设置一包含多种标签下多个标签值的标签数据。例如,根据某用户的社会属性与消费行为,可以为该用户生成如下标签数据“性别:男;年龄:32岁;地域:山西;用户标识:XXXXX;兴趣:运动、科学”;其中,性别、年龄、地域、用户标识、兴趣为不同的标签,男、32岁、山西、XXXXX、运动、科学为相应标签下的标签值。实际应用中,为了将推送信息精确定位到目标用户,一般需要从多个渠道获取海量的标签数据,而如何评估标签数据的质量就成为一个亟待解决的问题。目前,常见的方法是利用已携带用户准确标签值的标注数据,将待评估标签数据与标注数据进行对比以实现评估。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:1.标签数据的评估完全依赖于标注数据,而在具体应用中标注数据的数量较少,难以对海量的标签数据进行有效评估。2.标注数据一般是固定的,但用户的标签数据往往会随着其行为发生改变,因此基于标注数据的评估方法难以实现标签数据质量的长期监控。
技术实现思路
有鉴于此,本专利技术实施例提供一种评估标签数据的方法和装置,能够在没有标注数据的情况下,对标签数据的质量进行准确评估。为实现上述目的,根据本专利技术的一个方面,提供了一种评估标签数据的方法。本专利技术实施例的评估标签数据的方法包括:根据多个待评估标签数据向用户进行特定信息展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格;和/或,根据所述待评估标签数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为初始效果数据;其中,任一待评估标签数据中包括用户标识;将所述待评估标签数据、与所述待评估标签数据中的用户标识进行错位处理,根据错位处理得到的数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为错位效果数据;在初始效果数据优于错位效果数据时,将所述待评估标签数据评估为合格。可选地,所述根据多个待评估标签数据向用户进行特定信息展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格包括:根据所述待评估标签数据获取候选特定信息,在候选特定信息中确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格;和/或,将所述待评估标签数据接入预先建立的排序模型;根据预设的召回策略获取候选特定信息,在该候选特定信息中利用该排序模型确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格。可选地,所述特定信息为广告。可选地,所述根据所述待评估标签数据获取候选特定信息,在候选特定信息中确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格包括:在预设的第一比例的流量,根据所述待评估标签数据获取候选广告,在候选广告中利用预设的排序策略确定投放广告向用户展示;在预设的第二比例的流量,随机获取候选广告,在该候选广告中利用该排序策略确定投放广告向用户展示;其中,第一比例小于第二比例;在第一比例流量的展示效果数据优于第二比例流量的展示效果数据时:在预设的第三比例的流量,根据所述待评估标签数据获取候选广告,在候选广告中利用该排序策略确定投放广告向用户展示;在预设的第四比例的流量,随机获取候选广告,在该候选广告中利用该排序策略确定投放广告向用户展示;其中,第三比例大于第四比例;在第三比例流量的展示效果数据优于第四比例流量的展示效果数据时,将所述待评估标签数据评估为合格。可选地,所述方法进一步包括:在所述在第三比例流量的展示效果数据优于第四比例流量的展示效果数据时,将所述待评估标签数据确定为合格之后,在全部流量根据所述待评估标签数据获取候选广告,在该候选广告中利用该排序策略确定投放广告向用户展示。可选地,所述根据预设的召回策略获取候选特定信息,在该候选特定信息中利用该排序模型确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格包括:在预设的第五比例的流量,根据预设的召回策略获取候选广告;在该候选广告中,利用接入所述待评估标签数据的排序模型确定投放广告向用户展示;在预设的第六比例的流量,根据该召回策略获取候选广告;在该候选广告中,利用预先建立的排序模型确定投放广告向用户展示;其中,第五比例小于第六比例;在第五比例流量的展示效果数据优于第六比例流量的展示效果数据时:在预设的第七比例的流量,根据预设的召回策略获取候选广告;在该候选广告中,利用接入所述待评估标签数据的排序模型确定投放广告向用户展示;在预设的第八比例的流量,根据该召回策略获取候选广告;在该候选广告中,利用预先建立的排序模型确定投放广告向用户展示;其中,第七比例大于第八比例;在第七比例流量的展示效果数据优于第八比例流量的展示效果数据时,将所述待评估标签数据评估为合格。可选地,所述方法进一步包括:在所述在第七比例流量的展示效果数据优于第八比例流量的展示效果数据时,将所述待评估标签数据确定为合格之后,在全部流量根据预设的召回策略获取候选广告,在该候选广告中利用接入所述待评估标签数据的排序模型确定投放广告向用户展示。可选地,所述将所述待评估标签数据、与所述待评估标签数据中的用户标识进行错位处理,根据错位处理得到的数据向用户进行特定信息展示包括:建立存储待评估标签数据的标签池;接收对应于任一用户标识的请求,从标签池中随机选取一待评估标签数据与该用户标识进行匹配;将该用户标识对应的待评估标签数据存储在标签池的当前位置;响应于该请求,利用与该用户标识匹配的待评估标签数据进行广告展示。可选地,在根据多个待评估标签数据向用户进行特定信息展示之前,所述方法进一步包括:在预先建立的广告效果数据库中:将与所述待评估标签数据包括相同用户标识的数据确定为关联数据,将除关联数据之外的数据确定为非关联数据;比较关联数据以及非关联数据的展示效果数据;和/或,利用关联数据获取第一点击率预估模型,利用非关联数据获取第二点击率预估模型,比较第一点击率预估模型与第二点击率预估模型的接收者操作特征曲线下面积AUC指标。可选地,所述方法进一步包括:在所述待评估标签数据的评估结果符合预设的第二判别条件时,将所述待评估标签数据评估为优秀。可选地,所述方法进一步包括:对于评估为优秀的任一待评估标签数据,在预先建立的用户行为数据库中判断是否存在与该待评估标签数据包括相同用户标识的数据:若是,将该待评估标签数据确定为重定向用户数据;否则,将该待评估标签数据确定为非重定向用户数据;其中,任一重定向用户数据对应于用户行为数据库提供的初始标签数据;对于任一非重定向用户数据,利用相似度哈希Simhash算法确定与该非重定向用户数据的海明距离最小的重定向用户数据,将该重定向用户数据对应的初始标签数据与该非重定向用户数据进行关联。可选地,展示效果数据、初始效果数据或错位效果数据包括以下至少一种:特定信息展现量、特定信息点击量、基于特定本文档来自技高网...

【技术保护点】
1.一种评估标签数据的方法,其特征在于,包括:根据多个待评估标签数据向用户进行特定信息展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格;和/或根据所述待评估标签数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为初始效果数据;其中,任一待评估标签数据中包括用户标识;将所述待评估标签数据、与所述待评估标签数据中的用户标识进行错位处理,根据错位处理得到的数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为错位效果数据;在初始效果数据优于错位效果数据时,将所述待评估标签数据评估为合格。

【技术特征摘要】
1.一种评估标签数据的方法,其特征在于,包括:根据多个待评估标签数据向用户进行特定信息展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格;和/或根据所述待评估标签数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为初始效果数据;其中,任一待评估标签数据中包括用户标识;将所述待评估标签数据、与所述待评估标签数据中的用户标识进行错位处理,根据错位处理得到的数据向用户进行特定信息展示,将该特定信息展示的效果数据确定为错位效果数据;在初始效果数据优于错位效果数据时,将所述待评估标签数据评估为合格。2.根据权利要求1所述的方法,其特征在于,所述根据多个待评估标签数据向用户进行特定信息展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格包括:根据所述待评估标签数据获取候选特定信息,在候选特定信息中确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格;和/或将所述待评估标签数据接入预先建立的排序模型;根据预设的召回策略获取候选特定信息,在该候选特定信息中利用该排序模型确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格。3.根据权利要求2所述的方法,其特征在于,所述特定信息为广告。4.根据权利要求3所述的方法,其特征在于,所述根据所述待评估标签数据获取候选特定信息,在候选特定信息中确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格包括:在预设的第一比例的流量,根据所述待评估标签数据获取候选广告,在候选广告中利用预设的排序策略确定投放广告向用户展示;在预设的第二比例的流量,随机获取候选广告,在该候选广告中利用该排序策略确定投放广告向用户展示;其中,第一比例小于第二比例;在第一比例流量的展示效果数据优于第二比例流量的展示效果数据时:在预设的第三比例的流量,根据所述待评估标签数据获取候选广告,在候选广告中利用该排序策略确定投放广告向用户展示;在预设的第四比例的流量,随机获取候选广告,在该候选广告中利用该排序策略确定投放广告向用户展示;其中,第三比例大于第四比例;在第三比例流量的展示效果数据优于第四比例流量的展示效果数据时,将所述待评估标签数据评估为合格。5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:在所述在第三比例流量的展示效果数据优于第四比例流量的展示效果数据时,将所述待评估标签数据确定为合格之后,在全部流量根据所述待评估标签数据获取候选广告,在该候选广告中利用该排序策略确定投放广告向用户展示。6.根据权利要求3所述的方法,其特征在于,所述根据预设的召回策略获取候选特定信息,在该候选特定信息中利用该排序模型确定投放特定信息向用户展示;在展示效果数据符合预设的第一判别条件时,将所述待评估标签数据评估为合格包括:在预设的第五比例的流量,根据预设的召回策略获取候选广告;在该候选广告中,利用接入所述待评估标签数据的排序模型确定投放广告向用户展示;在预设的第六比例的流量,根据该召回策略获取候选广告;在该候选广告中,利用预先建立的排序模型确定投放广告向用户展示;其中,第五比例小于第六比例;在第五比例流量的展示效果数据优于第六比例流量的展示效果数据时:在预设的第七比例的流量,根据预设的召回策略获取候选广告;在该候选广告中,利用接入所述待评估标签数据的排序模型确定投放广告向用户展示;在预设的第八比例的流量,根据该召回策略获取候选广告;在该候选广告中,利用预先建立的排序模型确定投放广告向用户展示;其中,第七比例大于第八比例;在第七比例流量的展示效果数据优于第八比例流量的展示效果数据时,将所述待评估标签数据评估为合格。7.根据权利要求6所述的方法,其特征在于,所述方法进一步包括:在所述在第七比例流量的展示效果数据优于第八比例流量的展示效果数据时,将所述待评估标签数据确定为合格之后,在全部流量根据预设的召回策略获取候选广告,在该候选广告中利用接入所述待评估标签数据的排序模型确定投放广告向用户展示。8.根据权利要求3所述的方法,其特征在于,所述将所述待评估标签数据、与所述待评估标签数据中的用户标识进行错位处理,根据错位处理得到的数据向用户进行特定信息展示包括:建立存储待评估标签数据的标签池;接收对应于任一用户标识的请求,从标签池中随机选取一待评估标签数据与该用户标识进行匹配;将该用户标识对应的待评估标签数据存储在标签池的当前位置;响应于该请求,利用与该用户标识匹配的待评估标签数据进行广告展示。9.根据权利要求3所述的方法,其特征在于,在根据多个待评估标签数据向用户进行特定信息展示之前,所述方法进一步包括:在预先建立的广告效果数据库中:将与所述待评估标签数据包括相同用户标识的数据确定为关联数据,将除关联数据之外的数据确定为非关联数据;比较关联数据以及非关联数据的展示效果数据;和/或利用关联数据获取第一点击率预估模型,利用非关联数据获取第二点击率预估模型,比较第一点击率预估模型与第二点击率预估模型的接收者操作特征曲线下面积AUC指标。10.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:在所述待评估标签数据的评估结果符合预设的第二判别条件时,将所述待评估标签数据评估为优秀。11.根据权利要求10所述的方法,其特征在于,所述方法进一步包括:对于评估为优秀的任一待评估标签数据,在预先建立的用户行为数据库中判断是否存在与该待评估标签数据包括相同用户标识的数据:若是,将该待评估标签数据确定为重定向用户数据;否则,将该待评估标签数据确定为非重定向用户数据;其中,任一重定向用户数据对应于用户行为数据库提供的初始标签数据;对于任一非重定向用户数据,利用相似度哈希Simhash算法确定与该非重定向用户数据的海明距离最小的重定向用户数据,将该重定向用户数据对应的初始标签数据与该非重定向用户数据进行关联。12.根据权利要求1-11任一所述的方法,其特征在于,展示效果数据、初始效果数据或错位效果数据包括以下至少一种:特定信息展现量、特定信息点击量、基于特定信息的成交总额、以及基于特定信息的...

【专利技术属性】
技术研发人员:赫南黄坤陈敏郭谦陈英杰胡景贺卢忠浩张锐
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1