基于流式数据的自动化层级探索方法和装置制造方法及图纸

技术编号:29254006 阅读:20 留言:0更新日期:2021-07-13 17:24
本发明专利技术涉及数据探索方法领域,具体涉及基于流式数据的自动化层级探索方法和装置,该方法基于流式计算框架,包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端用户行为数据、通过用户行为数据触发新物品候选集更新;新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前一较低层级新物品候选集。本发明专利技术通过对线上实时流式数据进行处理,监控新物品候选集的曝光次数来自动触发候选集的更新,解决定时更新导致的曝光不均的问题;设置若干不同层级的新物品候选集,解决了新物品不同曝光次数下置信度相同的问题。

【技术实现步骤摘要】
基于流式数据的自动化层级探索方法和装置
本专利技术涉及数据探索方法领域,具体涉及基于流式数据的自动化层级探索方法和装置。
技术介绍
随着互联网技术和社会化网络的发展,每天都会有大量的信息比如文字资讯、图片、视频、商品、广告等发布到互联网上。从推荐系统或计算广告系统的角度来看,系统每时每刻都面临大量的新老用户、新老物品以及大量的用户行为数据。对于已知静态属性或有行为数据的用户或物品,需要对其进行建模、刻画其画像,然后在推荐中加以利用(Exploitation);而对于新的用户或物品,需要对其兴趣或者适用群体进行探索(Exploration),当然老的用户或物品也是需要探索的。探索(Exploration)和利用(Exploitation)问题在推荐系统和计算广告领域是一个常见的问题,一般通过多臂老虎机模型(计算机领域算法模型)来解决。它解决的问题是:一个人看到一排老虎机,在不清楚老虎机吐钱的概率并且在足够多的尝试机会前提下,选择哪个老虎机可以做到收益最大化。这里的老虎机类比推荐或广告中的物品,每一次摇臂尝试类比于物品曝光,吐钱就类本文档来自技高网...

【技术保护点】
1.基于流式数据的自动化层级探索方法,其特征在于,该方法基于流式计算框架,包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端用户行为数据、监控新物品候选集的曝光次数触发新物品候选集更新;所述新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前一较低层级新物品候选集。/n

【技术特征摘要】
1.基于流式数据的自动化层级探索方法,其特征在于,该方法基于流式计算框架,包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端用户行为数据、监控新物品候选集的曝光次数触发新物品候选集更新;所述新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前一较低层级新物品候选集。


2.根据权利要求1所述的基于流式数据的自动化层级探索方法,其特征在于,为每个层级的新物品候选集的样本设定曝光阈值,每个层级的新物品候选集内的曝光次数达到设定阈值后对新物品候选集内的样本全部进行更新。


3.根据权利要求2所述的基于流式数据的自动化层级探索方法,其特征在于,较低层级新物品候选集内样本的曝光阈值小于较高层级新物品候选集内样本的曝光阈值。


4.根据权利要求2所述的基于流式数据的自动化层级探索方法,其特征在于,较低层级新物品候选集的样本容量大于较高层级新物品候选集的样本容量。


5.根据权利要求3所述的基于流式数据...

【专利技术属性】
技术研发人员:郝俊禹陈运文文辉于敬纪达麒王文广
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1