System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器学习领域,尤其涉及用于机器学习训练的样本数据的收集方法。
技术介绍
1、使用历史数据对机器学习模型进行训练,在广告投放、内容推荐、搜索结果排序等领域均有广泛的应用。在模型架构不变的情况下,训练效果严重依赖训练数据的量和及时性。训练数据多、越及时,训练的结果越理想。
2、常用的模型训练数据来源是用户对内容的操作历史数据。一方面,为了保证数据量,应当尽量收集用户对每一个内容的交互数据,且经过一定时间的积累。另一方面,为了尽可能保证模型使用最新的数据进行训练,又要求模型训练的数据需要及时更新,不能等待过久。这两个目的之间存在一定的矛盾。
3、以目前的推荐系统举例,面对上述矛盾的应对方式是折中:一方面对每个内容都进行收集,且收集时根据经验在内容曝光(或者称投放、展示)后留一个时间窗口,以便收集用户对内容的操作数据;另一方面,以天为单位,将一天内收集到的数据用于更新训练模型。以便保证数据的量和可用性的同时,将训练数据的时延控制在可接受范围(一天)内。
4、常用的训练数据收集流程如图1所示。对每一篇内容进行曝光后,进行如下操作:
5、步骤1:等待一个时间t1(通过统计用户的操作习惯确定,常规为20分钟),时间t1届满时判断用户在时间t1内是否对内容进行操作,如果无操作,则进入步骤11;如果用户有操作(例如点击),则进入步骤2;
6、步骤11:生成用户未点击内容的样本数据并存储;
7、步骤2:继续等待一个时间t2(常规也为20分钟),时间t1届满时判断用
8、步骤21:生成用户对内容点击且交互的样本数据并存储;
9、步骤22:生成用户对内容点击但无交互的样本数据并存储。
10、上述方法的不足之处在于:如果用户在时间t内对内容进行操作的概率符合均匀分布,则上述两次等待的时间窗口导致收集一条样本数据的时延期望值为20分钟,最差情况可能到40分钟,大大影响了训练数据收集的效率。上述方法是仅将点击操作进行细分存储,而将其它的交互操作统一作为一类样本存储,如果一些场景下需要对用户的不同交互操作都分别生成样本,则所用步骤会更为复杂、时延会更为严重。
技术实现思路
1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种样本数据收集方法,包括:步骤1:曝光内容;步骤2:等待时间t1,在所述时间t1届满时判断用户在所述t1时间内是否对所述内容进行操作,如果无操作,则生成所述用户未操作所述内容的样本数据;如果所述用户在所述时间t1内对所述内容进行了操作,则继续;步骤3:等待时间t2,在所述时间t2届满时判断所述用户在所述时间t2内对所述内容是否进行了交互,如果有交互,则生成所述用户对所述内容操作且交互的样本数据;如果无交互,则生成所述用户对所述内容操作但无交互的样本数据;其中,在所述t1时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户未操作所述内容的样本数据,并立即结束等待,且不再执行所述步骤3。
2、优选地,上述样本数据收集方法中,在所述t2时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户对所述内容操作且未交互样本数据,并立即结束等待。
3、优选地,上述样本数据收集方法中,所述t1时间为10~25分钟。
4、优选地,上述样本数据收集方法中,所述t2时间为10~25分钟。
5、优选地,上述样本数据收集方法中,所述交互包括所述用户对所述内容的点赞,分享,收藏,评论中的任意一种。
本文档来自技高网...【技术保护点】
1.一种样本数据收集方法,其特征在于,包括:
2.根据权利要求1所述的样本数据收集方法,其特征在于,在所述T2时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户对所述内容操作且未交互样本数据,并立即结束等待。
3.根据权利要求1所述的样本数据收集方法,其特征在于,所述T1时间为10~25分钟。
4.根据权利要求1所述的样本数据收集方法,其特征在于,所述T2时间为10~25分钟。
5.根据权利要求1所述的样本数据收集方法,其特征在于,所述交互包括所述用户对所述内容的点赞,分享,收藏,评论中的任意一种。
【技术特征摘要】
1.一种样本数据收集方法,其特征在于,包括:
2.根据权利要求1所述的样本数据收集方法,其特征在于,在所述t2时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户对所述内容操作且未交互样本数据,并立即结束等待。
3.根据权利要求1所述的样本数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。