System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种样本数据搜集方法技术_技高网

一种样本数据搜集方法技术

技术编号:40177523 阅读:3 留言:0更新日期:2024-01-26 23:45
本发明专利技术的目的在于提供一种样本数据收集方法,包括:曝光内容等待时间T1,在所述时间T1届满时判断用户在所述T1时间内是否对所述内容进行操作,如果无操作,则生成所述用户未操作所述内容的样本数据;如果所述用户在所述时间T1内对所述内容进行了操作,则继续;等待时间T2,在所述时间T2届满时判断所述用户在所述时间T2内对所述内容是否进行了交互,如果有交互,则生成所述用户对所述内容操作且交互的样本数据;如果无交互,则生成所述用户对所述内容操作但无交互的样本数据;其中,在所述T1时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则立即结束本次样本收集流程。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,尤其涉及用于机器学习训练的样本数据的收集方法。


技术介绍

1、使用历史数据对机器学习模型进行训练,在广告投放、内容推荐、搜索结果排序等领域均有广泛的应用。在模型架构不变的情况下,训练效果严重依赖训练数据的量和及时性。训练数据多、越及时,训练的结果越理想。

2、常用的模型训练数据来源是用户对内容的操作历史数据。一方面,为了保证数据量,应当尽量收集用户对每一个内容的交互数据,且经过一定时间的积累。另一方面,为了尽可能保证模型使用最新的数据进行训练,又要求模型训练的数据需要及时更新,不能等待过久。这两个目的之间存在一定的矛盾。

3、以目前的推荐系统举例,面对上述矛盾的应对方式是折中:一方面对每个内容都进行收集,且收集时根据经验在内容曝光(或者称投放、展示)后留一个时间窗口,以便收集用户对内容的操作数据;另一方面,以天为单位,将一天内收集到的数据用于更新训练模型。以便保证数据的量和可用性的同时,将训练数据的时延控制在可接受范围(一天)内。

4、常用的训练数据收集流程如图1所示。对每一篇内容进行曝光后,进行如下操作:

5、步骤1:等待一个时间t1(通过统计用户的操作习惯确定,常规为20分钟),时间t1届满时判断用户在时间t1内是否对内容进行操作,如果无操作,则进入步骤11;如果用户有操作(例如点击),则进入步骤2;

6、步骤11:生成用户未点击内容的样本数据并存储;

7、步骤2:继续等待一个时间t2(常规也为20分钟),时间t1届满时判断用户在时间t2内对内容是否进行了进一步交互(例如点赞、分享、收藏等),如果有交互,则进入步骤21,如果无交互,则进入步骤22;

8、步骤21:生成用户对内容点击且交互的样本数据并存储;

9、步骤22:生成用户对内容点击但无交互的样本数据并存储。

10、上述方法的不足之处在于:如果用户在时间t内对内容进行操作的概率符合均匀分布,则上述两次等待的时间窗口导致收集一条样本数据的时延期望值为20分钟,最差情况可能到40分钟,大大影响了训练数据收集的效率。上述方法是仅将点击操作进行细分存储,而将其它的交互操作统一作为一类样本存储,如果一些场景下需要对用户的不同交互操作都分别生成样本,则所用步骤会更为复杂、时延会更为严重。


技术实现思路

1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种样本数据收集方法,包括:步骤1:曝光内容;步骤2:等待时间t1,在所述时间t1届满时判断用户在所述t1时间内是否对所述内容进行操作,如果无操作,则生成所述用户未操作所述内容的样本数据;如果所述用户在所述时间t1内对所述内容进行了操作,则继续;步骤3:等待时间t2,在所述时间t2届满时判断所述用户在所述时间t2内对所述内容是否进行了交互,如果有交互,则生成所述用户对所述内容操作且交互的样本数据;如果无交互,则生成所述用户对所述内容操作但无交互的样本数据;其中,在所述t1时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户未操作所述内容的样本数据,并立即结束等待,且不再执行所述步骤3。

2、优选地,上述样本数据收集方法中,在所述t2时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户对所述内容操作且未交互样本数据,并立即结束等待。

3、优选地,上述样本数据收集方法中,所述t1时间为10~25分钟。

4、优选地,上述样本数据收集方法中,所述t2时间为10~25分钟。

5、优选地,上述样本数据收集方法中,所述交互包括所述用户对所述内容的点赞,分享,收藏,评论中的任意一种。

本文档来自技高网...

【技术保护点】

1.一种样本数据收集方法,其特征在于,包括:

2.根据权利要求1所述的样本数据收集方法,其特征在于,在所述T2时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户对所述内容操作且未交互样本数据,并立即结束等待。

3.根据权利要求1所述的样本数据收集方法,其特征在于,所述T1时间为10~25分钟。

4.根据权利要求1所述的样本数据收集方法,其特征在于,所述T2时间为10~25分钟。

5.根据权利要求1所述的样本数据收集方法,其特征在于,所述交互包括所述用户对所述内容的点赞,分享,收藏,评论中的任意一种。

【技术特征摘要】

1.一种样本数据收集方法,其特征在于,包括:

2.根据权利要求1所述的样本数据收集方法,其特征在于,在所述t2时间内,同时监听是否有所述用户对新内容的曝光请求,如果有,则生成所述用户对所述内容操作且未交互样本数据,并立即结束等待。

3.根据权利要求1所述的样本数据...

【专利技术属性】
技术研发人员:祁明良
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1