样本拼接训练方法及装置制造方法及图纸

技术编号：39309164 阅读：18 留言：0更新日期：2023-11-12 15:55

本申请公开了一种样本拼接训练方法及装置，方法包括：根据用户历史行为数据确定样本拼接的第一等待时间，并根据第一等待时间进行样本拼接，标注确定第一样本数据的正负样本；确定样本拼接的第二等待时间，并根据第二等待时间进行样本拼接，标注确定第二样本数据的正负样本；第二等待时间大于第一等待时间；利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练，以得到训练后的模型。利用第一等待时间和第二等待时间分别进行样本拼接，得到第一样本数据和第二样本数据，利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练，从而可以减少误标注导致的模型训练不准确。误标注导致的模型训练不准确。误标注导致的模型训练不准确。

全部详细技术资料下载

【技术实现步骤摘要】
样本拼接训练方法及装置

[0001]本申请涉及互联网
，具体涉及一种样本拼接训练方法及装置。

技术介绍

[0002]样本数据的准确与否，会大大影响了模型预测的准确性，如样本数据误标注，导致正负样本错误，模型预测不准确。
[0003]样本拼接是将多个数据进行关联和组合，对样本数据进行拼接的最大难题在于样本的实时性与准确性不可兼得。以游戏样本数据为例，游戏安装包一般为几个GB大小，下载游戏安装包的过程比较耗时，这使得游戏曝光和下载完成之间存在较大的时间差。若在下载完成后再进行样本拼接，得到的拼接后的样本数据准确率为100％，但是其时效性较差；若在曝光和下载完成之间的时间点进行样本拼接，则可能出现样本被误标注的问题，导致模型预测准确性较差，因此，需要一种样本拼接训练方法，保障样本准确、模型预测准确性的同时，也保障样本的实时性。

技术实现思路

[0004]鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的样本拼接训练方法及装置。
[0005]根据本申请实施例的第一方面，提供了一种样本拼接训练方法，其包括：
[0006]根据用户历史行为数据确定样本拼接的第一等待时间，并根据第一等待时间进行样本拼接，标注确定第一样本数据的正负样本；
[0007]确定样本拼接的第二等待时间，并根据第二等待时间进行样本拼接，标注确定第二样本数据的正负样本；第二等待时间大于第一等待时间；
[0008]利用第一样本数据的正负样本和第二样本数据的正负样本对模型...

【技术保护点】

【技术特征摘要】
1.一种样本拼接训练方法，其包括：根据用户历史行为数据确定样本拼接的第一等待时间，并根据所述第一等待时间进行样本拼接，标注确定第一样本数据的正负样本；确定样本拼接的第二等待时间，并根据所述第二等待时间进行样本拼接，标注确定第二样本数据的正负样本；所述第二等待时间大于所述第一等待时间；利用所述第一样本数据的正负样本和所述第二样本数据的正负样本对模型进行混合训练，以得到训练后的模型。2.根据权利要求1所述的方法，其中，所述根据用户历史行为数据确定样本拼接的第一等待时间进一步包括：获取用户历史第一行为的第一时间数据和用户历史第二行为的第二时间数据，计算得到所述第二时间数据与所述第一时间数据的时间差；根据用户的所述时间差，确定样本拼接的第一等待时间。3.根据权利要求2所述的方法，其中，所述根据用户的所述时间差，确定样本拼接的第一等待时间进一步包括：统计多个用户的时间差，得到各用户的时间差分布区间；将时间差分布区间中用户占比大于预设阈值的时间差作为样本拼接的第一等待时间。4.根据权利要求1
‑
3中任一项所述的方法，其中，所述根据所述第一等待时间进行样本拼接，标注确定第一样本数据的正负样本进一步包括：根据所述第一等待时间，生成第一Flink样本拼接任务，将收集的样本数据进行样本拼接；判断样本拼接得到的第一样本数据是否未包含用户第二行为；若否，标注为第一样本数据的负样本；若是，标注为第一样本数据的正样本。5.根据权利要求2所述的方法，其中，所述确定样本拼接的第二等待时间进一步包括：计算得到各个用户的第二时间数据与第一时间数据的时间差，获取最大时间差确定样本拼接的第二等待时间。6.根据权利要求5所述的方法，其中，所述根据所述第二等待时间进行样本拼接，标注确定第二样本数据的正负样本进一步包括：根据所述第二等待时间，生成第二Flink样本拼接任务，将收集的样本数据进行样本拼接；判断样本拼接得到的第二样本数据是否未包含用户第二行为；若否，标注为第二样本数据的负样本；若是，标注为第二样本数据的正样本。7.根据权利要求1所述的方法，其中，所述利用所述第一样本数据的正负样本...

【专利技术属性】
技术研发人员：王磊，
申请(专利权)人：上海幻电信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人