样本拼接训练方法及装置制造方法及图纸

技术编号:39309164 阅读:18 留言:0更新日期:2023-11-12 15:55
本申请公开了一种样本拼接训练方法及装置,方法包括:根据用户历史行为数据确定样本拼接的第一等待时间,并根据第一等待时间进行样本拼接,标注确定第一样本数据的正负样本;确定样本拼接的第二等待时间,并根据第二等待时间进行样本拼接,标注确定第二样本数据的正负样本;第二等待时间大于第一等待时间;利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练,以得到训练后的模型。利用第一等待时间和第二等待时间分别进行样本拼接,得到第一样本数据和第二样本数据,利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练,从而可以减少误标注导致的模型训练不准确。误标注导致的模型训练不准确。误标注导致的模型训练不准确。

【技术实现步骤摘要】
样本拼接训练方法及装置


[0001]本申请涉及互联网
,具体涉及一种样本拼接训练方法及装置。

技术介绍

[0002]样本数据的准确与否,会大大影响了模型预测的准确性,如样本数据误标注,导致正负样本错误,模型预测不准确。
[0003]样本拼接是将多个数据进行关联和组合,对样本数据进行拼接的最大难题在于样本的实时性与准确性不可兼得。以游戏样本数据为例,游戏安装包一般为几个GB大小,下载游戏安装包的过程比较耗时,这使得游戏曝光和下载完成之间存在较大的时间差。若在下载完成后再进行样本拼接,得到的拼接后的样本数据准确率为100%,但是其时效性较差;若在曝光和下载完成之间的时间点进行样本拼接,则可能出现样本被误标注的问题,导致模型预测准确性较差,因此,需要一种样本拼接训练方法,保障样本准确、模型预测准确性的同时,也保障样本的实时性。

技术实现思路

[0004]鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的样本拼接训练方法及装置。
[0005]根据本申请实施例的第一方面,提供了一种样本拼接训练方法,其包括:
[0006]根据用户历史行为数据确定样本拼接的第一等待时间,并根据第一等待时间进行样本拼接,标注确定第一样本数据的正负样本;
[0007]确定样本拼接的第二等待时间,并根据第二等待时间进行样本拼接,标注确定第二样本数据的正负样本;第二等待时间大于第一等待时间;
[0008]利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练,以得到训练后的模型。
[0009]可选地,根据用户历史行为数据确定样本拼接的第一等待时间进一步包括:
[0010]获取用户历史第一行为的第一时间数据和用户历史第二行为的第二时间数据,计算得到第二时间数据与第一时间数据的时间差;
[0011]根据用户的时间差,确定样本拼接的第一等待时间。
[0012]可选地,根据用户的时间差,确定样本拼接的第一等待时间进一步包括:
[0013]统计多个用户的时间差,得到各用户的时间差分布区间;
[0014]将时间差分布区间中用户占比大于预设阈值的时间差作为样本拼接的第一等待时间。
[0015]可选地,根据第一等待时间进行样本拼接,标注确定第一样本数据的正负样本进一步包括:
[0016]根据第一等待时间,生成第一Flink样本拼接任务,将收集的样本数据进行样本拼接;
[0017]判断样本拼接得到的第一样本数据是否未包含用户第二行为;
[0018]若否,标注为第一样本数据的负样本;
[0019]若是,标注为第一样本数据的正样本。
[0020]可选地,确定样本拼接的第二等待时间进一步包括:
[0021]计算得到各个用户的第二时间数据与第一时间数据的时间差,获取最大时间差确定样本拼接的第二等待时间。
[0022]可选地,根据第二等待时间进行样本拼接,标注确定第二样本数据的正负样本进一步包括:
[0023]根据第二等待时间,生成第二Flink样本拼接任务,将收集的样本数据进行样本拼接;
[0024]判断样本拼接得到的第二样本数据是否未包含用户第二行为;
[0025]若否,标注为第二样本数据的负样本;
[0026]若是,标注为第二样本数据的正样本。
[0027]可选地,利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练,以得到训练后的模型进一步包括:
[0028]利用第一样本数据的正负样本对模型进行增量训练,利用第二样本数据的正负样本对模型进行全量训练,并校准第一样本数据对模型的训练,得到训练后的模型。
[0029]可选地,用户历史行为数据包括用户历史操作游戏行为数据;用户历史第一行为的第一时间数据包括用户点击游戏的时间数据;用户历史第二行为的第二时间包括用户下载游戏的时间数据。
[0030]可选地,方法还包括:
[0031]对多个基础数据进行处理,得到对应的基础特征数据;
[0032]对基础特征数据按照不同维度进行特征组合,得到多维度特征数据;维度包括时间维度、标签维度和/或场景维度;
[0033]根据多维度特征数据确定对应的样本数据,以及,将样本数据划分至训练集、测试集或者验证集;其中,样本数据根据第一等待时间或者第二等待时间进行样本拼接得到。
[0034]根据本申请实施例的第二方面,提供了一种样本拼接训练装置,其包括:
[0035]第一拼接模块,适于根据用户历史行为数据确定样本拼接的第一等待时间,并根据第一等待时间进行样本拼接,标注确定第一样本数据的正负样本;
[0036]第二拼接模块,适于确定样本拼接的第二等待时间,并根据第二等待时间进行样本拼接,标注确定第二样本数据的正负样本;第二等待时间大于第一等待时间;
[0037]混合训练模块,适于利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练,以得到训练后的模型。
[0038]根据本申请实施例的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0039]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述样本拼接训练方法对应的操作。
[0040]根据本申请实施例的第四方面,提供了一种计算机存储介质,所述存储介质中存
储有至少一可执行指令,所述可执行指令使处理器执行如上述样本拼接训练方法对应的操作。
[0041]根据本申请的提供的样本拼接训练方法及装置,利用第一等待时间和第二等待时间分别进行样本拼接,得到第一样本数据和第二样本数据,利用第一样本数据的正负样本和第二样本数据的正负样本对模型进行混合训练,从而可以减少误标注导致的模型训练不准确,且根据用户历史行为数据确定的第一等待时间,也保障了第一样本数据的实时性。
[0042]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0043]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0044]图1示出了根据本申请一个实施例的样本拼接训练方法的流程图;
[0045]图2示出了根据本申请另一个实施例的样本拼接训练方法的流程图;
[0046]图3示出了根据本申请一个实施例的样本拼接训练装置的结构示意图;
[0047]图4示出了根据本申请一个实施例的一种计算设备的结构示意图。
具体实施方式
[0048]下面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本拼接训练方法,其包括:根据用户历史行为数据确定样本拼接的第一等待时间,并根据所述第一等待时间进行样本拼接,标注确定第一样本数据的正负样本;确定样本拼接的第二等待时间,并根据所述第二等待时间进行样本拼接,标注确定第二样本数据的正负样本;所述第二等待时间大于所述第一等待时间;利用所述第一样本数据的正负样本和所述第二样本数据的正负样本对模型进行混合训练,以得到训练后的模型。2.根据权利要求1所述的方法,其中,所述根据用户历史行为数据确定样本拼接的第一等待时间进一步包括:获取用户历史第一行为的第一时间数据和用户历史第二行为的第二时间数据,计算得到所述第二时间数据与所述第一时间数据的时间差;根据用户的所述时间差,确定样本拼接的第一等待时间。3.根据权利要求2所述的方法,其中,所述根据用户的所述时间差,确定样本拼接的第一等待时间进一步包括:统计多个用户的时间差,得到各用户的时间差分布区间;将时间差分布区间中用户占比大于预设阈值的时间差作为样本拼接的第一等待时间。4.根据权利要求1

3中任一项所述的方法,其中,所述根据所述第一等待时间进行样本拼接,标注确定第一样本数据的正负样本进一步包括:根据所述第一等待时间,生成第一Flink样本拼接任务,将收集的样本数据进行样本拼接;判断样本拼接得到的第一样本数据是否未包含用户第二行为;若否,标注为第一样本数据的负样本;若是,标注为第一样本数据的正样本。5.根据权利要求2所述的方法,其中,所述确定样本拼接的第二等待时间进一步包括:计算得到各个用户的第二时间数据与第一时间数据的时间差,获取最大时间差确定样本拼接的第二等待时间。6.根据权利要求5所述的方法,其中,所述根据所述第二等待时间进行样本拼接,标注确定第二样本数据的正负样本进一步包括:根据所述第二等待时间,生成第二Flink样本拼接任务,将收集的样本数据进行样本拼接;判断样本拼接得到的第二样本数据是否未包含用户第二行为;若否,标注为第二样本数据的负样本;若是,标注为第二样本数据的正样本。7.根据权利要求1所述的方法,其中,所述利用所述第一样本数据的正负样本...

【专利技术属性】
技术研发人员:王磊
申请(专利权)人:上海幻电信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1