本申请公开了一种在线训练模型的方法、装置、电子设备和存储介质,所述方法包括:响应于目标对象对应的推荐请求,确定目标对象对应的第一在线样本信息和第二在线样本信息,基于第一在线样本信息,对当前业务推荐模型进行模型训练,并基于第二在线样本信息,对当前业务推荐模型对应的当前数据校准模型进行模型训练。在训练后的模型的检测结果满足预设条件的情况下,进行模型更新操作。该方法可以同时对当前业务推荐模型和当前数据校准模型进行训练,并基于训练后校准模型对训练后推荐模型进行模型检测,降低了训练后推荐模型的偏差信息,提高了在线训练的准确性,提高了业务推荐的有效性。效性。效性。
【技术实现步骤摘要】
在线训练模型的方法、装置、电子设备和存储介质
[0001]本申请涉及人工智能
,尤其涉及在线训练模型的方法、装置、电子设备和存储介质。
技术介绍
[0002]在广告投放过程中,广告系统需要通过业务推荐模型预估每次广告请求的点击率、转化率,而业务推荐模型需要根据用户的曝光、点击、转化等行为进行训练。在现有技术中,往往采用离线训练的方式或者缺少协同训练的方案,从用户执行操作,到该操作数据经过收集、处理、提供给模型进行训练、最终模型部署这整个流程所需要的时间,影响了广告系统对用户的操作数据进行反应的及时性,从而影响了业务推荐模型准确性。
技术实现思路
[0003]本申请提供了在线训练模型的方法、装置、电子设备和存储介质,可以提高了业务推荐模型的准确性。
[0004]一方面,本申请提供了一种在线训练模型的方法,所述方法包括:
[0005]响应于目标对象对应的推荐请求,确定所述目标对象对应的第一在线样本信息,所述第一在线样本信息为基于所述目标对象、所述目标对象对应的目标业务资源和所述目标对象对应的当前业务操作信息得到的;
[0006]基于所述第一在线样本信息,对当前业务推荐模型进行模型训练,得到训练后推荐模型;
[0007]基于所述第一在线样本信息,确定所述目标对象对应的第二在线样本信息;
[0008]基于所述第二在线样本信息,对所述当前业务推荐模型对应的当前数据校准模型进行模型训练,得到训练后校准模型;
[0009]基于所述训练后校准模型,对所述训练后推荐模型进行模型检测,得到当前模型检测结果;
[0010]在所述当前模型检测结果满足预设条件的情况下,将所述当前业务推荐模型更新为所述训练后推荐模型,将所述当前数据校准模型更新为所述训练后校准模型。
[0011]另一方面提供了一种在线训练模型的装置,所述装置包括:
[0012]第一样本信息确定模块,用于响应于目标对象对应的推荐请求,确定所述目标对象对应的第一在线样本信息,所述第一在线样本信息为基于所述目标对象、所述目标对象对应的目标业务资源和所述目标对象对应的当前业务操作信息得到的;
[0013]推荐模型训练模块,用于基于所述第一在线样本信息,对当前业务推荐模型进行模型训练,得到训练后推荐模型;
[0014]第二样本信息确定模块,用于基于所述第一在线样本信息,确定所述目标对象对应的第二在线样本信息;
[0015]校准模型训练模块,用于基于所述第二在线样本信息,对所述当前业务推荐模型
对应的当前数据校准模型进行模型训练,得到训练后校准模型;
[0016]模型检测模块,用于基于所述训练后校准模型,对所述训练后推荐模型进行模型检测,得到当前模型检测结果;
[0017]模型更新模块,用于在所述当前模型检测结果满足预设条件的情况下,将所述当前业务推荐模型更新为所述训练后推荐模型,将所述当前数据校准模型更新为所述训练后校准模型。
[0018]另一方面提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种在线训练模型的方法。
[0019]另一方面提供了一种计算机可读存储介质,所述存储介质包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述所述的一种在线训练模型的方法。
[0020]另一方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的在线训练模型的方法。
[0021]本申请提供的在线训练模型的方法、装置、电子设备和存储介质,所述方法包括:响应于目标对象对应的推荐请求,确定目标对象对应的第一在线样本信息和第二在线样本信息,基于第一在线样本信息,对当前业务推荐模型进行模型训练,并基于第二在线样本信息,对当前业务推荐模型对应的当前数据校准模型进行模型训练。基于训练后校准模型,对训练后推荐模型进行模型检测,得到当前模型检测结果,在当前模型检测结果满足预设条件的情况下,进行模型更新操作。该方法可以同时对当前业务推荐模型和当前数据校准模型进行训练,并基于训练后校准模型对训练后推荐模型进行模型检测,降低了训练后推荐模型的偏差信息,提高了在线训练的准确性,提高了业务推荐的有效性。
附图说明
[0022]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例提供的一种在线训练模型的方法的应用场景示意图;
[0024]图2为本申请实施例提供的一种在线训练模型的方法的流程图;
[0025]图3为本申请实施例提供的一种在线训练模型的方法中确定第一在线样本信息的方法的流程图;
[0026]图4为本申请实施例提供的一种在线训练模型的方法中响应推荐请求的示意图;
[0027]图5为本申请实施例提供的一种在线训练模型的方法中对当前业务推荐模型进行模型训练的流程图;
[0028]图6为本申请实施例提供的一种在线训练模型的方法中确定第二在线样本信息的方法的流程图;
[0029]图7为本申请实施例提供的一种在线训练模型的方法中当前数据校准模型进行模型训练的流程图;
[0030]图8为本申请实施例提供的一种在线训练模型的方法中进行模型检测的流程图;
[0031]图9为本申请实施例提供的一种在线训练模型的方法中模型管理与上线模块的示意图;
[0032]图10为本申请实施例提供的一种在线训练模型的方法触发回滚操作的流程图;
[0033]图11为本申请实施例提供的一种在线训练方法在执行时对应的分布式服务器的示意图;
[0034]图12为本申请实施例提供的一种在线训练模型的方法中模型训练的示意图;
[0035]图13为本申请实施例提供的一种在线训练模型的方法对应的模型训练界面示意图;
[0036]图14为本申请实施例提供的一种在线训练模型的方法中的设置待训练网络层的示意图;
[0037]图15为本申请实施例提供的一种在线训练模型的装置的结构示意图;
[0038]图16为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
[0039]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0040]在本申请的描述本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种在线训练模型的方法,其特征在于,所述方法包括:响应于目标对象对应的推荐请求,确定所述目标对象对应的第一在线样本信息,所述第一在线样本信息为基于所述目标对象、所述目标对象对应的目标业务资源和所述目标对象对应的当前业务操作信息得到的;基于所述第一在线样本信息,对当前业务推荐模型进行模型训练,得到训练后推荐模型;基于所述第一在线样本信息,确定所述目标对象对应的第二在线样本信息;基于所述第二在线样本信息,对所述当前业务推荐模型对应的当前数据校准模型进行模型训练,得到训练后校准模型;基于所述训练后校准模型,对所述训练后推荐模型进行模型检测,得到当前模型检测结果;在所述当前模型检测结果满足预设条件的情况下,将所述当前业务推荐模型更新为所述训练后推荐模型,将所述当前数据校准模型更新为所述训练后校准模型。2.根据权利要求1所述的在线训练模型的方法,其特征在于,所述基于所述训练后校准模型,对所述训练后推荐模型进行模型检测,得到当前模型检测结果包括:获取检测样本信息;将检测样本信息输入到所述训练后推荐模型中进行业务推荐处理,得到检测推荐指标信息;将所述检测推荐指标信息输入到所述训练后校准模型中进行数据校准,得到检测校准信息;基于所述检测推荐指标信息和所述检测校准信息,得到所述当前模型检测结果。3.根据权利要求1所述的在线训练模型的方法,其特征在于,所述方法还包括:在所述当前模型检测结果不满足预设条件的情况下,生成指示回滚所述训练后推荐模型的第一模型状态信息和指示回滚所述训练后校准模型的第二模型状态信息;响应于基于所述第一模型状态信息触发的回滚操作信息,对所述训练后推荐模型执行回滚操作;响应于基于所述第二模型状态信息触发的回滚操作信息,对所述训练后校准模型执行回滚操作。4.根据权利要求1所述的在线训练模型的方法,其特征在于,所述响应于目标对象对应的推荐请求,确定所述目标对象对应的第一在线样本信息包括:响应于所述目标对象对应的推荐请求,获取所述目标对象对应的对象属性信息;基于所述对象属性信息,从待推荐业务资源中确定与所述目标对象匹配的目标业务资源;基于所述目标业务资源的资源属性信息和所述对象属性信息,得到目标对象资源信息;基于在对所述目标业务资源执行推荐操作的过程中所述目标对象和所述目标业务资源分别对应的操作信息,得到所述当前业务操作信息;对所述目标对象资源信息和所述当前业务操作信息进行组合,得到所述第一在线样本信息。
5.根据权利要求4所述的在线训练模型的方法,其特征在于,所述基于所述第一在线样本信息,确定所述目标对象对应的第二在线样本信息包括:将所述第一在线样本信息输入到所...
【专利技术属性】
技术研发人员:仲崇禹,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。