一种训练模型生成方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:21225703 阅读:25 留言:0更新日期:2019-05-29 06:27
本发明专利技术实施例公开了一种训练模型生成方法,所述方法包括:对获取的第一待训练数据进行模型训练,得到第一训练模型参数;其中,所述第一待训练数据为第一训练样本的属性数据和所述第一训练样本在预设时间段内所产生的待处理信息的历史使用数据;获取第二待训练数据;其中,所述第二待训练数据为所述预估对象第二训练样本的属性数据和所述第二训练样本所产生的实时数据;所述第一训练样本的类型与所述第二训练样本的类型相同;对所述第二待训练数据进行模型训练,得到第二模型参数;基于所述第一模型参数和所述第二模型参数,生成目标训练模型。本发明专利技术的实施例同时还公开了一种训练模型生成装置、设备和计算机存储介质。

A Training Model Generation Method, Device, Equipment and Computer Storage Media

The embodiment of the present invention discloses a training model generation method, which includes: model training of the acquired first training data to obtain the first training model parameters; in which the attribute data of the first training data to be the first training sample and the historical use data of the information to be processed generated by the first training sample in a predetermined period of time are acquired; Two data to be trained; where the second data to be trained is the attribute data of the second training sample of the predicted object and the real-time data generated by the second training sample; the type of the first training sample is the same as that of the second training sample; the second model parameters are obtained by model training of the second data to be trained; and based on the first model parameters. The number and the second model parameters are used to generate the target training model. The embodiment of the present invention also discloses a training model generation device, device and computer storage medium.

【技术实现步骤摘要】
一种训练模型生成方法、装置、设备和计算机存储介质
本专利技术涉及计算机领域中的训练模型生成技术,尤其涉及一种训练模型生成方法、装置、设备和计算机存储介质。
技术介绍
效果广告提高收益的一个手段是通过提每一千次展示可以获得的广告收入(effectiveCostPerMille,eCPM),由于广告主对于每个点击的出价是固定的,所以提高点击率有助于提高收益。因此,生成预估广告点击率等的模型已经成为一种趋势。目前,智汇推效果广告的点击率预估模型训练中,包括离线训练和实时训练两个部分。实时训练的部分的一个重要方法是在线学习算法,现在常用的在线学习算法是谷歌提出的FTRL(FollowTheregularizedLeader)算法,此算法对数据复杂度要求是线性的,因此很适合大规模的在线学习,但该算法的学习率是递减的,也就是说算法运行一段时间后,会出现学习率过低从而导致模型无法很好地拟合数据的情况。为解决上述问题,现有技术提出了两种方案:一种是调整样本权重,每训练一条样本,降低样本所对应的属性取值的其他样本权重,即降低了历史数据的权重。另一种是模型的参数会在多个分片上被保存,防止数据丢失。但是,上述两种方案仍然存在大数据环境中,数据权重衰减会造成历史数据权重很低,甚至会丢弃大量历史数据,进而得到的训练模型效果较差,并且存在小流量的广告数据得不到充分训练的问题。
技术实现思路
为解决上述技术问题,本专利技术实施例期望提供一种训练模型生成方法、装置、设备和计算机存储介质,解决了现有生成训练模型的方法中得到的训练结果不准确的问题,实现了小流量的数据也可以得到充分的训练,保证了得到的训练模型的效果。本专利技术实施例的技术方案是这样实现的:第一方面,提供一种训练模型生成方法,所述方法包括:对获取的第一待训练数据进行模型训练,得到第一模型参数;其中,所述第一待训练数据为第一训练样本的属性数据和所述第一训练样本在预设时间段内所产生的历史数据;获取第二待训练数据;其中,所述第二待训练数据为第二训练样本的属性数据和所述第二训练样本所产生的实时数据;所述第一训练样本的类型与所述第二训练样本的类型相同;对所述第二待训练数据进行模型训练,得到第二模型参数;基于所述第一模型参数和所述第二模型参数,生成目标训练模型。第二方面,提供一种训练模型生成装置,所述装置包括:第一训练单元、获取单元、第二训练单元和生成单元,其中:所述第一训练单元,用于对获取的第一待训练数据进行模型训练,得到第一模型参数;其中,所述第一待训练数据是预估对象在预设时间段内所产生的历史数据;所述获取单元,用于获取第二待训练数据;其中,所述第二待训练数据为所述预估对象所产生的实时数据;所述第二训练单元,用于对所述第二待训练数据进行模型训练,得到第二模型参数;所述生成单元,用于基于所述第一模型参数和所述第二模型参数,生成目标训练模型。第三方面,提供一种训练模型生成设备,所述设备包括:存储器和处理器,其中:所述处理器,用于对获取的所述存储器中的第一待训练数据进行模型训练,得到第一模型参数;其中,所述第一待训练数据是预估对象在预设时间段内所产生的历史数据;获取第二待训练数据;其中,所述第二待训练数据为所述预估对象所产生的实时数据;对所述第二待训练数据进行模型训练,得到第二模型参数;基于所述第一模型参数和所述第二模型参数,生成目标训练模型。第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有一个或多个计算机程序,该计算机程序被处理器执行时实现上述训练模型生成方法的步骤。本专利技术的实施例所提供的训练模型生成方法、装置、设备和计算机存储介质,对获取的第一待训练数据进行模型训练得到第一模型参数,第一待训练数据为第一训练样本的属性数据和第一训练样本在预设时间段内所产生的历史数据,获取第二待训练数据,第二待训练数据为第二训练样本的属性数据和第二训练样本所产生的实时数据,第一训练样本的类型与第二训练样本的类型相同,并对第二待训练数据进行模型训练得到第二模型参数,之后基于第一模型参数和第二模型参数生成目标训练模型,这样,可以在对历史数据进行模型训练后,根据获取的模型参数与实时数据一起进行模型训练得到最终需要的训练模型,避免了数据权重的衰减,并且不会控制使用的数据量,解决了现有生成训练模型的方法中得到的训练结果不准确的问题,实现了小流量的数据也可以得到充分的训练,保证了得到的训练模型的效果。附图说明图1为本专利技术的实施例提供的一种训练模型生成方法的流程示意图;图2为本专利技术的实施例提供的一种在线训练模型的流程示意图;图3为本专利技术的实施例提供的另一种训练模型的流程示意图;图4为本专利技术的实施例提供的一种系统架构图;图5为本专利技术的实施例提供的一种训练模型生成装置的结构示意图;图6为本专利技术的实施例提供的一种训练模型生成设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。本专利技术的实施例提供一种训练模型生成方法,参照图1所示,该方法包括以下步骤:步骤101、对获取的第一待训练数据进行模型训练,得到第一模型参数。其中,第一待训练数据为第一训练样本的属性数据和第一训练样本在预设时间段内所产生的历史数据。在本专利技术的其它实施例中,步骤101对获取的第一待训练数据进行模型训练得到第一模型参数可以由训练模型生成装置来实现;训练模型生成装置可以是用于训练数据生成训练模型的一种服务器。第一待训练数据为第一训练样本历史运行过程中在预设时间段内产生的可以用于进行模型训练的数据,预设时间段可以是根据实际的需求设置的一个时间段,例如可以是距离当前时间五天内的时间。第一训练样本可以是任何需要进行模型训练的样本,例如可以是广告、视频、金融产品等;第一待训练数据可以包括用户数据、预估对象数据、用户与第一训练样本交互产生的数据等。如果第一训练样本是广告,第一待训练数据可以包括:用户性别、用户年龄、用户所在区域、广告主、广告的类型、广告中包括的图片、用户点击广告的次数、广告数等;其中,属性数据可以包括:用户性别、用户年龄、用户所在区域、广告主、广告的类型、广告中包括的图片、广告数等;在预设时间段内所产生的历史数据可以包括:用户点击广告的次数等。第一模型参数是在对第一待训练数据进行模型训练过程中,生成的与对应的训练模型相关的模型参数;在一种可行的实现方式中,第一模型参数可以是对第一待训练数据进行离线的模型训练后生成的。步骤102、获取第二待训练数据。其中,第二待训练数据为第二训练样本的属性数据和第二训练样本所产生的实时数据。在本专利技术的其它实施例中,步骤102获取第二待训练数据可以由训练模型生成装置来实现;第二待训练数据与第一待训练数据不同,第二待训练数据可以是第二训练样本在实时运行过程中产生的数据,可以是一种实时数据。第一待训练数据和第二待训练数据是同一种类型的第二训练样本对应的数据。第二待训练数据也可以包括用户数据、第二训练样本数据、用户与第二训练样本交互产生的数据等。步骤103、对第二待训练数据进行模型训练,得到第二模型参数。其中,步骤103对第二待训练数据进行模型训练得到第二模型参数可以由训练模型生成装置来实现;第二模型参数是在对第二待训练数据进行模型训练过程中,生成的与对应本文档来自技高网...

【技术保护点】
1.一种训练模型生成方法,其特征在于,所述方法包括:对获取的第一待训练数据进行模型训练,得到第一模型参数;其中,所述第一待训练数据为第一训练样本的属性数据和所述第一训练样本在预设时间段内所产生的历史数据;获取第二待训练数据;其中,所述第二待训练数据为第二训练样本的属性数据和所述第二训练样本所产生的实时数据;所述第一训练样本的类型与所述第二训练样本的类型相同;对所述第二待训练数据进行模型训练,得到第二模型参数;基于所述第一模型参数和所述第二模型参数,生成目标训练模型。

【技术特征摘要】
1.一种训练模型生成方法,其特征在于,所述方法包括:对获取的第一待训练数据进行模型训练,得到第一模型参数;其中,所述第一待训练数据为第一训练样本的属性数据和所述第一训练样本在预设时间段内所产生的历史数据;获取第二待训练数据;其中,所述第二待训练数据为第二训练样本的属性数据和所述第二训练样本所产生的实时数据;所述第一训练样本的类型与所述第二训练样本的类型相同;对所述第二待训练数据进行模型训练,得到第二模型参数;基于所述第一模型参数和所述第二模型参数,生成目标训练模型。2.根据权利要求1所述的方法,其特征在于,所述对获取的第一待训练数据进行模型训练,得到第一模型参数,包括:对所述第一待训练数据进行模型训练,得到第一训练模型;获取所述第一训练模型的第一模型指标;其中,所述第一模型指标用于描述所述第一训练模型的准确性;对所述第一模型指标进行校验,若所述第一模型指标校验成功,获取所述第一训练模型的所述第一模型参数。3.根据权利要求2所述的方法,其特征在于,所述对第一模型指标进行校验,包括:将第一预设数据输入所述第一训练模型,得到所述第一模型指标;其中,所述第一预设数据是用于校验所述第一模型指标的数据;若所述第一模型指标的值大于第一预设数值,确定所述第一模型指标校验成功。4.根据权利要求1所述的方法,其特征在于,所述对所述第二待训练数据进行模型训练,得到第二模型参数,包括:获取所述第二待训练数据的统计参数的值;对所述统计参数的值进行校验,若所述统计参数的值校验成功,对所述第二待训练数据进行模型训练得到所述第二模型参数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述统计参数的值校验失败,从预设模型参数中获取与所述第二待训练数据匹配的第三模型参数;其中,所述第三模型参数是与产生所述第二待训练数据的时间距离最近的待训练数据生成的;基于所述第三模型参数和所述第一模型参数,生成所述目标训练模型。6.根据权利要求4所述的方法,其特征在于,所述对统计参数的值进行校验,包括:确定所述统计参数的值与预设指标值之间的关系;若所述统计参数的值与所述预设指标值匹配,确定所述统计参数的值校验成功。7.根据权利要求1所述的方法,其特征在于,所述基于所述第一模型参数和所述第二模型参数,生成目标训练模型,包括:基于所述第二模型参数更新所述第一模型参数,得到更新模型参数;...

【专利技术属性】
技术研发人员:洪福兴陈戈黄东波姜磊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1