一种正则化的预测方法、装置、电子设备及介质制造方法及图纸

技术编号:20868043 阅读:23 留言:0更新日期:2019-04-17 09:38
本发明专利技术公开一种正则化的预测方法、装置、电子设备及介质,预测方法包括:获取特征集合中每个特征的出现频次;采用正则化计算,根据所述特征集合生成训练样本;其中,所述正则化计算中的惩罚因子与所述每个特征的出现频次反相关;将所述训练样本输入机器学习模型进行模型训练;通过训练完成的所述机器学习模型进行预测。本申请提供的方法和装置用以解决现有技术中采用机器学习模型进行预测时,传统的正则化计算方法存在的对精度损失较大的技术问题,实现了提高预测精度的技术效果。

【技术实现步骤摘要】
一种正则化的预测方法、装置、电子设备及介质
本专利技术涉及计算机
,尤其涉及一种正则化的预测方法、装置、电子设备及介质。
技术介绍
随着科技的进步,各种预测技术层出不穷,其中,采用机器学习模型进行的预测由于其预测精度高,且能在样本量持续增加的情况下,进行持续的训练完善,得到了大量的应用。为了提高机器学习模型的训练精确度,往往会采用正则化去避免模型预测中的过拟合。然而,以广告投放的地域点击率预测为例,其样本的特征分布不均匀,长尾明显,采用现有的正则化计算方法,会较大的影响预测精度。可见,当前采用机器学习模型进行预测时,传统的正则化计算方法存在对精度损失较大,预测精度较低的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的正则化的预测方法、装置、电子设备及介质。第一方面,提供一种正则化的预测方法,包括:获取特征集合中每个特征的出现频次;采用正则化计算,根据所述特征集合生成训练样本;其中,所述正则化计算中的惩罚因子与所述每个特征的出现频次反相关;将所述训练样本输入机器学习模型进行模型训练;通过训练完成的所述机器学习模型进行预测。可选的,所述采用正则化计算,根据所述特征集合生成训练样本,包括:采用正则因子的计算公式∑λiWiWi,根据所述特征集合生成训练样本,其中,Wi为所述特征变量,λi为所述惩罚因子,下标i为特征的编号。可选的,当所述特征集合为广告投放后不同地域点击率特征的集合时,所述特征变量为不同地域的点击率,所述出现频次为特征集合中各地域的出现次数。可选的,所述采用正则化计算,根据所述特征集合生成训练样本,包括:采用逻辑回归模型的计算公式和正则因子∑λiwiwi,根据所述特征集合生成训练样本,其中,Xi为特征值。可选的,当所述特征集合为广告投放后不同地域点击率特征的集合时,所述特征值为地域的代码值,所述特征变量为不同地域的点击率,所述出现频次为特征集合中各地域的出现次数。可选的,所述通过训练完成的所述机器学习模型进行预测,包括:接收目标地域的代码值作为输入参数,输出所述目标地域对应的点击率。可选的,所述惩罚因子的计算公式为:λi=λ/Ni或者λi=λ/Ni2,其中,λi为所述惩罚因子,λ为常规惩罚因子,Ni为所述出现频次,下标i为特征的编号。可选的,所述机器学习模型是基于逻辑回归模型或深度模型生成。第二方面,提供一种正则化的预测装置,包括:获取模块,用于获取特征集合中每个特征的出现频次;生成模块,用于采用正则化计算,根据所述特征集合生成训练样本;其中,所述正则化计算中的惩罚因子与所述每个特征的出现频次反相关;训练模块,用于将所述训练样本输入机器学习模型进行模型训练;预测模块,用于通过训练完成的所述机器学习模型进行预测。可选的,所述生成模块还用于:采用正则因子的计算公式∑λiWiWi,根据所述特征集合生成训练样本,其中,Wi为所述特征变量,λi为所述惩罚因子,下标i为特征的编号。可选的,当所述特征集合为广告投放后不同地域点击率特征的集合时,所述特征变量为不同地域的点击率,所述出现频次为特征集合中各地域的出现次数。可选的,所述生成模块还用于:采用逻辑回归模型的计算公式和正则因子∑λiWiWi,根据所述特征集合生成训练样本,其中,Xi为特征值。可选的,当所述特征集合为广告投放后不同地域点击率特征的集合时,所述特征值为地域的代码值,所述特征变量为不同地域的点击率,所述出现频次为特征集合中各地域的出现次数。可选的,预测模块还用于:接收目标地域的代码值作为输入参数,输出所述目标地域对应的点击率。可选的,所述惩罚因子的计算公式为:λi=λ/Ni或者λi=λ/Ni2,其中,λi为所述惩罚因子,λ为常规惩罚因子,Ni为所述出现频次,下标i为特征的编号。可选的,所述机器学习模型是基于逻辑回归模型或深度模型生成。第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一所述的方法。第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一所述的方法。本申请实施例中提供的技术方案,至少具有如下技术效果或优点:本申请实施例提供的正则化的预测方法、装置、电子设备及介质,采用正则化计算,来将特征集合生成训练样本,并设置正则化计算中的惩罚因子与特征集合中每个特征的出现频次反相关,避免了传统正则化中采用相同的惩罚因子,与实际的预测场景不符合,导致的精度低的技术问题。并将采用新的正则化计算生成的训练样本输入机器学习模型进行模型训练,通过训练完成的机器学习模型进行预测,以提高预测精确度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例中正则化的预测方法的流程图;图2为本专利技术实施例中正则化的预测装置的结构示意图;图3为本专利技术实施例中电子设备的结构示意图;图4为本专利技术实施例中存储介质的结构示意图。具体实施方式本申请实施例中的技术方案,总体思路如下:先获取特征集合中每个特征的出现频次,再采用正则化计算,来将特征集合生成训练样本,并设置正则化计算中的惩罚因子与特征集合中每个特征的出现频次反相关,以使惩罚因子的设置与实际的预测场景更符合。并将采用新的正则化计算生成的训练样本输入机器学习模型进行模型训练,以提高模型的预测精确度。下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一本实施例提供了一种正则化的预测方法,请参考图1,图1为本申请实施例中正则化的预测方法的流程图,包括:步骤S101,获取特征集合中每个特征的出现频次;步骤S102,采用正则化计算,根据所述特征集合生成训练样本;其中,所述正则化计算中的惩罚因子与所述每个特征的出现频次反相关;步骤S103,将所述训练样本输入机器学习模型进行模型训练;步骤S104,通过训练完成的所述机器学习模型进行预测。需要说明的是,本实施例提供的正则化的预测方法可以应用于广告点击率预测、广告观看时长预测、骚扰信息预测拦截等等预测领域。其适用于样本特征分布不均匀的各种预测场景,通过优化惩罚因子与特征的出现频次反相关来提高预测精度。其应用的设备可以是用户端或服务端,在此也不作限制。下面,结合图1详细介绍本申请实施例提供的方法的具体实施步骤:步骤S101,获取特征集合中每个特征的出现频次。具体来讲,不同的预测场景有不同的特征集合。举例来讲,需要预测广告投放在不同地域的点击率时,该特征集合为广告投放后不同地域点击率特征的集合,该特征集合中的每个特征元素可以包本文档来自技高网...

【技术保护点】
1.一种正则化的预测方法,其特征在于,包括:获取特征集合中每个特征的出现频次;采用正则化计算,根据所述特征集合生成训练样本;其中,所述正则化计算中的惩罚因子与所述每个特征的出现频次反相关;将所述训练样本输入机器学习模型进行模型训练;通过训练完成的所述机器学习模型进行预测。

【技术特征摘要】
1.一种正则化的预测方法,其特征在于,包括:获取特征集合中每个特征的出现频次;采用正则化计算,根据所述特征集合生成训练样本;其中,所述正则化计算中的惩罚因子与所述每个特征的出现频次反相关;将所述训练样本输入机器学习模型进行模型训练;通过训练完成的所述机器学习模型进行预测。2.如权利要求1所述的方法,其特征在于,所述采用正则化计算,根据所述特征集合生成训练样本,包括:采用正则因子的计算公式∑λiWiWi,根据所述特征集合生成训练样本,其中,Wi为所述特征变量,λi为所述惩罚因子,下标i为特征的编号。3.如权利要求2所述的方法,其特征在于,当所述特征集合为广告投放后不同地域点击率特征的集合时,所述特征变量为不同地域的点击率,所述出现频次为特征集合中各地域的出现次数。4.如权利要求2所述的方法,其特征在于,所述采用正则化计算,根据所述特征集合生成训练样本,包括:采用逻辑回归模型的计算公式和正则因子∑λiwiwi,根据所述特征集合生成训练样本,其中,Xi为特征值。5.如权利要求4所述的方法,其特征在于,当所述特征集合为广告投放后不同地域点击率特征的集合时,所述特征值为地域的代码值,所述特征变量...

【专利技术属性】
技术研发人员:袁大星
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1