一种预测广告点击率的方法和装置制造方法及图纸

技术编号:11328666 阅读:60 留言:0更新日期:2015-04-22 19:18
本发明专利技术公开了一种预测广告点击率的方法和装置,包括:步骤1)获取历史数据样本作为训练数据;利用随机森林方法选择出最有价值的特征,并排除掉无关或者相关性较小的特征;步骤2)利用回归模型对上述得到的去除无关或者相关性较小的特征后的训练数据进行广告点击率的预测。本发明专利技术采取了上述方案以后,能够利用的数据的范围大大提高,通过去除无关或者相关性较小的特征后,能够提高数据的利用效率;对于数据的缺失的问题,该方法对数据的缺失不敏感,部分数据的缺失,该方法也能得到较好的效果;对于无关特征的问题,该方法能够自动的确定出数据中的无关特征,从而能够到更加精确的广告点击率。

【技术实现步骤摘要】

本专利技术属于大数据计算领域,尤其涉及一种预测广告点击率的方法和装置
技术介绍
目前在广告点击率预估的过程中普遍运用了逻辑回归的方法来计算其点击率预 估值,但是,由于在广告点击率预估的方法中使用的是逻辑回归的方法,而这种方法对数 据的依赖性较大,如果数据呈现出线性的关系,则使用逻辑回归的方法预估广告点击率能 得到较好的效果,然而,对于非线性的数据,则该方法的效果就明显较差,目前在广告点 击率预估的相关方法中,将非线性的数据进行线性转变则大都是利用特征离散化并同时 进行0-1编码的方法,然而并没有对原始特征进行特征提取,排除无关特征,这种方法会 造成以下的缺点:1.数据的特征会成倍的增加,大量的无关的特征会出现,影响后续进行 广告点击率预估时的精度2.数据的特征增加,会导致一个很严重的问题,即占用大量的 内存3.整个过程并没有对无关特征进行选择,而且该方法的效果对数据的缺失很敏感, 部分数据的丢失会对利用逻辑回归的方法进行广告点击率预估的效果造成很大的影响。
技术实现思路
本方法是提出了一个思想及其具体的算法过程并用公式来表达.可以对现有的 广告点击率预估的方法进行更准备的处理,以得到更加有效的广告点击率预估值。 本专利技术解决上述技术问题所采取的技术方案如下: -种预测广告点击率的方法,包括: 步骤1)获取历史数据样本作为训练数据; 利用随机森林方法选择出最有价值的特征,并排除掉无关或者相关性较小的特 征; 步骤2)利用回归模型对上述得到的去除无关或者相关性较小的特征后的训练数 据进行广告点击率的预测。 进一步地,步骤1)中,获取历史数据样本作为训练数据;利用随机森林方法选择 出最有价值的特征,并排除掉无关或者相关性较小的特征,具体包括: 步骤11)获取历史数据样本作为训练数据, 该训练数据T= {x,y},x为训练样本,样本个数为n个,特征维数为m维,y为 对应的样本的标签;y e {〇, 1},其中,〇代表该广告没有被用户点击,1代表该广告被用户 点击; 步骤12)对以上训练数据的n个训练样本进行随机采样,数量也为n个,同时对 m维的特征也进行随机选择,得到一个d维的特征数据,且d〈m,并将所述d维的特征数据 作为新训练数据; 步骤13)重复上述步骤12)得到新训练数据的过程Q次,并对得到的每一个n*d 训练样本集进行建决策树的过程,得到Q个决策树; 步骤14)对所述Q个决策树进行分析,其中,每个决策树中利用到的特征即为相关 性最大的特征,没有使用到的特征即为无关特征,较少的即为相关性较小的特征。 进一步地,步骤2),利用回归模型对上述得到的去除无关或者相关性较小的特征 后的数据进行广告点击率的预测,具体包括:基于Logistic回归模型进行预测; P {y=11f (x)} =1/ (1+exp (- (w ? x+b))), (1) 其中,f(x)为通过logistic回归对广告的预测值,w为广告权重向量,x为去除无 关或者相关性较小的特征后的广告样本数据,P{y= l|f(x)}表示了通过预测值得到广告 真实被用户点击的后验概率值,这样通过上式得到一个新的广告样本被点击的概率。 进一步包括:步骤22)通过构建损失函数,利用梯度下降法得到w和b的值,损失 函数形式:【主权项】1. 一种预测广告点击率的方法,其特征在于,包括: 步骤1)获取历史数据样本作为训练数据; 利用随机森林方法选择出最有价值的特征,并排除掉无关或者相关性较小的特征; 步骤2)利用回归模型对上述得到的去除无关或者相关性较小的特征后的训练数据进 行广告点击率的预测。2. 根据权利要求1所述的预测广告点击率的方法,其特征在于,步骤1)中,获取历史数 据样本作为训练数据;利用随机森林方法选择出最有价值的特征,并排除掉无关或者相关 性较小的特征,具体包括: 步骤11)获取历史数据样本作为训练数据, 该训练数据T = {x,y},X为训练样本,样本个数为η个,特征维数为m维,y为对应 的样本的标签;y e {〇, 1},其中,〇代表该广告没有被用户点击,1代表该广告被用户点击; 步骤12)对以上训练数据的η个训练样本进行随机采样,数量也为η个,同时对m维 的特征也进行随机选择,得到一个d维的特征数据,且d〈m,并将所述d维的特征数据作为 新训练数据; 步骤13)重复上述步骤12)得到新训练数据的过程Q次,并对得到的每一个n*d训练 样本集进行建决策树的过程,得到Q个决策树; 步骤14)对所述Q个决策树进行分析,其中,每个决策树中利用到的特征即为相关性最 大的特征,没有使用到的特征即为无关特征,较少的即为相关性较小的特征。3. 根据权利要求1或2所述的预测广告点击率的方法,其特征在于,步骤2),利用回归 模型对上述得到的去除无关或者相关性较小的特征后的数据进行广告点击率的预测,具 体包括:基于Logistic回归模型进行预测; P {y = 11 f (x)} = I/ (1+exp (- (w · x+b))), (I) 其中,f (X)为通过logistic回归对广告的预测值,w为广告权重向量,x为去除无关或 者相关性较小的特征后的广告样本数据,P{y = l|f(x)}表示了通过预测值得到广告真实 被用户点击的后验概率值,通过上式得到一个新的广告样本被点击的概率。4. 根据权利要求3所述的预测广告点击率的方法,其特征在于,进一步包括:步骤22) 通过构建损失函数,利用梯度下降法得到w和b的值,损失函数形式:其中,L(w,b)为通过公式(1)得到广告被点击的概率的损失值,通过公式(2)得到通 过logistic回归得到的预测模型的损失函数,yi为第i个样本的标签值,y i e {〇, 1},〇代 表这个广告没有被用户点击,1代表该广告被用户点击,P(Yi)代表的是通过公式(1)得到 的广告被点击的概率值,L(w,b)值是正值,越接近于0,则代表通过随机森林的方法处理 数据后进行logistic回归预测广告被点击的这个模型越有效; 步骤23)将以上用户点击广告的概率值应用于所述新训练数据中,并计算得到被点击 的概率值。5. -种预测广告点击率的装置,其特征在于,包括: 特征挑选单元,用于获取历史数据样本作为训练数据; 用于利用随机森林方法选择出最有价值的特征,并排除掉无关或者相关性较小的特 征; 预测单元,用于利用回归模型对上述得到的去除无关或者相关性较小的特征后的训练 数据进行广告点击率的预测。6. 根据权利要求5所述的预测广告点击率的装置,其特征在于,所述特征挑选单元,用 于获取历史数据样本作为训练数据;利用随机森林方法选择出最有价值的特征,并排除掉 无关或者相关性较小的特征,具体包括: 步骤11)获取历史数据样本作为训练数据, 该训练数据T = {x,y},X为训练样本,样本个数为η个,特征维数为m维,y为对应 的样本的标签;y e {〇, 1},其中,〇代表该广告没有被用户点击,1代表该广告被用户点击; 步骤12)对以上训练数据的η个训练样本进行随机采样,数量也为η个,同时对m维 的特征也进行随机选择,得到一个d维的特征数据,且d〈m,并将所述d维的特征数据作为 新训练数据;本文档来自技高网...

【技术保护点】
一种预测广告点击率的方法,其特征在于,包括:步骤1)获取历史数据样本作为训练数据;利用随机森林方法选择出最有价值的特征,并排除掉无关或者相关性较小的特征;步骤2)利用回归模型对上述得到的去除无关或者相关性较小的特征后的训练数据进行广告点击率的预测。

【技术特征摘要】

【专利技术属性】
技术研发人员:王玮
申请(专利权)人:北京掌阔技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1