点击率预估模型建立方法、装置及信息提供方法、系统制造方法及图纸

技术编号:12388938 阅读:69 留言:0更新日期:2015-11-25 22:17
本申请公开了一种点击率预估模型建立方法、装置及信息提供方法、系统,该方法包括:从与当前语言频道对应的历史数据中提取出基础特征,组合基础特征得到组合特征;根据基础特征和组合特征得到有效高阶特征,并计算有效高阶特征的权重;将有效高阶特征及其对应的权重带入到CTR计算公式中,得到当前语言频道的CTR预估模型。该方案实现建立每个语言频道的CTR预估模型,建立CTR预估模型的效率和CTR预估模型的准确性相对于现有的方式也有很大程度的提高。

【技术实现步骤摘要】

本申请涉及网络
,尤其涉及一种点击率(ClickThroughRatio,CTR)预估模型建立方法、装置及信息提供方法、系统。
技术介绍
随着电子商务的全球化发展,越来越多的电子商务网站采用多个语言频道,例如某电子商务网站可以同时提供中文、西班牙文、英文、法文、日文、韩文六个语言频道,由于面向地区的差异,这些语言频道中包含的信息可能不完全相同。若用户在电子商务网站上搜索需要的商品,可以通过搜索引擎输入搜索词(query),服务器根据该query挑选出相关的展示信息并对这些展示信息进行CTR预估,按照CTR预估结果将排序后的展示信息提供给用户,以供用户选择。将展示信息在电子商务网站上被点击次数与被展示次数的比值定义为CTR,用来表征展示信息被关注的程度。CTR预估是电子商务网站提供展示信息时非常重要的一个环节,在对展示信息进行CTR预估时需要使用CTR预估模型,而CTR预估模型准确性的高低会直接影响提供展示信息的准确性和用户体验。目前,CTR预估模型大多是基于反馈特征的线性模型,首先由人工从历史特征中排定出有效特征,并获取这些有效特征的历史点击率(HistoricalClickThroughRatio,HCTR),将基于有效特征的HCTR作为线性模型的输入特征,通过逻辑回归模型(LogisticRegression,LR)训练,由人工建立一个CTR预估模型。当电子商务网站包括多个语言频道时,针对每个语言频道都需要建立一个CTR预估模型,每个语言频道的历史特征都要由人工确定,这种方式过分受限于人为因素,导致建立CTR预估模型的效率和CTR预估模型的准确性都非常低。因此,目前亟需一种适用于多个语言频道的CTR预估模型自动建立方法。
技术实现思路
本申请实施例提供一种CTR预估模型建立方法、装置及信息提供方法、系统,用以实现自动建立适用于多个语言频道的CTR预估模型。根据本申请实施例,提供一种信息提供方法,包括:从与当前语言频道对应的历史数据中提取出基础特征,组合所述基础特征得到组合特征;根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重;以及将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。具体的,从与当前语言频道对应的历史数据中提取出基础特征,具体包括:获取所述历史数据包括的历史特征;将所述历史特征按照最小语义单元进行分割,得到所述基础特征。具体的,组合所述基础特征得到组合特征,具体包括:组合任意两个所述基础特征得到候选组合特征;从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候选组合特征的权重;选取权重大于第一设定阈值的候选组合特征得到所述组合特征。具体的,根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重,具体包括:组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;从所述候选高阶特征中选取出有效高阶特征;从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。具体的,从所述候选高阶特征中选取出有效高阶特征,具体包括至少一种:从所述历史特征的历史CTR中获取所述候选高阶特征的历史CTR,选取历史CTR大于第二设定阈值的候选高阶特征得到所述有效高阶特征;将所述候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对所述目标函数求梯度,选取所述损失函数的梯度的绝对值大于所述正则化项的系数对应的候选高阶特征得到所述有效高阶特征。可选的,得到所述当前语言频道的CTR预估模型之后,还包括:评估所述当前语言频道的CTR预估模型是否合格;若所述当前语言频道的CTR预估模型不合格,则重新执行所述从与当前语言频道对应的历史数据中提取出基础特征的步骤。具体的,评估所述当前语言频道的CTR预估模型是否合格,具体包括:若所述有效高阶特征的数量未达到设定数值,根据所述有效高阶特征及其对应的权重绘制受试者工作特征ROC曲线,计算所述ROC曲线的曲线下面积AUC值,若AUC值大于第三设定阈值,则确定所述当前语言频道的CTR预估模型合格,若AUC值小于或者等于所述第三设定阈值,则确定所述当前语言频道的CTR预估模型不合格;或者,若所述有效高阶特征的数量未达到所述设定数值,将所述有效高阶特征带入所述当前语言频道的CTR预估模型中计算所述有效高阶特征的预估CTR,从所述历史数据包括的历史特征的历史CTR中获取所述有效高阶特征的历史CTR,计算所述有效高阶特征的历史CTR与预估CTR的均方误差MSE,若所述MSE小于第四设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述MSE小于或者等于所述第四设定阈值,则确定所述当前语言频道的CTR预估模型不合格。还提供一种点击率预估模型建立装置,包括:提取组合单元,用于从与当前语言频道对应的历史数据中提取出基础特征,组合所述基础特征得到组合特征;计算单元,用于根据所述基础特征和所述组合特征得到有效高阶特征,并计算有效高阶特征的权重;以及获取单元,用于将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。具体的,所述提取组合单元,具体用于:获取所述历史数据包括的历史特征;将所述历史特征按照最小语义单元进行分割,得到所述基础特征。具体的,所述提取组合单元,具体用于:组合任意两个所述基础特征组合得到候选组合特征;从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候选组合特征的权重;选取权重大于第一设定阈值的候选组合特征得到所述组合特征。具体的,所述计算单元,具体用于:组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;从所述候选高阶特征中选取出有效高阶特征;从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。具体的,所述计算单元,用于从所述候选高阶特征中选取出有效高阶特征,具体用于至少一种:从所述历史特征本文档来自技高网
...

【技术保护点】
一种点击率预估模型建立方法,其特征在于,包括:从与当前语言频道对应的历史数据中提取出基础特征,组合所述基础特征得到组合特征;根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重;以及将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。

【技术特征摘要】
1.一种点击率预估模型建立方法,其特征在于,包括:
从与当前语言频道对应的历史数据中提取出基础特征,组合所述基础特征得到组合特
征;
根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权
重;以及
将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语
言频道的CTR预估模型。
2.如权利要求1所述的方法,其特征在于,从与当前语言频道对应的历史数据中提取
出基础特征,具体包括:
获取所述历史数据包括的历史特征;
将所述历史特征按照最小语义单元进行分割,得到所述基础特征。
3.如权利要求1所述的方法,其特征在于,组合所述基础特征得到组合特征,具体包
括:
组合任意两个所述基础特征得到候选组合特征;
从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;
根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候
选组合特征的权重;
选取权重大于第一设定阈值的候选组合特征得到所述组合特征。
4.如权利要求1所述的方法,其特征在于,根据所述基础特征和所述组合特征得到有
效高阶特征,并计算所述有效高阶特征的权重,具体包括:
组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;
从所述候选高阶特征中选取出有效高阶特征;
从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;
根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。
5.如权利要求4所述的方法,其特征在于,从所述候选高阶特征中选取出有效高阶特
征,具体包括至少一种:
从所述历史特征的历史CTR中获取所述候选高阶特征的历史CTR,选取历史CTR大于第
二设定阈值的候选高阶特征得到所述有效高阶特征;
将所述候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对所述目标函
数求梯度,选取所述损失函数的梯度的绝对值大于所述正则化项的系数对应的候选高阶特
征得到所述有效高阶特征。
6.如权利要求1-5任一所述的方法,其特征在于,得到所述当前语言频道的CTR预估

\t模型之后,还包括:
评估所述当前语言频道的CTR预估模型是否合格;
若所述当前语言频道的CTR预估模型不合格,则重新执行所述从与当前语言频道对应
的历史数据中提取出基础特征的步骤。
7.如权利要求6所述的方法,其特征在于,评估所述当前语言频道的CTR预估模型是
否合格,具体包括:
若所述有效高阶特征的数量未达到设定数值,根据所述有效高阶特征及其对应的权重
绘制受试者工作特征ROC曲线,计算所述ROC曲线的曲线下面积AUC值,若所述AUC值大
于第三设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述AUC值小于或者
等于所述第三设定阈值,则确定所述当前语言频道的CTR预估模型不合格;或者,
若所述有效高阶特征的数量未达到所述设定数值,将所述有效高阶特征带入所述当前
语言频道的CTR预估模型中计算所述有效高阶特征的预估CTR,从所述历史数据包括的历史
特征的历史CTR中获取所述有效高阶特征的历史CTR,计算所述有效高阶特征的历史CTR与
预估CTR的均方误差MSE,若所述MSE小于第四设定阈值,则确定所述当前语言频道的CTR
预估模型合格,若所述MSE小于或者等于所述第四设定阈值,则确定所述当前语言频道的
CTR预估模型不合格。
8.一种点击率预估模型建立装置,其特征在于,包括:
提取组合单元,用于从与当前语言频道对应的历史数据中提取出基础特征,组合所述
基础特征得到组合特征;
计算单元,用于根据所述基础特征和所述组合特征得到有效高阶特征,并计算有效高
阶特征的权重;以及
获取单元,用于将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,
得到所述当前语言频道的CTR预估模型。...

【专利技术属性】
技术研发人员:顾进杰黄立辉郑伟黄鹏林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1