The invention discloses an advertisement click-through rate prediction method based on cost-sensitive classifier integration, which comprises the following steps: in feature extraction, feature extraction is carried out by artificially defined rules, feature extraction and sampling are carried out for user behavior history records; and in advertisement click-through rate prediction, improved B_SMOTE+method is used to carry out data. Oversampling; cost-sensitive algorithm is used to punish the misclassification of \click on advertisement\ when data sets are handed over to classifiers; genetic algorithm is used to optimize parameters; and two-tier Stacking method is used to integrate them. The invention solves the problems of low accuracy caused by fewer feature dimensions and inadequate data preprocessing of some click-through rate prediction algorithms at present, and can improve the accuracy of click-through rate prediction of advertisements by adopting the method.
【技术实现步骤摘要】
一种基于代价敏感分类器集成的广告点击率预测方法
本专利技术涉及电子推荐算法的
,尤其是指一种基于代价敏感分类器集成的广告点击率预测方法。
技术介绍
预测广告点击率,能够根据给定的用户和网页内容,通过计算对于特定用户的某一种广告的点击率,来选择点击率更高的广告进行精准定向。采用该机制可以大幅度地提高广告主所投放广告的点击率,增加广告所投放商品的访问量,帮助用户获取优质信息。点击率预测是一个在互联网领域应用非常广泛的亟待解决的问题,它还包括了包括搜索引擎的排序结果以及推荐系统,而广告点击率是点击率预测的一个重要应用。广告收入作为互联网公司非常重要的收入,对广告点击率预测具有极其重要的商业价值和学术研究价值,它是最近几年产学研的重要研究领域。广告的点击率预测就是要通过广告的历史点击记录,预测对于给定的查询用户的点击概率是多少。这里就需要使用点击日志,目前大多数预测点击率的方法都是基于点击日志,通过点击日志作为用户的历史行为。如JOACHIMST提出使用点击日志计算搜索结果的点击率,并结合搜索引擎查询日志和用户点击日志,自动优化搜索引擎的检索质量,通过分析用户在当前 ...
【技术保护点】
1.一种基于代价敏感分类器集成的广告点击率预测方法,其特征在于,包括以下步骤:1)获取基础数据,包括过去一段时间内用户购买的行为的数据集、用户信息、广告信息以及对应用户的点击广告日志;2)在特征提取上,采用人工定义的规则进行特征提取,对用户行为历史记录进行特征提取和采样,从中获得包含用户信息、广告信息、用户点击日志、用户历史购买行为的样本集合,通过人工推理定义方式,从中提取出能体现用户、物品特点和预测用户行为倾向的特征,经过异常过滤,得到训练集的特征部分,用户是否点击广告作为标签部分,将提取出的特征与标签一起,组合成样本的训练集S1;3)在广告点击率预测中应用不平衡类的数据 ...
【技术特征摘要】
1.一种基于代价敏感分类器集成的广告点击率预测方法,其特征在于,包括以下步骤:1)获取基础数据,包括过去一段时间内用户购买的行为的数据集、用户信息、广告信息以及对应用户的点击广告日志;2)在特征提取上,采用人工定义的规则进行特征提取,对用户行为历史记录进行特征提取和采样,从中获得包含用户信息、广告信息、用户点击日志、用户历史购买行为的样本集合,通过人工推理定义方式,从中提取出能体现用户、物品特点和预测用户行为倾向的特征,经过异常过滤,得到训练集的特征部分,用户是否点击广告作为标签部分,将提取出的特征与标签一起,组合成样本的训练集S1;3)在广告点击率预测中应用不平衡类的数据预处理方法,将属于少数类的“点击广告”采用改进的B-SMOTE+方法进行数据过采样,其步骤如下:3.1)计算少数类样本与训练样本的近邻;计算少数类样本P的样本点pi在训练集S1中的m近邻,i=1,2,…,pnum,,设在m近邻中有m'个属于多数类样本;3.2)对少数类样本进行划分若m'=m,表示pi的所有m近邻都属于多数类样本,此时pi被认为是噪声;3.3)设置采样倍率Ui,i=1,2,…,pnum;在计算其少数类样本的m近邻后,对少数类样本进行划分,设m近邻中有m’个属于多数类样本,若m=m’,则视为噪声舍弃,记边界样本为Pi,设置Pi'的采样倍率Ui为:Ui=m'/(m-m')3.4)边界样本与少数类样本插值合成新生的少数类样本;计算pi'与少数类样本的k近邻,根据采样倍率Ui,pi'与其近邻合成si个少数类样本cj,cj=pi'+rj×dj,j=1,2,…,sj;其中,dj表示pi与第j个近邻的距离,rj是介于0与1之间的随机数;3.5)合成的少数类样本与训练集S1合并,构成新的样本训练集S2;4)样本训练集S2在经过预处理后,交由分类器进行学习,并采用代价敏感算法,将误分“点击广告”这一错误加大惩罚力度,其中分类器采用SVM与基于决策树的Adaboost算法;5)采用遗传算法对其代价敏感参数和相关参数进...
【专利技术属性】
技术研发人员:王昊翔,林启迪,张星明,林育蓓,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。