一种基于GRU神经网络的广告点击率预测方法技术

技术编号:19547602 阅读:27 留言:0更新日期:2018-11-24 21:15
本发明专利技术公开一种基于GRU神经网络的广告点击率预测方法。在数据预处理时,构建了基于广告的时间序列数据,相比于用户序列数据,增强了序列数据之间的完整性和稳定性;然后通过one‑hot编码对文本特征进行数字化编码且只取映射值中bit值为1的下标作为字符的映射值,这样极大减少了特征的维度,提高了模型的训练速度。本发明专利技术采用了回归算法与深度学习算法相结合来形成最终的预测方法。首先用岭回归算法进行特征选择,减少了无效特征对模型训练的干扰,然后用基于LSTM神经网络改进的GRU神经网络来进行模型的训练与预测,GRU的预测模型相比于RNN的预测模型能提高预测的准确率,相比于LSTM的预测模型,它能在提升预测的准确率的同时,能更快速地进行模型的训练。

A Prediction Method of Advertising Click-through Rate Based on GRU Neural Network

The invention discloses an advertisement click-through rate prediction method based on GRU neural network. In data preprocessing, the time series data based on advertisement is constructed, which enhances the integrity and stability of the sequence data compared with the user sequence data. Then the text features are digitally encoded by one hot encoding, and only the subscript with the median bit value of the mapping value of 1 is used as the mapping value of the characters, which greatly reduces the number of the characters. The dimension of feature is reduced and the training speed of the model is improved. The present invention adopts the combination of regression algorithm and deep learning algorithm to form the final prediction method. Firstly, ridge regression algorithm is used for feature selection, which reduces the interference of invalid features on model training. Then, the improved GRU neural network based on LSTM neural network is used for model training and prediction. Compared with RNN prediction model, GRU prediction model can improve the accuracy of prediction. Compared with LSTM prediction model, it can improve the prediction accuracy. At the same time, it can improve the accuracy of prediction and train the model more quickly.

【技术实现步骤摘要】
一种基于GRU神经网络的广告点击率预测方法
本专利技术涉及搜索引擎网络广告
,尤其涉及一种基于深度学习中的GRU神经网络的广告点击率预测方法
技术介绍
互联网的快速普及与发展,使得搜索引擎的作用日益增大。根据第41次《中国互联网发展状况统计报告》可知中国的搜索引擎用户数量达到6.4亿人。基于搜索引擎的广告推广成为当前非常热门的一种广告推广方式。对于网络广告点击率的预测,由最早期用历史点击率的值作为预测值发展到基于传统的机器学习算法(如逻辑回归、决策树和贝叶斯算法等)的预测点击率预方法,再到当前的基于神经网络和深度学习算法的预测。在学习非线性特征之间的联系和训练海量数据方面,神经网络相比与传统的机器学习方法效果更好、速度更快。但是目前为止,大部分基于神经网络的点击率预测方法都是着重于特征的处理和选择,期望得到更好的特征,以此来进一步提高模型预测的准确率。如中国专利说明书CN105654200A《一种基于深度学习的广告点击率预测方法及装置》和CN106529721A《一种深度特征提取的广告点击率预测系统及其预测方法》等都是构建合适的特征,来训练出更好的预测模型。上述的方法都局限于特征之间的关系,却忽视了数据之间的依赖性的关系。这使得广告点击率预测的准确率有所偏差。zhang等人提出了基于递归神经网络(RNN)的点击率预测方法。在该方法中,张等人将每个用户的浏览行为记录作为一个序列,用RNN模型来模拟数据之间的依赖关系。但由于每个用户行为的不稳定性,难以构建完整且稳定的用户序列数据,这极大的降低了预点击率预测的准确性;除此之外,RNN模型在训练时会出现梯度爆发或消失的问题,这也使得模型的预测变得不稳定。
技术实现思路
为了解决上述不足,笔者从广告的角度出发,对搜索引擎数据分析,结果与zhang等人的分析结果类似,同一广告的初始点击率对后续点击率存在一定的而影响,当该广告被点击的后续一段时间内,被点击的概率更高。所以本专利技术提出构建基于时间的广告序列数据来代替zhang等人提出的用户序列数据,这样既体现了数据之间的顺序依赖性和前后点击的正相关性,又保证了序列数据的完整性。然后根据岭回归算法进行特征选择,最后用基于GRU的预测模型代替RNN的预测模型拟合序列数据之间的依赖,从而进行更准确、更高效的点击率预测。本专利技术所采用的技术方案如下:一种基于GRU神经网络的广告点击率预测方法:步骤1、获取原始数据。得到的数据为用户点击每条广告的数据信息和广告的信息数据;步骤2、对数据进行预处理。对数据进行分析,去除用户无效点击的数据,然后拼接两类数据信息,以天为时间单位,统计每条广告的数据和点击率。最后根据多重插补方法把数据的缺失值补全。作为优选,步骤2具体包括以下步骤:步骤2.1、设置广告页面无效点击的时间界限,当用户停留在广告页面的时间超过20秒时,则将该点击的数据标为有效点击,否则标为无效点击;步骤2.2、多重插补方法针对数据缺失率超过20%的数据难以进行很精确的补充,所以去除缺失超过20%的数据,然后剩余缺失的数据用多重插补法进行补充。步骤3、广告序列数据的构建。在补全数据后,以天为时间单位,将每条广告进行先后排序,构成基于时间的广告序列数据,且将数据分为两类,一类为特征数据,另一类为点击率的真实值。作为优选,步骤3具体包括以下步骤:步骤3.1、基于时间的广告序列数据的时间长度不宜过长,否则就会影响预测的准确率。本专利技术选择每次处理的数据的时间长度为两周。步骤4、对广告序序列数据进行特征选择。广告序列数据是为了让模型模拟数据之间的依赖特性,为了更高效地进行模型训练和预测,本专利技术还进行了特征的选择,去掉无效的特征。本专利技术先对文本特征进行one-hot编码,且为了减少训练时间和避免无法收敛的问题,对数据特征进行归一化处理,然后采用Embedded方法对归一化后的数据特征进行进一步特的征选择。作为优选,步骤4具体包括以下步骤:步骤4.1、为了解决经过one-hot编码带来的特征维度过多的问题,本专利技术把经过one-hot编码的字符的映射值中bit值为1的下标作为字符的映射值,每一个字符对应一个数字特征;步骤4.2、采用Embedded方法中的岭回归算法对经过归一化的特征进行特征选择。当特征的系数趋近于0或等于0,去掉这些特征,剩下的特征即为所需的特征。步骤5、基于GRU神经网络的模型的构建,本专利技术采用keras框架进行基于GRU神经网络的模型构建。作为优选,步骤5具体包括以下步骤:步骤5.1、模型构建四层,前三层为GRU层,最后一层为Dense层,且最后一层的激活函数选为sigmoid函数;步骤5.2、损失函数采用logloss函数,优化函数则采用的是SGD,且SGD的学习率设置为0.1,将AUC和logloss函数的值作为评价指标。步骤6、模型的训练与测试。将序列数据按照时间顺序分为前后两个同等时间长度的数据块,第一部分广告序列数据作为训练数据特征,对应的点击率作为训练数据的真实结果,第二部分作为测试数据特征,对应的点击率作为测试数据的真实结果。模型的训练是将处理好的数据导入模型进行前向传播和后向传播算法的多次轮询训练。在模型收敛的同时,使得损失函数的值尽可能的趋于0且AUC值尽可能的趋于1。在训练完成后,用测试数据进行点击率的预测,AUC的值越趋近于1且logloss的值越趋近于0则表明预测的效果会越好。作为优选,步骤6具体包括以下步骤:步骤6.1、正如步骤3.1所述,选取两周数据较为合适,第一周的序列数据作为训练数据,第二周的广告序列数据作为测试数据。步骤6.2、模型训练中轮询的次数设置为50次,模型通过前向传播算法和后向传播算法对一周数据进行50次的轮询训练,实现权重参数的的多次更新,使模型趋于稳定且达到最优值;步骤6.3、模型采用第二周数据进行测试,测试结果为每条广告一周的预测值,本专利技术将最后一天的预测值作为最终的预测结果,AUC值越趋近1且logloss越趋近于0表示预测效果越好。与现有技术相比,本专利技术具有以下明显优势:本专利技术方法在数据预处理时,构建了基于广告的时间序列数据,相比于用户序列数据,增强了序列数据之间的完整性和稳定性;然后通过one-hot编码对文本特征进行数字化编码且只取映射值中bit值为1的下标作为字符的映射值,这样极大减少了特征的维度,提高了模型的训练速度。本专利技术采用了回归算法与深度学习算法相结合来形成最终的预测方法。首先用岭回归算法进行特征选择,减少了无效特征对模型训练的干扰,然后用基于LSTM神经网络的改进GRU神经网络来进行模型的训练与预测,GRU的预测模型相比于RNN的预测模型能提高预测的准确率,相比于LSTM的预测模型,它能在提升预测的准确率的同时,能更快速地进行模型的训练。附图说明图1为本专利技术实例所涉及的流程图图2为GRU神经网络的单元结构图图3为本专利技术实例损失值的变化图图4为本分明实例与其它预测方法AUC值的比较图具体实施方式:以下结合实例,并参照附图,对本专利技术进一步详细说明。如图1所示,本文提供了一种基于GRU神经网络的点击率预测模型的方法。具体包括以下步骤:步骤1,获取数据。通过某个搜索引擎获取连续两周的广告数据集,包括广告的信息数据和用户点击数据。步骤2,对数据进行预本文档来自技高网
...

【技术保护点】
1.一种基于GRU神经网络的广告点击率预测方法,其特征在于,步骤1、获取原始数据得到的数据为用户点击每条广告的数据信息和广告的信息数据;步骤2、对数据进行预处理对数据进行分析,去除用户无效点击的数据,然后拼接两类数据信息,以天为时间单位,统计每条广告的数据和点击率;最后根据多重插补方法把数据的缺失值补全;步骤3、广告序列数据的构建在补全数据后,以天为时间单位,将每条广告进行先后排序,构成基于时间的广告序列数据,且将数据分为两类,一类为特征数据,另一类为点击率的真实值;步骤4、对广告序序列数据进行特征选择先对文本特征进行one‑hot编码,且对数据特征进行归一化处理,然后采用Embedded方法对归一化后的数据特征进行进一步特的征选择;步骤5、基于GRU神经网络的模型的构建采用keras框架进行基于GRU神经网络的模型构建;步骤6、模型的训练与测试将序列数据按照时间顺序分为前后两个同等时间长度的数据块,第一部分广告序列数据作为训练数据特征,对应的点击率作为训练数据的真实结果,第二部分作为测试数据特征,对应的点击率作为测试数据的真实结果;模型的训练是将处理好的数据导入模型并进行前向传播和后向传播算法的多次轮询训练;在模型收敛的同时,使得损失函数的值尽可能的趋于0且AUC值尽可能的趋于1。在训练完成后,用测试数据进行点击率的预测。...

【技术特征摘要】
1.一种基于GRU神经网络的广告点击率预测方法,其特征在于,步骤1、获取原始数据得到的数据为用户点击每条广告的数据信息和广告的信息数据;步骤2、对数据进行预处理对数据进行分析,去除用户无效点击的数据,然后拼接两类数据信息,以天为时间单位,统计每条广告的数据和点击率;最后根据多重插补方法把数据的缺失值补全;步骤3、广告序列数据的构建在补全数据后,以天为时间单位,将每条广告进行先后排序,构成基于时间的广告序列数据,且将数据分为两类,一类为特征数据,另一类为点击率的真实值;步骤4、对广告序序列数据进行特征选择先对文本特征进行one-hot编码,且对数据特征进行归一化处理,然后采用Embedded方法对归一化后的数据特征进行进一步特的征选择;步骤5、基于GRU神经网络的模型的构建采用keras框架进行基于GRU神经网络的模型构建;步骤6、模型的训练与测试将序列数据按照时间顺序分为前后两个同等时间长度的数据块,第一部分广告序列数据作为训练数据特征,对应的点击率作为训练数据的真实结果,第二部分作为测试数据特征,对应的点击率作为测试数据的真实结果;模型的训练是将处理好的数据导入模型并进行前向传播和后向传播算法的多次轮询训练;在模型收敛的同时,使得损失函数的值尽可能的趋于0且AUC值尽可能的趋于1。在训练完成后,用测试数据进行点击率的预测。2.如权利要求1所述的基于GRU神经网络的广告点击率预测方法,其特征在于,步骤2具体包括以下步骤:步骤2.1、设置广告页面无效...

【专利技术属性】
技术研发人员:邵勇田武阎长顺石宇良张正龙
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1