The invention discloses an advertisement click-through rate prediction method based on GRU neural network. In data preprocessing, the time series data based on advertisement is constructed, which enhances the integrity and stability of the sequence data compared with the user sequence data. Then the text features are digitally encoded by one hot encoding, and only the subscript with the median bit value of the mapping value of 1 is used as the mapping value of the characters, which greatly reduces the number of the characters. The dimension of feature is reduced and the training speed of the model is improved. The present invention adopts the combination of regression algorithm and deep learning algorithm to form the final prediction method. Firstly, ridge regression algorithm is used for feature selection, which reduces the interference of invalid features on model training. Then, the improved GRU neural network based on LSTM neural network is used for model training and prediction. Compared with RNN prediction model, GRU prediction model can improve the accuracy of prediction. Compared with LSTM prediction model, it can improve the prediction accuracy. At the same time, it can improve the accuracy of prediction and train the model more quickly.
【技术实现步骤摘要】
一种基于GRU神经网络的广告点击率预测方法
本专利技术涉及搜索引擎网络广告
,尤其涉及一种基于深度学习中的GRU神经网络的广告点击率预测方法
技术介绍
互联网的快速普及与发展,使得搜索引擎的作用日益增大。根据第41次《中国互联网发展状况统计报告》可知中国的搜索引擎用户数量达到6.4亿人。基于搜索引擎的广告推广成为当前非常热门的一种广告推广方式。对于网络广告点击率的预测,由最早期用历史点击率的值作为预测值发展到基于传统的机器学习算法(如逻辑回归、决策树和贝叶斯算法等)的预测点击率预方法,再到当前的基于神经网络和深度学习算法的预测。在学习非线性特征之间的联系和训练海量数据方面,神经网络相比与传统的机器学习方法效果更好、速度更快。但是目前为止,大部分基于神经网络的点击率预测方法都是着重于特征的处理和选择,期望得到更好的特征,以此来进一步提高模型预测的准确率。如中国专利说明书CN105654200A《一种基于深度学习的广告点击率预测方法及装置》和CN106529721A《一种深度特征提取的广告点击率预测系统及其预测方法》等都是构建合适的特征,来训练出更好的预测模型。上述的方法都局限于特征之间的关系,却忽视了数据之间的依赖性的关系。这使得广告点击率预测的准确率有所偏差。zhang等人提出了基于递归神经网络(RNN)的点击率预测方法。在该方法中,张等人将每个用户的浏览行为记录作为一个序列,用RNN模型来模拟数据之间的依赖关系。但由于每个用户行为的不稳定性,难以构建完整且稳定的用户序列数据,这极大的降低了预点击率预测的准确性;除此之外,RNN模型在训练时会出现梯度 ...
【技术保护点】
1.一种基于GRU神经网络的广告点击率预测方法,其特征在于,步骤1、获取原始数据得到的数据为用户点击每条广告的数据信息和广告的信息数据;步骤2、对数据进行预处理对数据进行分析,去除用户无效点击的数据,然后拼接两类数据信息,以天为时间单位,统计每条广告的数据和点击率;最后根据多重插补方法把数据的缺失值补全;步骤3、广告序列数据的构建在补全数据后,以天为时间单位,将每条广告进行先后排序,构成基于时间的广告序列数据,且将数据分为两类,一类为特征数据,另一类为点击率的真实值;步骤4、对广告序序列数据进行特征选择先对文本特征进行one‑hot编码,且对数据特征进行归一化处理,然后采用Embedded方法对归一化后的数据特征进行进一步特的征选择;步骤5、基于GRU神经网络的模型的构建采用keras框架进行基于GRU神经网络的模型构建;步骤6、模型的训练与测试将序列数据按照时间顺序分为前后两个同等时间长度的数据块,第一部分广告序列数据作为训练数据特征,对应的点击率作为训练数据的真实结果,第二部分作为测试数据特征,对应的点击率作为测试数据的真实结果;模型的训练是将处理好的数据导入模型并进行前向传播和后 ...
【技术特征摘要】
1.一种基于GRU神经网络的广告点击率预测方法,其特征在于,步骤1、获取原始数据得到的数据为用户点击每条广告的数据信息和广告的信息数据;步骤2、对数据进行预处理对数据进行分析,去除用户无效点击的数据,然后拼接两类数据信息,以天为时间单位,统计每条广告的数据和点击率;最后根据多重插补方法把数据的缺失值补全;步骤3、广告序列数据的构建在补全数据后,以天为时间单位,将每条广告进行先后排序,构成基于时间的广告序列数据,且将数据分为两类,一类为特征数据,另一类为点击率的真实值;步骤4、对广告序序列数据进行特征选择先对文本特征进行one-hot编码,且对数据特征进行归一化处理,然后采用Embedded方法对归一化后的数据特征进行进一步特的征选择;步骤5、基于GRU神经网络的模型的构建采用keras框架进行基于GRU神经网络的模型构建;步骤6、模型的训练与测试将序列数据按照时间顺序分为前后两个同等时间长度的数据块,第一部分广告序列数据作为训练数据特征,对应的点击率作为训练数据的真实结果,第二部分作为测试数据特征,对应的点击率作为测试数据的真实结果;模型的训练是将处理好的数据导入模型并进行前向传播和后向传播算法的多次轮询训练;在模型收敛的同时,使得损失函数的值尽可能的趋于0且AUC值尽可能的趋于1。在训练完成后,用测试数据进行点击率的预测。2.如权利要求1所述的基于GRU神经网络的广告点击率预测方法,其特征在于,步骤2具体包括以下步骤:步骤2.1、设置广告页面无效...
【专利技术属性】
技术研发人员:邵勇,田武,阎长顺,石宇良,张正龙,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。