一种基于场矩阵因子分解机改进的广告投放方法及系统技术方案

技术编号:33122295 阅读:18 留言:0更新日期:2022-04-17 00:26
本发明专利技术请求保护一种基于场矩阵因子分解机改进的广告投放方法。方法为:收集广告数据并对所述广告数据进行预处理,将空值或者无用的数据进行填充或删除操作,并将连续型特征进行分桶处理为离散型特征,并进行one

【技术实现步骤摘要】
一种基于场矩阵因子分解机改进的广告投放方法及系统


[0001]本专利技术属于推荐系统领域,具体涉及到点击率预测领域,以及从系数矩阵得到稠密矩阵的深度学习领域。

技术介绍

[0002]现如今我们处于一个信息爆炸的时代,怎样在海量的信息中找到自己想要的信息对于普通的用户来说极为的困难,对于商家来说,投放成功的广告是一件极其重要的问题,广告投放的好,可以为商家带来丰厚的利润,反之,高额的广告费用会让商家蒙受巨大的损失,针对类似问题,点击率预测是推荐系统中的一项重要研究工作。
[0003]点击率(Click through rate,简称CTR)预估是推荐系统中的经典问题之一。点击率预估主要就是寻找出用户最有可能点击的项目并按照概率大小排序。目前,在点击率预估领域,常使用的模型主要为逻辑回归模型,因子分解机模型及其结合多层感知机衍生出来的一系列模型。
[0004]但是这些模型有一些问题,一是特征之间的交互没有考虑特征域之间的关系,二是特征组合之间没有考虑特征组合与特征组合之间相互影响的关系。
[0005]经过检索,公开号为CN106777069A,一种基于矩阵因子分解的个性化推荐方法,其特征在于,包括:搭建面向大数据的计算平台;在已搭建的计算平台内计算目标用户和其它用户的相似性;基于矩阵因子分解并结合目标用户和其它用户的相似性对目标用户未选择过的商品进行评分预测;对目标用户未选择过的商品按照预测的评分大小进行排序后推荐给目标用户。该专利基于矩阵分解的模型,通过训练得出用户矩阵和商品矩阵,并通过用户矩阵与商品矩阵的内积得到评分值进行预测,该专利技术在特征融合方面存在着明显的不足,没有对特征进行交互,导致寻找不到有利于推荐的融合特征,本专利通过场矩阵因子分解机进行特征间的二阶交叉,通过DNN网络进行特征间的深度交叉,充分利用了特征交叉的优势得到更多有用的信息。

技术实现思路

[0006]本专利技术旨在解决以上现有技术的问题。提出了一种基于场矩阵因子分解机改进的广告投放方法及系统。本专利技术的技术方案如下:
[0007]一种基于场矩阵因子分解机改进的广告投放方法,其包括以下步骤:
[0008]收集广告数据并对所述广告数据进行预处理,将空值或者无用的数据进行填充或删除操作,并将连续型特征进行分桶处理为离散型特征,并进行one

hot编码处理,并规划出训练集以及测试集;
[0009]将预处理后的数据集输入到嵌入层,所述嵌入层是一层全连接神经网络,将高维稀疏的one

hot特征转化为定长的低维稠密的特征向量;
[0010]将嵌入层的输出部分分别输入到FmFM场矩阵因子分解机层和DNN深度神经网络层进行低阶特征交叉和高阶特征交叉,把FmFM和DNN层的输出进行加和并且经过sigmoid函数
得到输出值,并且按照输出值排序进行广告投放。
[0011]进一步的,所述数据预处理具体包括:使用numpy,pandas工具包进行数据的填充与删除修改,通过使用sklearn包中KBinsDiscretizer方法将连续型特征进行分桶处理成离散型特征,再使用sklearn中的one

hotEncoder进行处理所有的特征离散型特征;最后将数据集划分为训练集和测试集采用train_test_split方法。
[0012]进一步的,所述通过使用sklearn包中KBinsDiscretizer方法将连续型特征进行分桶处理成离散型特征,具体包括:
[0013]KBinsDiscretizer首先对数据的范围按照一定的间隔分为若干份等长的区间,对属于同一个区间的数值取一个相同的值,不同的区间则取不同的值,因此连续型的特征也转换成了分类的特征类型
[0014]再使用sklearn中的one

hotEncoder进行处理所有的特征离散型特征;
[0015]one

hotEncoder通过将离散的特征转变为特征矩阵,首先确定分类变量,其次转换为二进制向量表示。经过one

hot处理后的向量得到的是稀疏矩阵。
[0016]进一步的,将得到的低维稠密向量输入到深度神经网络DNN中和浅层的特征交叉模块FmFM中,再将各自的预测结果通过加和再经过sigmoid函数得到广告的点击率预测结果:
[0017][0018]其中代表广告点击率预估的输出结果,yFmFM代表FmFM模块的预测结果,yDNN代表DNN模块的预测结果。
[0019]进一步的,所述FmFM模块具体包含一个场因子分解机,场因子分解机的公式为:
[0020][0021]其中m代表特征个数,w,υ分别要训练的参数和特征向量,i代表第i个特征,w0代表偏置权重,表示模型的线性部分,表示二阶特征交叉部分,M
F(i),F(j)
表示特征域i和特征域j之间的交互强度矩阵。
[0022]进一步的,还包括采用测试集和评估指标对模型的效果进行验证的步骤,具体包括:
[0023]评估指标和loss函数包含:AUC,二分类交叉熵损失,所述AUC的计算方式为:
[0024][0025]其中M,N分别是正样本个数和负样本的个数;rank
i
代表第i个样本的序号,概率得分从小到大排,排在第rank个位置;
[0026]二分类交叉熵损函数的计算方式为:
[0027][0028]其中y是标签,是预测为正的概率。
[0029]一种基于场矩阵因子分解机改进的广告投放系统,其包括:
[0030]预处理模块:用于收集广告数据并对所述广告数据进行预处理,将空值或者无用的数据进行填充或删除操作,并将连续型特征进行分桶处理为离散型特征,并进行one

hot编码处理,并规划出训练集以及测试集;
[0031]嵌入模块:所述嵌入模块是一层全连接神经网络,用于将预处理后的数据集输入到嵌入层,将高维稀疏的one

hot特征转化为定长的低维稠密的特征向量;
[0032]处理模块:用于将嵌入层的输出部分分别输入到FmFM层和DNN层进行低阶特征交叉和高阶特征交叉,把FmFM和DNN层的输出进行加和并且经过sigmoid函数得到输出值;按照输出值进行广告投放;
[0033]验证模块:用于采用测试集和评估指标对模型的效果进行验证的步骤,具体包括:评估指标和loss函数包含:AUC,二分类交叉熵损失。
[0034]本专利技术的优点及有益效果如下:
[0035]1:本专利技术的基于FmFM改进的广告点击率预测方法,以基于FmFM的模型作为基础,考虑到了对于不同的特征域之间的交互关系,并且相比之前的模型具有更加灵活的建模特征域之间交互关系的方式,对比FM模型不考虑特征域之间交互关系,FwFM模型用一个固定的标量考虑不同特征域之间的交互关系,FFM使用巨大的参数量表示每个特征和每个特征域之间的交互关系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于场矩阵因子分解机改进的广告投放方法,其特征在于,包括以下步骤:收集广告数据并对所述广告数据进行预处理,将空值或者无用的数据进行填充或删除操作,并将连续型特征进行分桶处理为离散型特征,并进行one

hot编码处理,并规划出训练集以及测试集;将预处理后的数据集输入到嵌入层,所述嵌入层是一层全连接神经网络,将高维稀疏的one

hot特征转化为定长的低维稠密的特征向量;将嵌入层的输出部分分别输入到FmFM场矩阵因子分解机层和DNN深度神经网络层进行低阶特征交叉和高阶特征交叉,把FmFM和DNN层的输出进行加和并且经过sigmoid函数得到输出值,并且按照输出值排序进行广告投放。2.根据权利要求1所述的一种基于场矩阵因子分解机改进的广告投放方法,其特征在于,所述数据预处理具体包括:使用numpy,pandas工具包进行数据的填充与删除修改,通过使用sklearnbao包中KBinsDiscretizer方法将连续型特征进行分桶处理成离散型特征,再使用sklearn中的one

hotEncoder进行处理所有的特征离散型特征;最后将数据集划分为训练集和测试集采用train_test_split方法。3.根据权利要求1所述的一种基于场矩阵因子分解机改进的广告投放方法,其特征在于,所述通过使用sklearnbao包中KBinsDiscretizer方法将连续型特征进行分桶处理成离散型特征,具体包括:KBinsDiscretizer首先对数据的范围按照一定的间隔分为若干份等长的区间,对属于同一个区间的数值取一个相同的值,不同的区间则取不同的值,因此连续型的特征也转换成了分类的特征类型;再使用sklearn中的one

hotEncoder进行处理所有的特征离散型特征;one

hotEncoder通过将离散的特征转变为特征矩阵,首先确定分类变量,其次转换为二进制向量表示;经过one

hot处理后的向量得到的是稀疏矩阵。4.根据权利要求1

3任一项所述的一种基于场矩阵因子分解机改进...

【专利技术属性】
技术研发人员:孙开伟宣立德冉雪刘虎李彦
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1