基于集合的自顶向下的自适应阶数特征交叉的方法技术

技术编号:36081742 阅读:12 留言:0更新日期:2022-12-24 10:55
本申请提出了一种基于集合的自顶向下的自适应阶数特征交叉的方法,涉及数据处理技术领域,其中,该方法包括:获取特征全集,其中,特征全集包括数值特征、类目特征、序列特征、图特征;将特征全集输入神经网络,输出每个特征属于每个集合的概率,之后采用基于软阈值的剪枝方案,根据每个特征属于每个集合的概率进行剪枝,生成第一特征子集;根据第一特征子集采用软阈值的方式再次进行剪枝,生成第二特征子集;对第二特征子集进行特征交叉,得到点击率预测结果,其中,点击率预测结果为用户点击项目的概率。采用上述方案的本申请解决了如何进行特征交叉以提高推荐的准确度和速度的技术问题。问题。问题。

【技术实现步骤摘要】
基于集合的自顶向下的自适应阶数特征交叉的方法


[0001]本申请涉及数据处理
,尤其涉及基于集合的自顶向下的自适应阶数特征交叉的方法和装置。

技术介绍

[0002]预测用户点击项目的概率(又称CTR:点击率预测)是推荐系统的一个重要问题。通常来说,点击率预测的任务会引入以下四类特征:数值特征:例如用户的年龄,文章的平均阅读时间等;类目特征:用户的ID或者商品的ID特征,通常会用one

hot编码进行表示;序列特征:用户在过去一个时间段内所浏览过的商品序列;图特征:用户和商品之间的拓扑邻居特征。在CTR预测中实现更好的性能的关键之一是学习有效的特征交叉,近年来,这个问题引起了人们的极大关注。最大的挑战之一是计算所有原始特征之间的高阶交叉的计算成本很高,因为特征组合的数量随着特征的数量呈指数增长。在现实世界的应用中,原始特征通常都是高度稀疏的,有数百万个维度。例如,像用户/物品的ID这样的标识符特征在被编码为单次向量后是非常稀疏的;从上游任务(如视觉信息)建立的多文件向量也是如此。在这种具有数百万维度的稀疏特征上计算高阶特征的交叉是很耗时的。与此同时,由于特征数量众多,不可避免的会引入一定的噪声数据,导致CTR模型的效果不尽人意。
[0003]现有的学习特征交叉的方式可以大致划分为两类,第一类追求如何达到更高阶的特征交叉,第二类则是专注于如何更好的衡量特征交叉的重要性程度。
[0004]经典的特征交互方法是因子分解机(FM),它通过列举所有的二阶交互,并对每个交互对进行点乘来引入二阶交互。为了捕捉高阶信息,HOFM提供了一种有效的方法来构建高阶特征交互,然而,HOFM的缺点很明显:当构建K阶交互时,它需要计算所有的K阶特征对,这需要承受很高的计算成本。为了解决这个问题,DeepFM将FM与深度神经网络相结合。它用FM模型来构建二阶交互,用深度神经网络来隐含地捕捉高阶交互。XDeepFM通过使用CIN模块来显式地列举构建二阶交互,改进了DeepFM。为了减少交互对的数量,CIN对交互的结果进行加权求和,然后进一步进行高阶交互。尽管CIN可以减少高阶交互的计算成本,但它仍然没有解决FM提出的问题,即需要列举所有特征对的组合。DCN以及它的变种DCNV2将整个特征矩阵挤压成一个向量,并使用跨层信息来提取特征交互,这在捕捉隐性交互方面取得了更好的性能。最近,随着Transformer模型的兴起,提出了AutoInt利用多头自注意力模块来构建特征交互。query和key被用来评估特征的相似性,然后将特征进行加权求和,得到高阶交互信息。它存在着所有加权特征的大量组合的问题,其中低权重的特征可能会引入噪声。为了追求更精细的特征交互,AFM将嵌入空间映射为对数空间,并消除权重为零的特征。但从实验结果来看,如果没有任何进一步的限制,模型几乎不可能学习到零权重。
[0005]在特征重要性上,评估特征交互的重要性是非常有用的,它可以用来去除不重要的信息,从而降低噪音,提高CTR预测的准确率。许多研究都集中在对特征交互的重要性权重的挖掘上。FwFM通过给每个交互对分配可学习的权重来改进FM。IAFM考虑了特征方面和领域方面,在两个层面上学习灵活的交互权重。FiBiNet使用Squeeze

Excitation网络来学
习权重,并进行双线性层来模拟特征交互。
[0006]现有的解决方案主要存在以下几个问题:首先:上述所有的显式进行交叉的方案都需要人工指定特征交叉的阶数,这种方案需要针对不同的数据集手动进行参数调整,以达到好的效果,然而在现实场景中,往往我们没有足够的资源进行搜索,因此需要一个方案能够自动从数据中学习出该特征交叉的阶数。第二点则是现有方案在计算代价上十分高昂,由于他们采用穷举的方式构造特征集合,因此时间复杂度是指数级别的,从而导致大多数模型实际上是无法进行高阶数的特征交叉。第三点则是现有方案会引入大量的噪声。由于模型大多采用穷举的方式枚举所有特征集合,必然会引入没有意义的特征组合,例如<职业,天气>这种。虽然现有的方案通过特征重要性对上述的特征组合进行打分,从而降低噪声,但是效果不尽如人意。

技术实现思路

[0007]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008]为此,本申请的第一个目的在于提出一种基于集合的自顶向下的自适应阶数特征交叉的方法,解决了现有方法需要人工调整、计算代价高昂、引入大量噪声的技术问题,实现了有效进行特征交叉以提高推荐的准确度和速度。
[0009]本申请的第二个目的在于提出一种基于集合的自顶向下的自适应阶数特征交叉的装置。
[0010]为达上述目的,本申请第一方面实施例提出了一种基于集合的自顶向下的自适应阶数特征交叉的方法,包括:获取特征全集,其中,特征全集包括数值特征、类目特征、序列特征、图特征;将特征全集输入神经网络,输出每个特征属于每个集合的概率,之后采用基于软阈值的剪枝方案,根据每个特征属于每个集合的概率进行剪枝,生成第一特征子集;根据第一特征子集采用软阈值的方式再次进行剪枝,生成第二特征子集;对第二特征子集进行特征交叉,得到点击率预测结果,其中,点击率预测结果为用户点击项目的概率。
[0011]本申请实施例的基于集合的自顶向下的自适应阶数特征交叉的方法,区别于传统因子分解机,通过采用自顶向下的方式获取特征组合,降低了穷举所引入的大量噪声,能够根据样本生成自适应阶数的特征交叉。通过特征子集生成模块和集合注意力剪枝模块,可以获得细粒度各不相同的特征组合,整合有益信息,最终提高了推荐的准确性。
[0012]可选地,在本申请的一个实施例中,数值特征包括用户年龄、文章平均阅读时间,类目特征包括用户ID、商品ID,序列特征包括:用户在过去一个时间段内所浏览过的商品序列,图特征包括用户和商品之间的拓扑邻居特征。
[0013]可选地,在本申请的一个实施例中,神经网络为基于拓展再挤压的神经网络,第一特征子集包括两个特征:输入的置换不变性,输入元素个数可变性。
[0014]可选地,在本申请的一个实施例中,根据第一特征子集采用软阈值的方式再次进行剪枝,包括:
[0015]利用导出键矩阵与第一特征子集计算得到多组注意力得分;
[0016]根据每一组注意力得分,应用软阈值的方式再次进行剪枝,得到第二特征集合。
[0017]可选地,在本申请的一个实施例中,对第二特征子集进行特征交叉,包括:
[0018]对第二特征子集,采用加性函数得到每一个特征子集的交叉结果;
[0019]将交叉结果通过深度神经网络构建出该特征子集的高阶交叉向量,之后将每个特征子集产生的高阶交叉向量进行拼接,得到拼接结果;
[0020]将拼接结果输入到深度神经网络中,得到最终的点击率预测结果。
[0021]为达上述目的,本专利技术第二方面实施例提出了一种基于集合的自顶向下的自适应阶数特征交叉的装置,包括获取模块、特征子集生成模块、集合注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集合的自顶向下的自适应阶数特征交叉的方法,其特征在于,包括以下步骤:获取特征全集,其中,所述特征全集包括数值特征、类目特征、序列特征、图特征;将所述特征全集输入神经网络,输出每个特征属于每个集合的概率,之后采用基于软阈值的剪枝方案,根据每个特征属于每个集合的概率进行剪枝,生成第一特征子集;根据所述第一特征子集采用软阈值的方式再次进行剪枝,生成第二特征子集;对所述第二特征子集进行特征交叉,得到点击率预测结果,其中,所述点击率预测结果为用户点击项目的概率。2.如权利要求1所述的方法,其特征在于,所述数值特征包括用户年龄、文章平均阅读时间,所述类目特征包括用户ID、商品ID,所述序列特征包括:用户在过去一个时间段内所浏览过的商品序列,所述图特征包括用户和商品之间的拓扑邻居特征。3.如权利要求1所述的方法,其特征在于,所述神经网络为基于拓展再挤压的神经网络,所述第一特征子集包括两个特征:输入的置换不变性,输入元素个数可变性。4.如权利要求1所述的方法,其特征在于,所述根据所述第一特征子集采用软阈值的方式再次进行剪枝,包括:利用导出键矩阵与所述第一特征子集计算得到多组注意力得分;根据每一组注意力得分,应用软阈值的方式再次进行剪枝,得到第二特征集合。5.如权利要求1所述的方法,其特征在于,所述对所述第二特征子集进行特征交叉,包括:对所述第二特征子集,采用加性函数得到每一个特征子集的交叉结果;将所述交叉结果通过深度神经网络构建出该特征子集的高阶交叉向量,之后将每个特征子集产生的高阶交叉向量进行拼接,得到拼接结果;将所述拼接结果输入到所述深度神经网络中,得到最终的点击率预测结果。6.一种基于集合的自顶向下的自适应阶数特征交叉的装置,其特征在...

【专利技术属性】
技术研发人员:王孝诚吴斌王柏
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1