基于集合的自顶向下的自适应阶数特征交叉的方法技术

技术编号：36081742 阅读：12 留言：0更新日期：2022-12-24 10:55

本申请提出了一种基于集合的自顶向下的自适应阶数特征交叉的方法，涉及数据处理技术领域，其中，该方法包括：获取特征全集，其中，特征全集包括数值特征、类目特征、序列特征、图特征；将特征全集输入神经网络，输出每个特征属于每个集合的概率，之后采用基于软阈值的剪枝方案，根据每个特征属于每个集合的概率进行剪枝，生成第一特征子集；根据第一特征子集采用软阈值的方式再次进行剪枝，生成第二特征子集；对第二特征子集进行特征交叉，得到点击率预测结果，其中，点击率预测结果为用户点击项目的概率。采用上述方案的本申请解决了如何进行特征交叉以提高推荐的准确度和速度的技术问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于集合的自顶向下的自适应阶数特征交叉的方法

[0001]本申请涉及数据处理
，尤其涉及基于集合的自顶向下的自适应阶数特征交叉的方法和装置。

技术介绍

[0002]预测用户点击项目的概率(又称CTR：点击率预测)是推荐系统的一个重要问题。通常来说，点击率预测的任务会引入以下四类特征：数值特征：例如用户的年龄，文章的平均阅读时间等；类目特征：用户的ID或者商品的ID特征，通常会用one
‑
hot编码进行表示；序列特征：用户在过去一个时间段内所浏览过的商品序列；图特征：用户和商品之间的拓扑邻居特征。在CTR预测中实现更好的性能的关键之一是学习有效的特征交叉，近年来，这个问题引起了人们的极大关注。最大的挑战之一是计算所有原始特征之间的高阶交叉的计算成本很高，因为特征组合的数量随着特征的数量呈指数增长。在现实世界的应用中，原始特征通常都是高度稀疏的，有数百万个维度。例如，像用户/物品的ID这样的标识符特征在被编码为单次向量后是非常稀疏的；从上游任务(如视觉信息)建立的多文件向量也是如此。在这种具有数百万维度的稀疏特征上计算高阶特征的交叉是很耗时的。与此同时，由于特征数量众多，不可避免的会引入一定的噪声数据，导致CTR模型的效果不尽人意。
[0003]现有的学习特征交叉的方式可以大致划分为两类，第一类追求如何达到更高阶的特征交叉，第二类则是专注于如何更好的衡量特征交叉的重要性程度。
[0004]经典的特征交互方法是因子分解机(FM)，它通过列举所有的二阶交互，并对每个交互对进行点乘来引入...

【技术保护点】

【技术特征摘要】
1.一种基于集合的自顶向下的自适应阶数特征交叉的方法，其特征在于，包括以下步骤：获取特征全集，其中，所述特征全集包括数值特征、类目特征、序列特征、图特征；将所述特征全集输入神经网络，输出每个特征属于每个集合的概率，之后采用基于软阈值的剪枝方案，根据每个特征属于每个集合的概率进行剪枝，生成第一特征子集；根据所述第一特征子集采用软阈值的方式再次进行剪枝，生成第二特征子集；对所述第二特征子集进行特征交叉，得到点击率预测结果，其中，所述点击率预测结果为用户点击项目的概率。2.如权利要求1所述的方法，其特征在于，所述数值特征包括用户年龄、文章平均阅读时间，所述类目特征包括用户ID、商品ID，所述序列特征包括：用户在过去一个时间段内所浏览过的商品序列，所述图特征包括用户和商品之间的拓扑邻居特征。3.如权利要求1所述的方法，其特征在于，所述神经网络为基于拓展再挤压的神经网络，所述第一特征子集包括两个特征：输入的置换不变性，输入元素个数可变性。4.如权利要求1所述的方法，其特征在于，所述根据所述第一特征子集采用软阈值的方式再次进行剪枝，包括：利用导出键矩阵与所述第一特征子集计算得到多组注意力得分；根据每一组注意力得分，应用软阈值的方式再次进行剪枝，得到第二特征集合。5.如权利要求1所述的方法，其特征在于，所述对所述第二特征子集进行特征交叉，包括：对所述第二特征子集，采用加性函数得到每一个特征子集的交叉结果；将所述交叉结果通过深度神经网络构建出该特征子集的高阶交叉向量，之后将每个特征子集产生的高阶交叉向量进行拼接，得到拼接结果；将所述拼接结果输入到所述深度神经网络中，得到最终的点击率预测结果。6.一种基于集合的自顶向下的自适应阶数特征交叉的装置，其特征在...

【专利技术属性】
技术研发人员：王孝诚，吴斌，王柏，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人