一种基于连续特征群的点击率预测方法技术

技术编号：40553871 阅读：10 留言：0更新日期：2024-03-05 19:14

本发明专利技术涉及一种基于连续特征群的点击率预测方法，尤其适用于处理连续性特征群数据集。该方法首先对数据进行数据预处理，包括缺失值填充、异常值剔除和数据标准化等步骤，以确保数据的完整性和一致性。接下来，通过自定义的特征分箱数量及模型参数的自动化迭代模块，对预处理后的数据进行特征衍生，得到离散特征群。这些离散特征群与原始连续特征群一起作为输入，输入至点击率预测模型进行训练。本发明专利技术所采用的方法，可以在训练过程中自动调整模型参数和特征分箱数量，以得到最佳的模型性能。这种方法能够提高模型的预测精度和泛化能力，同时降低模型过拟合的风险。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术为金融场景下的点击率预测方法创新，重点在于对连续特征群数据集的特征交互处理方法。

技术介绍

1、工业推荐系统主要分为召回和排序两个经典步骤。首先在召回阶段根据用户的兴趣和历史行为，从包含海量物品的数据仓库里，定位到小部分用户潜在感兴趣的物品。排序阶段需要融入大量用户端的特征、物品端的特征，使用较为复杂的模型，对召回阶段输出的物品集合进行排序，为用户做精准的个性化推荐。排序模型融入特征不仅需要考虑单独每一个特征，更需要考虑特征之间的交互信息。特征交互也叫特征组合，通过将两个或多个特征组合起来进行数学计算，实现对样本空间的非线性变换，增加模型的非线性能力，以达到对于不同的特征组合都能进行有效预测的目标。特征交互的方法一般包含枚举法、非深度特征交互和深度特征交互。现有的方法有以下缺点：

2、1.在处理连续型特征群的数据集时，autoint算法可能会面临一些挑战。由于连续型特征的连续性质，它们通常不能直接用于特征交互，因此autoint可能无法从这些特征中充分提取有用的交互信息来进行有效的客户分类。在这种情况下，autoint算法可能更多地依赖于其深度神经网络部分来提取潜在的信息，以尽可能地利用数据中的有用信息。然而，这种方法可能无法充分发挥autoint算法的核心优势，即高阶特征交互能力。

3、2.现有传统机器学习算法的特征提取能力有限，可能无法充分发掘数据中的有效特征，从而影响模型的训练效果。传统机器学习算法在处理特征之间的复杂交互时，往往难以准确捕捉和建模。传统机器学习算法对数据的质量和规模要求较

技术实现思路

1、本专利技术为了提升金融场景下的营销与风控预测准确率，提出了一种将金融数据集连续特征群应用于特征交互的点击率预测方法。可以有效解决
技术介绍
中的问题。

2、为实现上述目的，本专利技术采取的技术方案为：

3、一种基于连续特征群的点击率预测方法，该方法针对金融行业数据集的连续特征群，通过自动选择部分连续型特征进行分箱，将连续特征转化为离散特征，以增强特征交互的效果，提高点击率预测模型的性能，该方法首先对金融行业数据集进行数据预处理，包括缺失值填充、异常值剔除和数据标准化等步骤，以确保数据的完整性和一致性。然后，通过自定义的特征分箱数量及模型参数的自动化迭代模块，对预处理后的数据进行特征衍生，得到离散特征群。这些离散特征群与原始连续特征群一起作为输入，输入至点击率预测模型进行训练，该方法可以在训练过程中自动调整模型参数和特征分箱数量，以得到最佳的模型性能。这种方法能够提高模型的预测精度和泛化能力，同时降低模型过拟合的风险，包含以下步骤：

4、步骤s1：金融数据集的数据清洗与缺失值填充；

5、步骤s2：特征标准化与标签编码；

6、步骤s3：最优分箱特征数量及模型参数迭代；

7、步骤s4：基线方法性能对比；

8、所述步骤s1在数据清洗阶段，我们首先对缺失值进行处理。对于那些缺失值率大于90％的特征，我们选择剔除它们。为了填补这些缺失值，我们采用了中位数填充的方法。此外，我们还识别并去除了那些方差过高的离群值，这些值可能代表着数据集中的异常值。为了使数据集中的数值具有可比性，我们采用了min-max标准化(也称为归一化)的策略。这种策略对每个属性进行操作，设定属性a的最小值和最大值分别为mina和maxa。然后，我们将属性a的一个原始值x通过min-max标准化映射到区间[0,1]中。公式如下：

9、新数据＝(原数据-最小值)/(最大值-最小值)

10、通过这样的处理，我们可以确保数据集中的数值都在一个统一的范围内，便于后续的数据分析和建模。

11、在步骤s2中，我们进行了特征标准化和标签编码。对于那些最大值和最小值不明确的连续性特征，我们采用了z-score标准化的方法。这种方法是基于原始数据的均值和标准差来进行数据规范化的。具体来说，我们将属性a的原始值x通过z-score标准化映射到新的值x'。在进行z-score标准化时，我们使用以下公式：

12、新数据＝(原数据-均值)/标准差。

13、这种标准化方法非常适合于那些最大值和最小值未知，或者存在超出取值范围的离群数据的情况。通过这种方法，我们可以确保不同特征之间的数值具有可比性，同时也能保留数据的原有分布。

14、所述步骤s3最优分箱特征数量及模型参数迭代是在模型选择上，使用autoint利用带残差连接的多头自注意力机制显式的进行交互特征的获取，能够自动学习高阶特征交叉。核心部分是interacting layer，将输入的张量e∈rd转换为wqurey、wkey、wvalue，对于第h个attention head，当第m个嵌入向量em作为query时，其对应输出为：

15、

16、

17、

18、其中，为可自定义的相似度计算函数，本文的方法选择向量内积的计算方式，对于em，拼接它的h个attention head的输出，使用标准残差连接，得到最终输出通过自注意力的方式计算每个特征与其他特征的相似度，加权求和得到新特征。模型也包含多个注意力层以构造更高阶的组合特征，隐藏层部分利用embedding层+mlp层组成深度神经网络(dnn)来隐式地建模特征交互的高阶关系，来解决显式特征交互带来的问题。将高维离散特征转换为固定长度的连续特征，然后通过多个全连接层(fully connected)，最后通过一个激活函数得到点击的概率，特征工程部分，金融数据集包含m个离散型特征和n个连续型特征，对于n个连续型特征进行部分分箱处理，首先选择参与分箱的特征数量为n的特征，通过特征分箱转换为离散型特征，与m个离散特征进行融合，此m+n个离散特征被用来输入至注意力层(attention layer)进行特征交互的点积计算，n个连续性特征除了通过注意力层的求和计算得到加权结果，也会输入至深度神经网络(hidden layer)进行矩阵运算，两部分的结果通过sigmoid激活函数进行统一输出得到最终结果。通过自动化迭代模块，设置n的迭代范围，对以上步骤进行迭代，每次迭代保留最优分箱方案及参数，该方法在下文进行基线方法对比时称为sparse filling autoint。

19、所述步骤s4我们进行了基线方法性能对比。为了获得最优的连续型特征分箱方案和对应的模型性能，我们采用了自动化部分特征分箱和迭代步骤。在相同的数据集、清洗、填充和编码方式下，我们输出了基线方法的性能，然后与本文方法进行了性能指标对比。

20、所述特征交互点击率预测模型在金融数据集上，特征交互点击率预测模型在预测精度和泛化能力上超越了传统的机器学习方法，如评分卡。传统方法主要考虑单个特征对预测目标的影响，而未涉及特征间的交互信息。然而，在实际本文档来自技高网...

【技术保护点】

1.一种基于连续特征群的点击率预测方法，其特征在于：该方法针对金融行业数据集的连续特征群，通过自动选择部分连续型特征进行分箱，将连续特征转化为离散特征，以增强特征交互的效果，提高点击率预测模型的性能，该方法首先对金融行业数据集进行数据预处理，包括缺失值填充、异常值剔除和数据标准化等步骤，以确保数据的完整性和一致性。然后，通过自定义的特征分箱数量及模型参数的自动化迭代模块，对预处理后的数据进行特征衍生，得到离散特征群。这些离散特征群与原始连续特征群一起作为输入，输入至点击率预测模型进行训练，该方法可以在训练过程中自动调整模型参数和特征分箱数量，以得到最佳的模型性能。这种方法能够提高模型的预测精度和泛化能力，同时降低模型过拟合的风险，包含以下步骤：

2.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤S1金融数据集的数据清洗与缺失值填充是本文使用的数据集为连续性特征群，对于特征缺失值大于90％的特征进行剔除，对缺失值进行中位数填充处理。数据标准化分为两部分：

3.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所

4.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤S3最优分箱特征数量及模型参数迭代是在模型选择上，使用AutoInt利用带残差连接的多头自注意力机制显式的进行交互特征的获取，能够自动学习高阶特征交叉。核心部分是Interacting Layer，将输入的张量e∈Rd转换为WQurey、WKey、WValue，对于第h个Attentionhead，当第m个嵌入向量em作为query时，其对应输出为：

5.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤S4基线方法性能对比是通过自动化部分特征分箱与迭代步骤，获得最优连续型特征的分箱方案与对应的模型性能，在同样的数据集和清洗、填充、编码方式不变的前提下，进行基线方法性能输出，与本文方法进行性能指标对比。

6.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述特征交互点击率预测模型在连续性特征群金融数据集上的应用，相比于广泛应用于金融场景下的评分卡等传统机器学习方法，具有更高的预测精度和更强的泛化能力，评分卡等传统机器学习方法通常只考虑了单个特征对预测目标的影响，而忽略了特征之间的交互信息，然而，在实际金融场景中，不同的特征之间往往存在着复杂的交互作用，这会对预测结果产生重要影响，特征交互点击率预测模型通过将两个或多个特征组合起来进行数学计算，实现对样本空间的非线性变换，增加了模型的非线性能力，这种方法能够挖掘出不同的特征组合的特征信息，从而更有效地预测点击率，此外，特征交互点击率预测模型还能够自动地选择重要的特征和特征组合，从而避免了人工选择特征的繁琐过程，提高了模型的自动化程度和可解释性，在连续性特征群金融数据集上应用特征交互点击率预测模型，能够更充分地利用数据中的信息，更好地捕捉特征之间的交互作用，从而提高预测的准确性和可靠性，这种方法对于金融行业的风险评估、客户分群、广告投放等应用场景具有重要的意义。

7.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述自动选择部分连续型特征进行分箱操作，以填充离散特征群，是一种创新的特征工程技术，此方法突破了传统的异常值检测和缺失值处理方式，引入了连续特征的离散化处理，并通过网格化搜索模块进行自动迭代，以寻找最佳的特征转换方式，对于深度学习模型，通常只需要对连续特征进行标准化处理，并对离散特征进行标签化即可，然而，对于金融数据集中的连续特征群，这种方法无法充分发挥点击率预测模型中的高阶特征交互优势，为了解决这个问题，该方法选择了适量的连续性特征进行离散化处理，以填充离散特征群，这种离散特征填充方法在保留深度神经网络(DNN)的特征提取深度的同时，通过增加注意力点积模块的高阶特征交互组合能力，对模型结果的权重进行了进一步优化，这种方法提升了点击率预测模型的性能，使其更准确地捕捉和理解金融数据中的复杂模式和趋势，总的来说，这种方法通过创新地处理连续性特征，增强了点击率预测模型的特征交互能力，提高了模型的预测精度和泛化能力，这种自动化的特征工程方法为金融数据分析提供了一种新的、有效...

【技术特征摘要】

2.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤s1金融数据集的数据清洗与缺失值填充是本文使用的数据集为连续性特征群，对于特征缺失值大于90％的特征进行剔除，对缺失值进行中位数填充处理。数据标准化分为两部分：

3.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤s2特征标准化与标签编码是指对于最值不明确的连续性特征群，使用z-score标准化(规范化)：基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将a的原始值x使用z-score标准化到x'。z-score标准化方法适用于属性a的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况：

4.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤s3最优分箱特征数量及模型参数迭代是在模型选择上，使用autoint利用带残差连接的多头自注意力机制显式的进行交互特征的获取，能够自动学习高阶特征交叉。核心部分是interacting layer，将输入的张量e∈rd转换为wqurey、wkey、wvalue，对于第h个attentionhead，当第m个嵌入向量em作为query时，其对应输出为：

5.根据权利要求1所述的一种基于连续特征群的点击率预测方法，其特征在于：所述步骤s4基线方法性能对比是通过自动化部分特征分箱与迭代步骤，获得最优连续型特征的分箱方案与对应的模型性能，在同样的数据集和清洗、填充、编码方式不变的前提下，进行基线方法性能输出，与本文方法进行性能指标对比。

【专利技术属性】
技术研发人员：张晓晶，夏沛然，刘丛爱，
申请(专利权)人：浪潮通信信息系统天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人