一种数据处理方法和相关装置制造方法及图纸

技术编号:39251805 阅读:8 留言:0更新日期:2023-10-30 12:03
本申请实施例公开了一种数据处理方法和相关装置,可应用于人工智能等领域,该方法基于各个特征值在样本数据集合中出现的次数,即特征值频次,将特征值划分为多个特征组,在通过特征向量层对各个特征组进行特征提取时,使得处于同一特征组的特征值共享一个初始共享特征向量,从而相比于每个特征值对应一个特征向量,再基于该特征向量训练得到点击率预测模型,不仅降低了特征向量层的参数,降低了存储开销,而且减少了特征向量的数量,从而降低了搜索空间的大小,使得点击率预测模型的复杂度降低,提高训练效率。基于该点击率预测模型可以为对象推荐其感兴趣的多媒体信息,通过精准推荐提高多媒体数据的点击率。推荐提高多媒体数据的点击率。推荐提高多媒体数据的点击率。

【技术实现步骤摘要】
一种数据处理方法和相关装置


[0001]本申请涉及数据处理
,特别是涉及一种数据处理方法和相关装置。

技术介绍

[0002]随着网络和计算机技术的发展,对象可以在浏览相同的页面时看到不同的多媒体数据,从而实现多媒体数据的个性化展示。一般可以通过预测不同对象对不同多媒体信息的点击率,了解不同对象感兴趣的多媒体数据,从而向每个对象更精准的展示其感兴趣的多媒体数据,以提高多媒体数据的点击率,改善多媒体数据投放效果和页面的访问量。
[0003]相关技术中,一般基于对象数据和多媒体数据等输入数据,通过点击率预测模型进行预测,得到对象点击某个多媒体数据的概率。其中,点击率预测模型一般采用深度学习模型,深度学习模型包括的特征向量层能够对输入数据进行特征提取,其相当于一个查询表,可以把输入数据映射为特征向量。输入数据一般包括多个特征,以年龄特征为例,查询表中的一行数字对应于年龄特征对应的各个特征值,如图1所示,将年龄特征“20岁”输入至特征向量层后,特征向量层输出的“1.2,

0.12,4.32,3.2”即为该特征值对应的特征向量。
[0004]随着输入数据包括的特征增多,特征向量层就会增大。例如,对象数据和多媒体数据等输入数据包括数亿个特征,则特征向量层也会有数亿行,特征向量层的参数会非常庞大,不仅使得点击率预测模型的参数增多,导致存储开销变大,还会使得点击率预测模型的复杂度较高,训练效率低。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,用于在降低点击率预测模型的参数,降低存储开销的同时,降低点击率预测模型的复杂度,提高训练效率。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供一种数据处理方法,所述方法包括:
[0008]获取包括多个特征的样本数据集合,所述样本数据集合中的各个样本数据具有真实点击结果;
[0009]根据所述样本数据集合,确定多个所述特征中目标特征对应的多个特征值频次,所述特征值频次为所述样本数据集合中所述目标特征对应的多个特征值分别出现的次数;
[0010]基于多个所述特征值频次,对所述目标特征对应的多个特征值进行划分,得到多个特征组,处于同一个所述特征组的特征值对应的特征值频次间的差值小于第一预设频次阈值;
[0011]通过初始点击率预测模型包括的特征向量层,分别对多个所述特征分别对应的特征组进行特征提取,得到各个所述特征组分别对应的初始共享特征向量,处于同一个所述特征组的特征值对应同一个初始共享特征向量;
[0012]根据多个所述初始共享特征向量,通过所述初始点击率预测模型包括的交互层进
行预测,得到预测点击结果;
[0013]根据所述预测点击结果和对应的真实点击结果的差异,调整所述初始点击率预测模型的模型参数,得到点击率预测模型。
[0014]另一方面,本申请实施例提供一种数据处理装置,所述装置包括:获取单元、确定单元、划分单元、特征提取单元、预测单元和调整单元;
[0015]所述获取单元,用于获取包括多个特征的样本数据集合,所述样本数据集合中的各个样本数据具有真实点击结果;
[0016]所述确定单元,用于根据所述样本数据集合,确定多个所述特征中目标特征对应的多个特征值频次,所述特征值频次为所述样本数据集合中所述目标特征对应的多个特征值分别出现的次数;
[0017]所述划分单元,用于基于多个所述特征值频次,对所述目标特征对应的多个特征值进行划分,得到多个特征组,处于同一个所述特征组的特征值对应的特征值频次间的差值小于第一预设频次阈值;
[0018]所述特征提取单元,用于通过初始点击率预测模型包括的特征向量层,分别对多个所述特征分别对应的特征组进行特征提取,得到各个所述特征组分别对应的初始共享特征向量,处于同一个所述特征组的特征值对应同一个初始共享特征向量;
[0019]所述预测单元,用于根据多个所述初始共享特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果;
[0020]所述调整单元,用于根据所述预测点击结果和对应的真实点击结果的差异,调整所述初始点击率预测模型的模型参数,得到点击率预测模型。
[0021]另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
[0022]所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
[0023]所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。
[0024]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
[0025]另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
[0026]由上述技术方案可以看出,获取包括多个特征的样本数据集合,针对多个特征中的目标特征,基于在样本数据集合中目标特征对应的多个特征值分别出现的次数,得到各个特征值分别对应的特征值频次,并基于各个特征值频次,将目标特征对应的多个特征值划分至多个特征组中,使得处于同一个特征组的特征值,其对应的特征值频次的差值小于第一预设频次阈值,即将特征值频次相近的特征值划分至同一个特征组中。将各个特征分别对应的特征组分别输入至初始点击率预测模型中,通过初始点击率预测模型包括的特征向量层进行特征提取,得到各个特征组分别对应的初始共享特征向量,从而处于同一个特征组的特征值对应同一个初始共享特征向量,相比于每个特征值对应一个特征向量,降低了特征向量数量和搜索空间的大小。基于初始共享特征向量,通过初始点击率预测模型包
括的交互层进行预测,得到预测点击结果,并根据预测点击结果和对应的真实点击结果的差异,调整初始点击率预测模型的模型参数,得到点击率预测模型。
[0027]由此,基于各个特征值在样本数据集合中出现的次数,即特征值频次,将特征值划分为多个特征组,在通过特征向量层对各个特征组进行特征提取时,使得处于同一特征组的特征值共享一个初始共享特征向量,从而相比于每个特征值对应一个特征向量,不仅降低了特征向量层的参数,降低了存储开销,而且减少了特征向量的数量,从而降低了搜索空间的大小,使得点击率预测模型的复杂度降低,提高训练效率。
附图说明
[0028]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为一种特征向量层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取包括多个特征的样本数据集合,所述样本数据集合中的各个样本数据具有真实点击结果;根据所述样本数据集合,确定多个所述特征中目标特征对应的多个特征值频次,所述特征值频次为所述样本数据集合中所述目标特征对应的多个特征值分别出现的次数;基于多个所述特征值频次,对所述目标特征对应的多个特征值进行划分,得到多个特征组,处于同一个所述特征组的特征值对应的特征值频次间的差值小于第一预设频次阈值;通过初始点击率预测模型包括的特征向量层,分别对多个所述特征分别对应的特征组进行特征提取,得到各个所述特征组分别对应的初始共享特征向量,处于同一个所述特征组的特征值对应同一个初始共享特征向量;根据多个所述初始共享特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果;根据所述预测点击结果和对应的真实点击结果的差异,调整所述初始点击率预测模型的模型参数,得到点击率预测模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预设长度阈值调整所述初始共享特征向量的长度,得到自适应特征向量,所述自适应特征向量的长度小于或等于所述初始共享特征向量的长度;所述根据多个所述初始共享特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果,包括:根据多个所述自适应特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果。3.根据权利要求2所述的方法,其特征在于,所述初始共享特征向量包括多个特征分量,所述根据预设长度阈值调整所述初始共享特征向量的长度,得到自适应特征向量,包括:将多个所述特征分量中小于所述预设长度阈值的特征分量删除,得到所述自适应特征向量。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:记录小于所述预设长度阈值的特征分量在所述初始共享特征向量中的位置;所述根据多个所述自适应特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果,包括:在所述自适应特征向量中,基于所述位置增加预设值,得到预测特征向量;根据多个所述预测特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果。5.根据权利要求2所述的方法,其特征在于,所述初始共享特征向量包括多个特征分量,所述根据预设长度阈值调整所述初始共享特征向量的长度,得到自适应特征向量,包括:获取所述初始共享特征向量对应的预设长度阈值,所述预设长度阈值是基于所述初始共享特征向量对应的特征值频次确定的,其中,所述初始共享特征向量对应的特征值频次
越高,所述初始共享特征向量对应的预设长度阈值越小;在所述初始共享特征向量中,从预设分量位置开始连续删除长度为所述初始共享特征向量对应的预设长度阈值的特征分量,得到所述自适应特征向量。6.根据权利要求1所述的方法,其特征在于,所述初始点击率预测模型还包括特征选择层,所述方法还包括:通过所述特征选择层,从多个所述初始共享特征向量中选择至少一个共享特征向量,所述共享特征向量的重要性参数大于预设重要性阈值;所述根据多个所述初始共享特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果,包括:根据至少一个所述共享特征向量,通过所述初始点击率预测模型包括的交互层进行预测,得到预测点击结果。7.根据权利要求6所述的方法,其特征在于,所述初始点击率预测模型的模型参数包括特征选择层参数和其他可训练参数,所述方法还包括:获取初始样本数据集合;将所述初始样本数据集合划分为训练集和验证集;将所述训练集和所述验证集分别作为所述样本数据集合,执行所述根据所述样本数据集合,确定多个所述特征中目标特征对应的多个特征值频次步骤以及后续步骤,得到第一预测点击结果和第二预测点击结果,所述第一预测点击结果是基于所述训练集得到的,所述第二预测点击结果是基于所述验证集得到的;其中,所述根据所述预测点击结果和对应的真实点击结果的差异,调整所述初始点击率预测模型的模型参数,得到点击率预测模型,包括:根据所述第一预测点击结果和对应的真实点击结果的差异,调整所述其他可训练参数,...

【专利技术属性】
技术研发人员:石志林
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1