数据确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33089371 阅读:31 留言:0更新日期:2022-04-15 10:59
本公开关于一种数据确定方法、装置、电子设备及存储介质,能够从多个方面刻画用户兴趣,提高召回率;涉及大数据处理技术领域。该方法包括:获取目标对象针对目标资源的交互信息;根据所述交互信息确定所述目标对象的特征;所述目标对象的特征包括多个维度的特征;确定多组权重系数,每组权重系数包括与所述多个维度的特征对应的多个权重系数;对每组权重系数与所述目标对象的特征进行加权处理,得到所述目标对象的多个向量;其中,目标对象的每个向量对应一组权重系数;对所述目标对象的每个向量检索相关性符合预设要求的候选资源,根据所述目标对象的多个向量中每个向量对应的候选资源确定所述目标对象对应的数据召回结果。果。果。

【技术实现步骤摘要】
数据确定方法、装置、电子设备及存储介质


[0001]本公开涉及大数据处理
,尤其涉及一种数据确定方法、数据确定装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]数据召回指的是从具有上百万条数据的数据库中确定出用户最感兴趣的一部分数据的过程。数据具体可以包括图片、文本、视频等,也可以包括目标资源,例如广告、商品等。确定出的数据会经过排序后展现给用户,对数据检索、信息推广等均具有至关重要的作用。
[0003]相关技术中,数据召回主要采用:基于向量化的召回方案,基于标签的召回方案,以及基于特征的召回方案。其中,基于向量化的召回方案通过神经网络为用户和广告各学习一个向量表达,再计算用户的向量与广告的向量的相关性,对相关性高的目标广告进行召回。然而,用户的兴趣往往是多样的,上述基于向量化的召回方案难以刻画用户多方面的兴趣,其召回结果偏向热门广告,缺乏准确性。

技术实现思路

[0004]本公开提供一种数据确定方法、装置、电子设备及存储介质,以至少解决相关技术中数据召回的准确性低的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种数据确定方法,包括:获取目标对象针对目标资源的交互信息;根据交互信息确定目标对象的特征;目标对象的特征包括多个维度的特征;确定多组权重系数,每组权重系数包括与多个维度的特征对应的多个权重系数;对每组权重系数与目标对象的特征进行加权处理,得到目标对象的多个向量;其中,目标对象的每个向量对应一组权重系数;对目标对象的每个向量检索相关性符合预设要求的候选资源,根据目标对象的多个向量中每个向量对应的候选资源确定目标对象对应的数据召回结果。
[0006]本公开的实施例提供的技术方案至少带来以下有益效果:
[0007]在本实施例的技术方案中,根据目标对象的特征可以得到目标对象的多个向量,多个向量可以从多个方面刻画用户兴趣,从而使得召回的数据能够更加全面地匹配用户兴趣,提高召回率。同时,将一个目标对象通过多个向量来表达,能增大不同用户之间的差异,使得召回的数据更加满足用户的个性化需求,从而提高数据召回的准确性。
[0008]在一种示例性实施方式中,对每组权重系数与所述目标对象的特征进行加权处理,得到目标对象的多个向量包括:将所述目标对象的特征输入预置的多个特征选择网络,每个特征选择网络中包含一组权重系数,通过所述特征选择网络的权重系数为所述目标对象的特征进行加权,获得每个所述特征选择网络输出的向量。
[0009]上述特征选择网络为一机器学习模型,通过机器学习模型的方式为目标对象的特征进行加权,可以提高权重系数的准确性,并且该权重系数可以不断进行更新,保证可用性
和有效性。
[0010]在一种示例性实施方式中,上述方法还包括:获取样本特征以及所述样本特征对应的标签信息;其中,所述样本特征中包含样本对象特征以及样本资源特征;所述标签信息用于表征所述样本对象特征对应的样本对象与所述样本资源特征对应的样本资源之间是否存在交互行为;将所述样本特征中的样本对象特征输入多个第一模型,获得每个所述第一模型输出的样本向量;确定所述样本特征中样本资源特征对应的样本资源向量;分别计算每个样本向量与所述样本资源向量的相似度,确定所述相似度最高的目标样本向量;根据所述目标样本向量和所述样本资源向量,确定预估交互行为发生概率;根据所述预估交互行为发生概率和所述样本特征对应的标签信息,训练所述多个第一模型,直至满足预设训练结束条件,得到所述多个特征选择网络。
[0011]通过训练后的多个第一模型即能够保证准确地刻画目标对象,得出目标对象的向量,又能够保证从多个方面,不同的侧重点表征出目标对象的不同的特点,提高各个向量之间的差异性,提高了向量的个性化。
[0012]在一种示例性的实施方式中,根据所述预估交互行为发生概率和所述样本特征对应的标签信息,训练所述多个第一模型,直至满足预设训练结束条件,得到所述多个特征选择网络,包括:根据所述预估交互行为发生概率和所述样本特征对应的标签信息确定损失值;根据所述损失值,更新所述目标样本向量对应的第一模型中的模型参数,直至所述损失值满足预设结束条件时,结束对所述多个第一模型的训练;将训练结束时的所述第一模型作为所述特征选择网络,训练结束时所述第一模型的模型参数为所述特征选择网络的权重系数。
[0013]在一种示例性的实施方式中,将样本特征中的样本目标对象的特征输入多个第一模型之前,上述方法还包括:随机确定多个第一模型的模型参数的初始值。
[0014]第一模型的初始值为随机确定,可以提高不同的第一模型之间的差异性,从而提高不同对象向量之间的差异性。
[0015]在一种示例性的实施方式中,对每组权重系数与目标对象的特征进行加权处理,得到所述目标对象的多个向量,包括:对目标对象的特征进行聚类,获得聚类之后的类簇;根据类簇对应的权重系数确定目标对象的特征的权重系数,以获得每个类簇对应的向量。
[0016]聚类模型可以无监督地将目标对象的特征划分为多个类簇,更有利于发掘用户兴趣,提高对目标资源的召回率。并且,在聚类过程中也不需要人为参与,能够提高效率,节省人力时间资源。
[0017]在一种示例性的实施方式中,通过特征选择网络的权重系数为目标对象的特征进行加权,获得每个特征选择网络输出的目标对象的向量,包括:将目标对象的特征输入特征选择网络,特征选择网络包括压缩层、激励层以及输出层;通过压缩层对目标对象的特征的维度进行压缩,获得一维的目标对象的特征;通过激励层包含的权重系数对一维的目标对象的特征进行加权,获得加权后的目标对象的特征;通过输出层对加权后的目标对象的特征进行降维,得到目标对象的向量。
[0018]上述实施方式中,特征选择网络不仅能够对目标对象的特征进行加权,得到多个向量,丰富对用户兴趣的表征,还能够对特征进行降维,减少计算量,提高计算速度。
[0019]在一种示例性的实施方式中,交互信息包括对象属性信息、对象行为信息、资源属
性信息、资源行为信息或对象资源交互信息中的一种或多种。交互信息中包含的信息越多则目标对象的特征的数量和维度越高,对目标对象的特征的表征越全面,有利于提高用户向量的准确性。
[0020]根据本公开实施例的第二方面,提供一种数据确定装置,包括:数据采集模块,被配置为获取目标对象的交互信息;特征提取模块,被配置为根据交互信息确定目标对象的特征,目标对象的特征包括多个维度的特征;向量表达模块,被配置为确定多组权重系数,每组权重系数包括与多个维度的特征对应的多个权重系数;对每组权重系数与目标对象的特征进行加权处理,得到所述目标对象的多个向量;其中,目标对象的每个向量对应一组权重系数;召回结果确定模块,被配置为对目标对象的每个向量检索相关性符合预设要求的多个候选资源,根据目标对象的多个向量中每个向量对应的候选资源确定目标对象对应的数据召回结果。
[0021]在本公开实施例的第二方面的一种实施方式中,向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据确定方法,其特征在于,包括:获取目标对象针对目标资源的交互信息;根据所述交互信息确定所述目标对象的特征;所述目标对象的特征包括多个维度的特征;确定多组权重系数,每组权重系数包括与所述多个维度的特征对应的多个权重系数;对每组权重系数与所述目标对象的特征进行加权处理,得到所述目标对象的多个向量;其中,所述目标对象的每个向量对应一组权重系数;对所述目标对象的每个向量检索相关性符合预设要求的候选资源,根据所述目标对象的多个向量中每个向量对应的候选资源确定所述目标对象对应的数据召回结果。2.根据权利要求1所述的方法,其特征在于,所述对每组权重系数与所述目标对象的特征进行加权处理,得到所述目标对象的多个向量包括:将所述目标对象的特征输入预置的多个特征选择网络,每个特征选择网络中包含一组权重系数,通过所述特征选择网络的权重系数为所述目标对象的特征进行加权,获得每个所述特征选择网络输出的所述目标对象的向量。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取样本特征以及所述样本特征对应的标签信息;其中,所述样本特征中包含样本对象特征以及样本资源特征;所述标签信息用于表征所述样本对象特征对应的样本对象与所述样本资源特征对应的样本资源之间是否存在交互行为;将所述样本特征中的样本对象特征输入多个第一模型,获得每个所述第一模型输出的样本向量;确定所述样本特征中样本资源特征对应的样本资源向量;分别计算每个样本向量与所述样本资源向量的相似度,确定所述相似度最高的目标样本向量;根据所述目标样本向量和所述样本资源向量,确定预估交互行为发生概率;根据所述预估交互行为发生概率和所述样本特征对应的标签信息,训练所述多个第一模型,直至满足预设训练结束条件,得到所述多个特征选择网络。4.根据权利要求3所述的方法,其特征在于,根据所述预估交互行为发生概率和所述样本特征对应的标签信息,训练所述多个第一模型,直至满足预设训练结束条件,得到所述多个特征选择网络,包括:根据所述预估交互行为发生概率和所述样本特征对应的标签信息确定损失值;根据所述...

【专利技术属性】
技术研发人员:林伟陈超超
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1