一种信息向量确定方法、装置、设备及存储介质制造方法及图纸

技术编号:24853821 阅读:20 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种信息向量确定方法、装置、设备及存储介质。其中,该方法包括:从数据库中获取正样本用户的特征和负样本用户的特征,其中,正样本用户为访问数据库中新信息的用户,负样本为未访问数据库中新信息的用户;根据正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量,并根据正样本用户的特征向量、负样本用户的特征向量以及新信息的向量构造第一损失函数,对第一损失函数进行处理,得到最小化的第一损失函数,根据最小化的第一损失函数确定新信息的向量。这样可以结合网站中正样本用户的特征和负样本用户的特征,全面地确定新信息的向量,提高获取新信息向量的准确度。

【技术实现步骤摘要】
一种信息向量确定方法、装置、设备及存储介质
本专利技术实施例涉及数据处理技术,尤其涉及一种信息向量确定方法、装置、设备及存储介质。
技术介绍
在信息推荐领域,通常利用模型将用户的特征和网络上各类信息的特征转化为向量,通过计算用户向量与信息向量之间的相似度,衡量用户与该信息之间的相关程度,从而将相关程度较高的信息推荐给用户。但是对于网络上新出现的信息,由于模型并未获取该信息的特征,无法得到该信息的向量。现有技术的解决方法通常是将网络上新出现的信息分发给一部分用户,对点击该信息的用户的向量取平均值,将向量平均值作为该新信息的向量。但这种获取新信息向量的实现方式的准确度不高。
技术实现思路
本专利技术提供一种信息向量确定方法、装置、设备及存储介质,能够全面地确定新信息的向量,提高获取新信息向量的准确度。第一方面,本专利技术实施例提供了一种信息向量确定方法,该方法包括:从数据库中获取正样本用户的特征和负样本用户的特征,正样本用户为访问数据库中新信息的用户,负样本为未访问数据库中新信息的用户;根据正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量;根据正样本用户的特征向量、负样本用户的特征向量以及新信息的向量构造第一损失函数;对第一损失函数进行处理,得到最小化的第一损失函数;根据最小化的第一损失函数确定新信息的向量。第二方面,本专利技术实施例还提供了一种信息向量确定装置,该装置包括:获取模块,用于从数据库中获取正样本用户的特征和负样本用户的特征,正样本用户为访问数据库中新信息的用户,负样本为未访问数据库中新信息的用户;获取模块,还用于根据正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量;构造模块,用于根据正样本用户的特征向量、负样本用户的特征向量以及新信息的向量构造第一损失函数;处理模块,用于对第一损失函数进行处理,得到最小化的第一损失函数;确定模块,用于根据最小化的第一损失函数确定新信息的向量。第三方面,本专利技术实施例还提供了一种设备,该设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当处理器执行计算机程序时,实现如本专利技术第一方面提供的信息向量确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如本专利技术第一方面提供的信息向量确定方法。本专利技术实施例提供了一种信息向量确定方法、装置、设备及存储介质,具体为从数据库中获取正样本用户的特征和负样本用户的特征,其中,正样本用户为访问数据库中新信息的用户,负样本为未访问数据库中新信息的用户;根据正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量,并根据正样本用户的特征向量、负样本用户的特征向量以及新信息的向量构造第一损失函数,对第一损失函数进行处理,得到最小化的第一损失函数,根据最小化的第一损失函数确定新信息的向量。这样可以结合网站中正样本用户的特征和负样本用户的特征,全面地确定新信息的向量,提高获取新信息向量的准确度。附图说明图1是本专利技术实施例中的信息向量确定方法流程图;图2是本专利技术实施例中的信息向量确定装置结构示意图;图3是本专利技术实施例中的设备结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。另外,在本专利技术实施例中,“可选地”或者“示例性地”等词用于表示作例子、例证或说明。本专利技术实施例中被描述为“可选地”或者“示例性地”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“可选地”或者“示例性地”等词旨在以具体方式呈现相关概念。图1为本专利技术实施例提供的一种信息向量确定方法,如图1所示,该方法具体包括:S101、从数据库中获取正样本用户的特征和负样本用户的特征。在本步骤中,上述数据库可以为各个网络平台的数据库,例如,音乐网站的数据库、电影网站的数据库、论文网站的数据库、新闻网站的数据库等等。正样本用户为访问数据库中新信息的用户,负样本为未访问数据库中新信息的用户,该新信息可以为网站最新上线的内容,例如,新电影、新专辑等。正样本用户的特征和负样本用户的特征可以为对应用户的兴趣、性别、年龄等特征。例如,某音乐网站最新上线了一个专辑,网站将该最新专辑随机推送给若干个(例如,10000个)该网站的用户,其中有的用户点击、访问了该最新专辑,那么这类用户即为正样本用户,而有的用户忽略了网站推送的这一最新专辑,并未点击、访问该专辑,则这类用户即为负样本用户。由于网站的数据库中可以保存用户的注册信息,例如,年龄、性别、兴趣等,也可以保存用户的访问记录。因此,可以基于数据库获取正样本用户的特征和负样本用户的特征。S102、根据正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量。示例性地,可以将正样本用户的特征和负样本用户的特征作为输入数据,输入第一网络模型中,其中,该第一网络模型包括有将用户和信息转化为向量的网络结构。可选地,该第一网络模型可以为现有技术中的YoutubeDNN模型或双塔模型。进而,根据第一网络模型生成正样本用户的特征向量和负样本用户的特征向量。S103、根据正样本用户的特征向量、负样本用户的特征向量以及新信息的向量构造第一损失函数。通过步骤S101和S102获取到正样本用户的特征向量和负样本用户的特征向量,进一步地,假设新信息的向量为A,那么基于这三个参数可以构造第一损失函数。示例性地,第一损失函数为L,其表达式为其中,M为正样本用户的特征向量的个数,N为负样本用户的特征向量的个数,Ui为第i个正样本用户的特征向量,Uj为第j个负样本用户的特征向量,A为新信息的向量。公式(1)中的cos(Ui,A)表示正样本用户中第i个用户与新信息之间的相关性,该相关性取值范围为-1~1,1-cos(Ui,A)表示第i个用户与新信息之间的距离值,对于正样本用户而言,该距离值越小越好。同样地,公式(1)中的cos(Uj,A)表示负样本用户中第j个用户与新信息之间的相关性,1-cos(Uj,A)表示第j个用户与新信息之间的距离值,对于负样本用户而言,该距离值则是越大越好。S104、对第一损失函数进行处理,得到最小化的第一损失函数。在本实施例中,可以通过最小化方法对上述第一损失函数进行处理,以得到最小化的第一损失函数。示例性地,可以通过梯度下降法、牛顿法等最小化方法对第一损失函数进行处理。可选地,在本实施例中,可以不要求上述得到的最小化的第一损失函数一定为最小值,本文档来自技高网...

【技术保护点】
1.一种信息向量确定方法,其特征在于,包括:/n从数据库中获取正样本用户的特征和负样本用户的特征,所述正样本用户为访问数据库中新信息的用户,所述负样本为未访问数据库中新信息的用户;/n根据所述正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量;/n根据所述正样本用户的特征向量、所述负样本用户的特征向量以及所述新信息的向量构造第一损失函数;/n对所述第一损失函数进行处理,得到最小化的第一损失函数;/n根据所述最小化的第一损失函数确定所述新信息的向量。/n

【技术特征摘要】
1.一种信息向量确定方法,其特征在于,包括:
从数据库中获取正样本用户的特征和负样本用户的特征,所述正样本用户为访问数据库中新信息的用户,所述负样本为未访问数据库中新信息的用户;
根据所述正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量;
根据所述正样本用户的特征向量、所述负样本用户的特征向量以及所述新信息的向量构造第一损失函数;
对所述第一损失函数进行处理,得到最小化的第一损失函数;
根据所述最小化的第一损失函数确定所述新信息的向量。


2.根据权利要求1所述的方法,其特征在于,根据所述正样本用户的特征和负样本用户的特征获取正样本用户的特征向量和负样本用户的特征向量,包括:
将所述正样本用户的特征和负样本用户的特征输入第一网络模型,所述第一网络模型包括有将用户和信息转化为向量的网络结构;
根据所述第一网络模型生成正样本用户的特征向量和负样本用户的特征向量。


3.根据权利要求1或2所述的方法,其特征在于,所述第一损失函数为L,其中,M为所述正样本用户的特征向量的个数,N为所述负样本用户的特征向量的个数,Ui为第i个正样本用户的特征向量,Uj为第j个负样本用户的特征向量,A为所述新信息的向量。


4.根据权利要求3所述的方法,其特征在于,对所述第一损失函数进行处理,得到最小化的第一损失函数,包括:
根据最小化方法对所述第一损失函数进行最小化处理;
当所述第一损失函数的数值小于预设阈值时,将所述第一损失函数确定为所述最小化的第一损失函数。


5.一种信息向量确定装置,其特征在于,包括:
获取模块,用于从数据库中获取正样本用户的特征和负样本用户的特征,所述正样本用户为访问数...

【专利技术属性】
技术研发人员:成梭宇
申请(专利权)人:喜丈上海网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1