用户特征的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:19635691 阅读:20 留言:0更新日期:2018-12-01 16:19
本申请公开了一种用户特征的生成方法、装置、设备及存储介质,涉及视频推荐领域。所述用户特征的生成方法包括:获取n组目标视频和用户帐号之间的时序对应关系,得到词嵌入矩阵;使用损失函数对所述词嵌入矩阵进行训练;将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。本申请是基于用户观看历史和/或用户搜索历史来提取用户特征,只要用户正常使用视频系统就会不断产生和更新这些数据,不需要依赖其它数据源,因此能够解决相关工作中的方法对属性信息为空或不完整或错误的用户无法生成有效的用户特征的问题,能够对使用视频系统的用户均能生成较为准确的用户特征。

User Feature Generation Method, Device, Equipment and Storage Media

The application discloses a method, device, device and storage medium for generating user characteristics, which relates to the field of video recommendation. The generation method of user characteristics includes: acquiring the temporal correspondence between N groups of target videos and user accounts, obtaining the word embedding matrix; training the word embedding matrix with loss function; embedding the trained words into the word vector corresponding to the user account in the matrix to determine the user account. User characteristics of the number. This application is based on user's viewing history and/or user search history to extract user characteristics. As long as the user uses the video system normally, these data will be generated and updated continuously without relying on other data sources. Therefore, it can solve the problem that the method in related work can not generate users whose attribute information is empty or incomplete or incorrect. The problem of generating effective user features can generate more accurate user features for users using video systems.

【技术实现步骤摘要】
用户特征的生成方法、装置、设备及存储介质
本申请涉及视频推荐领域,特别涉及一种用户特征的生成方法、装置、设备及存储介质。
技术介绍
视频推荐系统是用于根据用户的观看历史和/或搜索历史向该用户推荐其它可能感兴趣视频的系统。典型的视频推荐系统包括:候选生成模型和排序模型。将某一用户的观看历史和/或搜索历史输入候选生成模型后,得到M个推荐视频;然后将M个推荐视频输入排序模型,排序模型会将M个推荐视频按照用户可能感兴趣的程度进行排序后,输出给该用户。其中,M为正整数。相关技术中的候选生成模型采用DNN(DeepNeuralNetworks,深度神经网络)来实现。该DNN的输入量包括:用户的用户特征、用户的观看历史和/或用户的搜索历史,输出量包括为该用户推荐的M个推荐视频。用户的用户特征可以是将用户的年龄、性别、地域、爱好标签等属性信息进行向量化得到的。由于很多用户在视频系统中不填写属性信息或填写不完整的属性信息,所以上述方法对很多用户都无法生成用户特征。虽然也可以从用户使用的社交聊天系统中提取到较多的属性信息,但由于用户在视频系统中会使用第一用户帐号,而在社交聊天系统中会使用第二用户帐号,对两种帐号体系中的用户帐号进行准确关联是非常困难的,如果关联错误也会导致最终生成的用户特征的错误。因此上述生成方法对属性信息为空或不完整或错误的用户无法生成有效的用户特征。
技术实现思路
本申请提供一种用户特征的生成方法、装置、设备及存储介质,可以用于解决相关技术中的生成方法对属性信息为空或不完整或错误的用户无法生成有效的用户特征的问题。所述技术方案如下:根据本申请实施例的一个方面,提供了一种用户特征的生成方法,所述方法包括:获取n组目标视频和用户帐号之间的时序对应关系,每组所述时序对应关系包括查看过所述目标视频的各个用户帐号,且所述用户帐号按照查看时间戳进行排序,n为正整数;根据n组所述时序对应关系映射得到词嵌入矩阵,所述词嵌入矩阵包括每个所述用户帐号对应的词向量;使用损失函数对所述词嵌入矩阵进行训练,所述损失函数用于根据观看历史的相似程度挖掘各个所述用户帐号之间的相似关系;将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。根据本申请实施例的另一方面,提供了一种用户特征的生成装置,所述装置包括:获取模块,用于获取n组目标视频和用户帐号之间的时序对应关系,每组所述时序对应关系包括查看过所述目标视频的各个用户帐号,且所述用户帐号按照查看时间戳进行排序;映射模块,用于根据n组所述时序对应关系映射得到词嵌入矩阵,所述词嵌入矩阵包括每个所述用户帐号对应的词向量;训练模块,用于使用损失函数对所述词嵌入矩阵进行训练,所述损失函数用于根据观看历史的相似程度挖掘各个所述用户帐号之间的相似关系;确定模块,用于将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。根据本申请实施例的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的用户特征的生成方法。根据本申请实施例的另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的用户特征的生成方法。本申请实施例提供的技术方案可以达到的有益效果至少包括:通过基于用户观看历史和/或用户搜索历史来提取用户特征,而这些历史数据均为视频系统中自动产生的数据,只要用户正常使用视频系统就会不断产生和更新这些数据,不需要依赖其它数据源,因此能够解决相关技术中的方法对属性信息为空或不完整或错误的用户无法生成有效的用户特征的问题,能够对使用视频系统的用户均能生成较为准确的用户特征,且该用户特征能够充分体现出各个用户帐号在视频观看角度的特点,适合作为与视频推荐系统相关的神经网络模型的输入参数。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。图1是本申请一个示例性实施例提供的视频推荐系统的框图。图2是本申请一个示例性实施例提供的用户特征的生成方法的流程图;图3是本申请一个示例性实施例提供的用户特征的生成方法的流程图;图4是本申请另一个示例性实施例提供的用户特征的生成方法的原理示意图;图5是本申请另一个示例性实施例提供的用户特征的生成方法的流程图;图6是本申请另一个示例性实施例提供的用户特征的生成方法在实施过程中的界面示意图;图7是本申请另一个示例性实施例提供的用户特征的生成方法与UCF推荐方法的效果对比图;图8本申请一个示例性实施例提供的用户特征的生成装置的框图;图9本申请另一个示例性实施例提供的用户特征的生成装置的框图;图10申请一个示例性实施例提供的用户特征的生成装置的框图;图11申请一个示例性实施例提供的服务器的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。本申请实施例提供了一种基于用户的观看历史和/或搜索历史来提取用户特征的技术方案。该技术方案可以用于视频播放系统相关的神经网络模型的训练过程以及使用过程。典型的,该用户特征可以用于视频推荐系统中的候选生成模型的训练及使用,或者,用于视频推荐系统中的排序模型的训练及使用。典型的应用场景包括如下场景中的任意一种:一、视频推荐场景:视频推荐系统中设置有视频库,该视频库包括多个视频,比如数以百万计的视频。对于某一个用户帐号,需要基于该用户帐号的兴趣爱好从视频库中挑选出候选推荐集。示意性的,视频推荐系统采用候选生成模型从视频库中挑选出候选推荐集。该候选生成模型可以是基于DNN(DeepNeuralNetworks,深度学习网络)的神经网络模型。本申请实施例提供的用户特征适合作为该候选生成模型的输入量进行训练和使用。二、视频排序场景:在向用户推荐候选推荐集中的多个视频时,视频推荐系统会按照用户可能感兴趣的概率由高到低的顺序,将多个视频依次推荐给用户。示意性的,视频推荐系统采用排序模型对候选推荐集中的多个视频进行排序。该排序模型可以是基于DNN的神经网络模型。本申请实施例提供的用户特征适合作为该排序模型的输入量进行训练和使用。图1示出了本申请一个示例性实施例提供的视频推荐系统100的结构框图。该视频推荐系统100包括:终端120和服务器140。终端120是用户所使用的电子设备,该电子设备具有播放视频的能力。该电子设备可以是智能手机、平板电脑、MP3、MP4、掌上电脑、笔记本电脑、台式电脑中的任意一种。该电子设备上安装或运行有应用程序,该应用程序具有播放视频的功能。可选地,该应用程序是在线视频客本文档来自技高网...

【技术保护点】
1.一种用户特征的生成方法,其特征在于,所述方法包括:获取n组目标视频和用户帐号之间的时序对应关系,每组所述时序对应关系包括查看过所述目标视频的各个用户帐号,且所述用户帐号按照查看时间戳进行排序,n为正整数;根据n组所述时序对应关系映射得到词嵌入矩阵,所述词嵌入矩阵包括每个所述用户帐号对应的词向量;使用损失函数对所述词嵌入矩阵进行训练,所述损失函数用于根据观看历史的相似程度挖掘各个所述用户帐号之间的相似关系;将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。

【技术特征摘要】
1.一种用户特征的生成方法,其特征在于,所述方法包括:获取n组目标视频和用户帐号之间的时序对应关系,每组所述时序对应关系包括查看过所述目标视频的各个用户帐号,且所述用户帐号按照查看时间戳进行排序,n为正整数;根据n组所述时序对应关系映射得到词嵌入矩阵,所述词嵌入矩阵包括每个所述用户帐号对应的词向量;使用损失函数对所述词嵌入矩阵进行训练,所述损失函数用于根据观看历史的相似程度挖掘各个所述用户帐号之间的相似关系;将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。2.根据权利要求1所述的方法,其特征在于,所述使用损失函数对所述词嵌入矩阵进行训练,包括:使用噪声对比估计损失函数对所述词嵌入矩阵进行训练。3.根据权利要求2所述的方法,其特征在于,所述将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征,包括:当所述噪声对比估计损失函数的函数值低于第一结束阈值时,将所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据n组所述时序对应关系映射得到词嵌入矩阵,包括:将n组所述时序对应关系按照词向量映射方式进行映射,得到所述词嵌入矩阵。5.根据权利要求1至3任一所述的方法,其特征在于,所述获取n组目标视频和用户帐号之间的时序对应关系,包括:获取m个用户帐号的视频查看历史记录,所述视频查看历史记录包括所述用户观看过和/或搜索过的目标视频的视频标识以及查看时间戳,m为正整数;对于所述视频查看历史记录中的每个所述目标视频,将查看过所述目标视频的各个用户帐号按照对应的查看时间戳进行排序后,生成所述目标视频和所述用户帐号之间的时序对应关系。6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:获取所述用户帐号的观看历史记录和/或搜索历史记录中的视频标识,根据所述视频标识生成视频特征;将所述用户特征和所述视频特征作为样本特征输入候选生成模型中进行训练,得到训练后的候选生成模型;其中,所述训练后的候选生成模型用于根据输入的用户特征输出对视频库中各个视频的观看概率。7.根据权利要求6所述的方法,其特征在于,所述将所述用户特征和所述视频特征作为样本特征输入候选生成模型中进行训练,得到训练后的候选生成模型,包括:将所述用户特征和所述视频特征划分为h+k组数据集,所述h+k数据集包括h组训练集和k组评测集,h和k均为正整数;将所述h组训练集中的所述用户特征和所述视频特征作为样本特征输入候选生成模型中进行训练,得到所述训练后的候选生成模型;所述方法,还包括:使用所述k组评测集评估所述训练后的候选生成模型的召回率;当所述训练后的候选生成模型的召回率达到第二结束阈值时,将所述训练后...

【专利技术属性】
技术研发人员:李雪松卢靓妮冯袁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1