The application discloses a method, device, device and storage medium for generating user characteristics, which relates to the field of video recommendation. The generation method of user characteristics includes: acquiring the temporal correspondence between N groups of target videos and user accounts, obtaining the word embedding matrix; training the word embedding matrix with loss function; embedding the trained words into the word vector corresponding to the user account in the matrix to determine the user account. User characteristics of the number. This application is based on user's viewing history and/or user search history to extract user characteristics. As long as the user uses the video system normally, these data will be generated and updated continuously without relying on other data sources. Therefore, it can solve the problem that the method in related work can not generate users whose attribute information is empty or incomplete or incorrect. The problem of generating effective user features can generate more accurate user features for users using video systems.
【技术实现步骤摘要】
用户特征的生成方法、装置、设备及存储介质
本申请涉及视频推荐领域,特别涉及一种用户特征的生成方法、装置、设备及存储介质。
技术介绍
视频推荐系统是用于根据用户的观看历史和/或搜索历史向该用户推荐其它可能感兴趣视频的系统。典型的视频推荐系统包括:候选生成模型和排序模型。将某一用户的观看历史和/或搜索历史输入候选生成模型后,得到M个推荐视频;然后将M个推荐视频输入排序模型,排序模型会将M个推荐视频按照用户可能感兴趣的程度进行排序后,输出给该用户。其中,M为正整数。相关技术中的候选生成模型采用DNN(DeepNeuralNetworks,深度神经网络)来实现。该DNN的输入量包括:用户的用户特征、用户的观看历史和/或用户的搜索历史,输出量包括为该用户推荐的M个推荐视频。用户的用户特征可以是将用户的年龄、性别、地域、爱好标签等属性信息进行向量化得到的。由于很多用户在视频系统中不填写属性信息或填写不完整的属性信息,所以上述方法对很多用户都无法生成用户特征。虽然也可以从用户使用的社交聊天系统中提取到较多的属性信息,但由于用户在视频系统中会使用第一用户帐号,而在社交聊天系统中会使用第二用户帐号,对两种帐号体系中的用户帐号进行准确关联是非常困难的,如果关联错误也会导致最终生成的用户特征的错误。因此上述生成方法对属性信息为空或不完整或错误的用户无法生成有效的用户特征。
技术实现思路
本申请提供一种用户特征的生成方法、装置、设备及存储介质,可以用于解决相关技术中的生成方法对属性信息为空或不完整或错误的用户无法生成有效的用户特征的问题。所述技术方案如下:根据本申请实施例的一个方面, ...
【技术保护点】
1.一种用户特征的生成方法,其特征在于,所述方法包括:获取n组目标视频和用户帐号之间的时序对应关系,每组所述时序对应关系包括查看过所述目标视频的各个用户帐号,且所述用户帐号按照查看时间戳进行排序,n为正整数;根据n组所述时序对应关系映射得到词嵌入矩阵,所述词嵌入矩阵包括每个所述用户帐号对应的词向量;使用损失函数对所述词嵌入矩阵进行训练,所述损失函数用于根据观看历史的相似程度挖掘各个所述用户帐号之间的相似关系;将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。
【技术特征摘要】
1.一种用户特征的生成方法,其特征在于,所述方法包括:获取n组目标视频和用户帐号之间的时序对应关系,每组所述时序对应关系包括查看过所述目标视频的各个用户帐号,且所述用户帐号按照查看时间戳进行排序,n为正整数;根据n组所述时序对应关系映射得到词嵌入矩阵,所述词嵌入矩阵包括每个所述用户帐号对应的词向量;使用损失函数对所述词嵌入矩阵进行训练,所述损失函数用于根据观看历史的相似程度挖掘各个所述用户帐号之间的相似关系;将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。2.根据权利要求1所述的方法,其特征在于,所述使用损失函数对所述词嵌入矩阵进行训练,包括:使用噪声对比估计损失函数对所述词嵌入矩阵进行训练。3.根据权利要求2所述的方法,其特征在于,所述将训练完毕的所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征,包括:当所述噪声对比估计损失函数的函数值低于第一结束阈值时,将所述词嵌入矩阵中的所述用户帐号对应的词向量,确定为所述用户帐号的用户特征。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据n组所述时序对应关系映射得到词嵌入矩阵,包括:将n组所述时序对应关系按照词向量映射方式进行映射,得到所述词嵌入矩阵。5.根据权利要求1至3任一所述的方法,其特征在于,所述获取n组目标视频和用户帐号之间的时序对应关系,包括:获取m个用户帐号的视频查看历史记录,所述视频查看历史记录包括所述用户观看过和/或搜索过的目标视频的视频标识以及查看时间戳,m为正整数;对于所述视频查看历史记录中的每个所述目标视频,将查看过所述目标视频的各个用户帐号按照对应的查看时间戳进行排序后,生成所述目标视频和所述用户帐号之间的时序对应关系。6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:获取所述用户帐号的观看历史记录和/或搜索历史记录中的视频标识,根据所述视频标识生成视频特征;将所述用户特征和所述视频特征作为样本特征输入候选生成模型中进行训练,得到训练后的候选生成模型;其中,所述训练后的候选生成模型用于根据输入的用户特征输出对视频库中各个视频的观看概率。7.根据权利要求6所述的方法,其特征在于,所述将所述用户特征和所述视频特征作为样本特征输入候选生成模型中进行训练,得到训练后的候选生成模型,包括:将所述用户特征和所述视频特征划分为h+k组数据集,所述h+k数据集包括h组训练集和k组评测集,h和k均为正整数;将所述h组训练集中的所述用户特征和所述视频特征作为样本特征输入候选生成模型中进行训练,得到所述训练后的候选生成模型;所述方法,还包括:使用所述k组评测集评估所述训练后的候选生成模型的召回率;当所述训练后的候选生成模型的召回率达到第二结束阈值时,将所述训练后...
【专利技术属性】
技术研发人员:李雪松,卢靓妮,冯袁,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。