视频召回方法及装置制造方法及图纸

技术编号:35403152 阅读:15 留言:0更新日期:2022-11-03 10:54
本发明专利技术提供一种视频召回方法及装置,方法包括:根据目标用户的视频播放记录中的视频ID和视频ID与视频Embedding向量之间的关系,确定目标用户的视频Embedding向量;获取目标用户的用户Embedding向量;根据目标用户的用户Embedding向量和构建的annoy树,确定目标用户的待召回视频。本发明专利技术通过引入annoy树,以构建二叉树的方式来完成对视频Embedding向量间相似度的计算,并结合获取的用户Embedding向量,最终实现用户向量及视频向量间相似度的高效查询,提高了对视频实时推荐召回的速度。提高了对视频实时推荐召回的速度。提高了对视频实时推荐召回的速度。

【技术实现步骤摘要】
视频召回方法及装置


[0001]本专利技术涉及视频推荐召回
,尤其涉及一种视频召回方法及装置。

技术介绍

[0002]随着互联网和通信技术的蓬勃发展,视频业务也出现爆发性的增长,如何提高视频推荐的精准度,提升用户的使用体验成为视频推荐所关心的核心问题。当前主流的的视频推荐算法从功能可以分为召回层、粗排层和精排层,召回层的视频数量及视频关联度决定了推荐算法的效果,召回视频量太少,会使得推荐效果不佳,召回数量太大,则会大大加重后续排序层的计算量。
[0003]当前主流的召回方法主要分为4类:一、基于内容的召回,主要是将用户画像与内容画像进行匹配,又分为基于内容标签的匹配和基于知识的匹配;核心是根据内容间的相似度进行召回,这类召回方法较为简单,召回率较高;二、基于协同过滤的召回,主要分为基于用户、基于物品和基于模型的协同过滤,基于协同过滤的召回的核心思想建立用户和内容间的行为矩阵,依据“相似性”进行分发,这种方式准确率较高,而且可以提升用户推荐的扩展性;三、基于FM模型的召回,主要通过特征间的二阶组合来提升推荐的精准度,通过对用户特征和视频特征隐向量的学习,达到更加准确的刻画用户兴趣的效果;四、基于深度学习算法的召回,主要利用深层神经网络的方法对用户兴趣特征进行学习,通过大量的训练帮助捕获用户的特定兴趣并提高推荐的相关性。
[0004]现有技术存在以下缺点:
[0005]1、通过判断内容彼此间的相似度来进行相似内容的召回,这种方法较为刻板,内容较为局限,无法实现用户兴趣的扩展;
[0006]2、协同过滤召回只能利用userid与itemid类的特征,无法利用用户及视频的标签,画像等附加特征,同时在冷启动场景下无法发挥推荐效果;
[0007]3、基于FM的召回主要通过计算用户兴趣向量与视频特征向量的内积来返回得分较高的TOPN视频,这种方法要维护大量的用户及视频向量,需要大量的存储资源,同时在计算内积时需要占用大量的计算资源,无法满足短视频推荐场景下灵活、快速的要求;
[0008]4、基于深度学习算法的召回需要大量的线下训练和多轮的模型迭代后才能产生一定的效果。

技术实现思路

[0009]本专利技术提供的视频召回方法及装置,用于解决现有技术存在的至少一个问题,通过引入annoy树,以构建二叉树的方式来完成对视频Embedding向量间相似度的计算,并结合获取的用户Embedding向量,最终实现用户向量及视频向量间相似度的高效查询,提高了对视频实时推荐召回的速度。
[0010]本专利技术提供的一种视频召回方法,包括:
[0011]根据目标用户的视频播放记录中的视频ID和视频ID与视频Embedding向量之间的
关系,确定所述目标用户的视频Embedding向量;
[0012]获取目标用户的用户Embedding向量;
[0013]根据所述目标用户的用户Embedding向量和所述目标用户的视频Embedding向量,确定所述目标用户的待召回视频;
[0014]其中,所述视频ID与视频Embedding向量之间的关系是根据构建的annoy树确定的;
[0015]所述annoy树是根据标准化后的视频Embedding向量文件构建的。
[0016]根据本专利技术提供的一种视频召回方法,所述视频ID与视频Embedding向量之间的关系通过如下方式确定:
[0017]基于LRU缓存算法缓存所述annoy树和树索引与视频ID之间的映射关系;
[0018]根据所述树索引与视频ID之间的映射关系和所述annoy树中树索引与视频Embedding向量之间的关系,确定所述视频ID与视频Embedding向量之间的关系。
[0019]根据本专利技术提供的一种视频召回方法,所述标准化后的视频Embedding向量文件通过如下方式确定:
[0020]根据用户的视频播放记录中的视频ID对应的视频的基本信息,构建数据库;
[0021]根据所述数据库中用户与视频的交互信息,确定所述视频Embedding向量文件;
[0022]对所述视频Embedding向量文件进行归一化处理,获取所述标准化后的视频Embedding向量文件;
[0023]其中,所述视频的基本信息包括视频的标题、标签、分发标题和简介信息。
[0024]根据本专利技术提供的一种视频召回方法,所述根据用户的视频播放记录中的视频ID对应的视频的基本信息,构建数据库,包括:
[0025]基于结巴分词包对所述用户的视频播放记录中的视频ID的视频的基本信息进行分词,以过滤包括停用词、数字和符号的无用信息;
[0026]根据分词后的每个词出现的频率,获取每个词的idf值和tf_idf值;
[0027]按照所述tf_idf值将所有词进行排序,以构建所述数据库。
[0028]根据本专利技术提供的一种视频召回方法,所述根据所述数据库中用户与视频的交互信息,确定所述视频Embedding向量文件,包括:
[0029]从所述数据库中获取用户和视频的交互信息,去除满足第一预设条件的用户,以确定用户

视频交互矩阵;
[0030]从所述数据库中获取满足第二预设条件的视频的基本信息,并基于结巴分词包对所述视频的基本信息进行分词,以获取满足所述第二预设条件的视频的所有词;
[0031]对所述所有词进行one

hot编码和视频ID编码,以确定视频特征矩阵;
[0032]将所述用户

视频交互矩阵和所述视频特征矩阵输入至预设LightFM模型,获取所述视频Embedding向量文件;
[0033]其中,所述第一预设条件为播放次数小于第一预设次数的视频和观看过少于预设个播放次数大于第二预设次数的视频;
[0034]所述第二预设条件为播放次数大于第三预设次数。
[0035]根据本专利技术提供的一种视频召回方法,若确定所述目标用户的视频播放记录中的日期和所述annoy树的构建日期之间的时间间隔大于预设更新周期,则对所述annoy树进行
更新。
[0036]根据本专利技术提供的一种视频召回方法,所述获取目标用户的用户Embedding向量,包括:
[0037]根据目标用户的行为权重和所述视频Embedding向量,获取所述目标用户的用户Embedding向量;或
[0038]将所述目标用户的用户

视频交互矩阵和视频特征矩阵输入至预设LightFM模型,获取所述目标用户的用户Embedding向量;
[0039]其中,所述目标用户的行为权重是根据所述目标用户面向不同视频ID对应的视频时所表现出的不同操作行为确定的。
[0040]本专利技术还提供一种视频召回装置,包括:视频向量获取模块、用户向量获取模块以及视频召回模块;
[0041]所述视频向量获取模块,用于根据目标用户的视频播放记录中的视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频召回方法,其特征在于,包括:根据目标用户的视频播放记录中的视频ID和视频ID与视频Embedding向量之间的关系,确定所述目标用户的视频Embedding向量;获取目标用户的用户Embedding向量;根据所述目标用户的用户Embedding向量和所述目标用户的视频Embedding向量,确定所述目标用户的待召回视频;其中,所述视频ID与视频Embedding向量之间的关系是根据构建的annoy树确定的;所述annoy树是根据标准化后的视频Embedding向量文件构建的。2.根据权利要求1所述的视频召回方法,其特征在于,所述视频ID与视频Embedding向量之间的关系通过如下方式确定:基于LRU缓存算法缓存所述annoy树和树索引与视频ID之间的映射关系;根据所述树索引与视频ID之间的映射关系和所述annoy树中树索引与视频Embedding向量之间的关系,确定所述视频ID与视频Embedding向量之间的关系。3.根据权利要求1所述的视频召回方法,其特征在于,所述标准化后的视频Embedding向量文件通过如下方式确定:根据用户的视频播放记录中的视频ID对应的视频的基本信息,构建数据库;根据所述数据库中用户与视频的交互信息,确定所述视频Embedding向量文件;对所述视频Embedding向量文件进行归一化处理,获取所述标准化后的视频Embedding向量文件;其中,所述视频的基本信息包括视频的标题、标签、分发标题和简介信息。4.根据权利要求3所述的视频召回方法,其特征在于,所述根据用户的视频播放记录中的视频ID对应的视频的基本信息,构建数据库,包括:基于结巴分词包对所述用户的视频播放记录中的视频ID的视频的基本信息进行分词,以过滤包括停用词、数字和符号的无用信息;根据分词后的每个词出现的频率,获取每个词的idf值和tf_idf值;按照所述tf_idf值将所有词进行排序,以构建所述数据库。5.根据权利要求3所述的视频召回方法,其特征在于,所述根据所述数据库中用户与视频的交互信息,确定所述视频Embedding向量文件,包括:从所述数据库中获取用户和视频的交互信息,去除满足第一预设条件的用户,以确定用户

视频交互矩阵;从所述数据库中获取满足第二预设条件的视频的基本信息,并基于结巴分词包对所述视频的基本信息进行分词,以获取满足所述第二预设条件的视频的所有词;对所...

【专利技术属性】
技术研发人员:李展鹏
申请(专利权)人:中移电子商务有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1