基于多模态视频内容和多任务学习的视频推荐方法技术

技术编号:24419246 阅读:93 留言:0更新日期:2020-06-06 13:09
本发明专利技术公开了一种基于多模态视频内容和多任务学习的视频推荐方法,包括步骤:通过经预训练的模型提取短视频的视觉、音频、文本特征;采用注意力机制方法对视频多模态特征进行融合;采用深度游走方法学习用户社会关系的特征表示;提出基于注意力机制的深度神经网络模型学习多域特征表示;基于上述步骤生成的特征嵌入作为多任务模型的共享层,再分别通过多层感知机生成预测结果。本发明专利技术利用注意力机制结合用户特征对视频多模态特征进行融合,使得整个推荐更加丰富和具有个性化;同时,针对多域特征,考虑到交互特征在推荐学习中的重要性,提出一种基于注意力机制的深度神经网络模型丰富了高阶特征的学习,为用户提供更加精准的个性化视频推荐。

Video recommendation method based on multimodal video content and multi task learning

【技术实现步骤摘要】
基于多模态视频内容和多任务学习的视频推荐方法
本专利技术涉及网络视频和推荐系统
,具体涉及一种基于多模态视频内容和多任务学习的视频推荐方法。
技术介绍
随着智能移动端的快速普及和多媒体技术的发展,视频逐渐成为信息传播的载体,近年来短视频迅速兴起,视频已经成为人们娱乐的一种主要方式,用户的兴趣也表现的更广。短视频数量的暴增,带来了严重的信息过载问题,如何能从海量的数据中找到用户感兴趣的视频成为一个热门的话题和研究对象。一个好的推荐系统不仅能够帮助消费者更快更便捷的发现感兴趣甚至潜在感兴趣的视频,还能帮助内容提供商提升利润和用户粘性,因此近十年来,推荐系统成了各大视频平台衡量的一个重要标准。目前短视频推荐技术面临两个重要的挑战:(1)目前大多数推荐算法都是基于用户的喜好、用户行为来进行推荐,忽视了物品的内容,也存在严重的冷启动问题,从而导致大多数视频被忽视,即使是传统的基于内容的推荐方法也并没达到很好的效果,因为它们依赖于元数据而不是原始视频内容。然而,微视频的元数据是由用户上传的,这对于视频来说可能是不准确的,如何有效的利用视频的多模态信息成为视频推荐的一个重要挑战。(2)单任务的推荐模型无法满足目前对多任务的需求,视频推荐中不仅要预测用户是否观看,还需预测用户对视频的评分、是否点赞、是否转发等行为。有效的多任务模型不仅可以减少模型训练成本,还能改进所有任务的模型预测。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于多模态视频内容和多任务学习的视频推荐方法,通过融合多模态视频内容实现更加具有个性化的推荐。本专利技术注重视频本身的内容,多模态内容使得用户和短视频之间的信息关系变得更加复杂,同时短视频的多模态信息也为整个的推荐系统提供了更为丰富的信息,能够有效的避免冷启动问题。本专利技术的目的可以通过采取如下技术方案达到:一种基于多模态视频内容和多任务学习的视频推荐方法,该视频推荐方法包括以下步骤:S1、采用深度学习技术对视频内容进行分析,通过Inception-V3模型、3维卷积神经网络分别提取视频静态特征、动态特征构成视觉特征,通过VGGish模型提取音频特征;通过统计视频标题中每个词在该视频文本词库中出现的频率获得视频文本特征;S2、采用注意力机制学习视频各模态特征(包括视觉特征、音频特征、视频文本特征)的权重,最后将各模态特征进行加权和获得视频特征表示;S3、将用户和视频作为节点构成用户-视频社交网络,通过深度游走方法学习网络中顶点(即用户)的向量表示,并作为用户社会关系的特征表示;S4、在多领域中,基于注意力机制学习有效的特征组合,并与原始特征进行拼接融合作为深度神经网络的输入,学习多域特征表示;S5、基于上述步骤生成的特征嵌入作为多任务学习中各任务之间共享的部分,同时保留各任务特定的输出层生成预测结果。进一步地,所述的步骤S1包括:S11、对视频抽帧,利用经过预训练的经典图像处理模型Inception-V3模型提取每一帧视频的静态特征,最后通过平均池化层融合每一帧的信息作为视频的静态特征;利用3维卷积神经网络提取视频的动态特征;S12、提取音频信息,利用经过预训练的VGGish模型提取视频的音频特征;S13、提取视频标题信息,统计每个词在该视频文本词库中出现的频率作为视频文本特征;S14、采用PCA(PrincipalComponentAnalysis,主成分分析)方法对视频静态特征、视频动态特征、音频特征进行降维,同时视频静态特征与视频动态特征两者拼接成视觉特征。进一步地,所述的步骤S2中,通过注意力机制学习用户和视频各模态之间的依赖关系,给各模态分配相应的权重,对各模态特征进行加权求和得到该视频最终的特征表示,具体过程如下:S21、融合用户特征,通过注意力机制学习用户与视频各模态之间的依赖关系,即学习用户分配视觉特征、音频特征、视频文本特征的权重,由以下公式计算:其中m∈{v,a,t}分别表示视觉模态、听觉模态和文本模态,为各模态求得的注意力得分,注意力得分经过归一化得到am,表示用户对各模态的偏好(即权重),则表示从视频中提取出来的视觉特征、听觉特征和文本特征,eU是用户特征,和是注意力网络的可训练参数,b表示偏置;S22、视频各模态特征进行加权和获得该视频最终的特征表示。进一步地,所述的步骤S3中,利用深度游走方法学习各用户社会的潜在特征表示,具体有:将用户和视频作为节点构成用户-视频网络,用户节点与视频节点之间的连线表示该用户观看过该视频,在用户-视频网络中随机游走生成的节点序列比作一个句子(单词序列),通过自然语言处理中经典的Word2Vec模型学习每个单词的特征表示,即该节点(用户)的社会关系特征表示。进一步地,所述的步骤S4中,提出一种基于注意力机制的深度神经网络模型,嵌入原始多域特征和基于注意力的交互特征作为深度神经网络的输入,丰富神经网络高阶特征的学习,具体过程如下:S41、多域特征中的离散数据进行独热编码后经过嵌入矩阵降维,所有连续特征拼接后,通过一层全连接转换成同等维度的向量;S42、采用注意力机制学习有效的特征组合,通过注意力机制学习不同特征之间交互的权重,权重计算公式如下:einter=[a0,0e0e0,a0,1e0e1,…ai,jeiej],其中ei为第i个特征,eiej为特征元素级别相乘,相乘后维度不变,为第i个特征与第j个特征交互的注意力得分,注意力得分经过归一化得到ai,j,表示特征交互的权重,einter为多域特征两两交互构成的交叉特征,W、h是注意力网络的可训练参数,b表示偏置;S43、原始特征及其基于注意力的交叉特征进行拼接融合后作为输入,通过多层感知机输出的结果作为多域特征最终的表示。进一步地,所述的步骤S5中,将步骤S2中学习的多模态视频特征、步骤S3中学习的社交特征、步骤S4中学习的多域特征拼接后作为多任务学习中各任务共享的部分,再分别通过各任务对应的多层感知机训练不共享的参数,最后经过sigmoid函数输出该任务预测结果。本专利技术相对于现有技术具有如下的优点及效果:本专利技术方法利用注意力机制结合用户特征对视频多模态特征进行融合,使得整个推荐更加丰富和具有个性化;同时,针对多域特征,考虑到交互特征在推荐学习中的重要性,本专利技术提出了一种基于注意力机制的深度神经网络模型丰富了高阶特征的学习,为用户提供更加精准的个性化视频推荐;在多任务学习中,多任务共享上述学习到的特征表示,各任务共同学习,减少整体的参数规模,从而更好的适应工业和生活领域中对多任务推荐的需求附图说明图1是本专利技术公开的基于多模态视频内容和多任务学习的视频推荐方法的流程图;图2是本专利技术中视频多模态特征提取以及引入注意力机制融合特征的结构示意图;图3是本专利技术中用户和视频之间的图结构示意图;图4是本发本文档来自技高网...

【技术保护点】
1.一种基于多模态视频内容和多任务学习的视频推荐方法,其特征在于,所述的视频推荐方法包括下列步骤:/nS1、采用深度学习技术对视频内容进行分析,通过Inception-V3模型、3维卷积神经网络分别提取视频静态特征、动态特征构成视觉特征,通过VGGish模型提取音频特征,通过统计视频标题中每个词在该视频文本词库中出现的频率获得视频文本特征;/nS2、采用注意力机制学习视频各模态特征的权重,最后将各模态特征进行加权和获得视频特征表示,其中,所述的视频各模态特征包括视觉特征、音频特征、视频文本特征;/nS3、将用户和视频作为节点构成用户-视频社交网络,通过深度游走方法学习网络中顶点的向量表示,并作为用户社会关系的特征表示,其中,用户-视频社交网络的顶点表示用户;/nS4、基于注意力机制学习有效的特征组合,并与原始特征进行拼接融合作为深度神经网络的输入,学习多域特征表示;/nS5、基于上述步骤生成的特征嵌入作为多任务学习中各任务之间共享的部分,同时保留各任务特定的输出层生成预测结果。/n

【技术特征摘要】
1.一种基于多模态视频内容和多任务学习的视频推荐方法,其特征在于,所述的视频推荐方法包括下列步骤:
S1、采用深度学习技术对视频内容进行分析,通过Inception-V3模型、3维卷积神经网络分别提取视频静态特征、动态特征构成视觉特征,通过VGGish模型提取音频特征,通过统计视频标题中每个词在该视频文本词库中出现的频率获得视频文本特征;
S2、采用注意力机制学习视频各模态特征的权重,最后将各模态特征进行加权和获得视频特征表示,其中,所述的视频各模态特征包括视觉特征、音频特征、视频文本特征;
S3、将用户和视频作为节点构成用户-视频社交网络,通过深度游走方法学习网络中顶点的向量表示,并作为用户社会关系的特征表示,其中,用户-视频社交网络的顶点表示用户;
S4、基于注意力机制学习有效的特征组合,并与原始特征进行拼接融合作为深度神经网络的输入,学习多域特征表示;
S5、基于上述步骤生成的特征嵌入作为多任务学习中各任务之间共享的部分,同时保留各任务特定的输出层生成预测结果。


2.根据权利要求1所述的基于多模态视频内容和多任务学习的视频推荐方法,其特征在于,所述的步骤S1包括:
S11、对视频抽帧,利用经过预训练的经典图像处理模型Inception-V3模型提取每一帧视频的静态特征,最后通过平均池化层融合每一帧的信息作为视频的静态特征,利用3维卷积神经网络提取视频的动态特征;
S12、提取音频信息,利用经过预训练的VGGish模型提取视频的音频特征;
S13、提取视频标题信息,统计每个词在该视频文本词库中出现的频率作为视频文本特征;
S14、采用PCA方法对视频静态特征、视频动态特征、音频特征进行降维,同时视频静态特征和视频动态特征进行拼接构成视觉特征。


3.根据权利要求1所述的基于多模态视频内容和多任务学习的视频推荐方法,其特征在于,所述的步骤S2包括:
S21、融合用户特征,通过注意力机制学习用户与视频各模态之间的依赖关系,即学习用户分配视觉特征、音频特征、视频文本特征的权重,由以下公式计算:






其中m∈{v,a,t}分别表示视觉模态...

【专利技术属性】
技术研发人员:史景伦邓丽梁可弘傅钎栓林阳城
申请(专利权)人:华南理工大学广州梦辉机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1