基于多模态视频内容和多任务学习的视频推荐方法技术

技术编号：24419246 阅读：93 留言：0更新日期：2020-06-06 13:09

本发明专利技术公开了一种基于多模态视频内容和多任务学习的视频推荐方法，包括步骤：通过经预训练的模型提取短视频的视觉、音频、文本特征；采用注意力机制方法对视频多模态特征进行融合；采用深度游走方法学习用户社会关系的特征表示；提出基于注意力机制的深度神经网络模型学习多域特征表示；基于上述步骤生成的特征嵌入作为多任务模型的共享层，再分别通过多层感知机生成预测结果。本发明专利技术利用注意力机制结合用户特征对视频多模态特征进行融合，使得整个推荐更加丰富和具有个性化；同时，针对多域特征，考虑到交互特征在推荐学习中的重要性，提出一种基于注意力机制的深度神经网络模型丰富了高阶特征的学习，为用户提供更加精准的个性化视频推荐。

Video recommendation method based on multimodal video content and multi task learning

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态视频内容和多任务学习的视频推荐方法
本专利技术涉及网络视频和推荐系统
，具体涉及一种基于多模态视频内容和多任务学习的视频推荐方法。
技术介绍
随着智能移动端的快速普及和多媒体技术的发展，视频逐渐成为信息传播的载体，近年来短视频迅速兴起，视频已经成为人们娱乐的一种主要方式，用户的兴趣也表现的更广。短视频数量的暴增，带来了严重的信息过载问题，如何能从海量的数据中找到用户感兴趣的视频成为一个热门的话题和研究对象。一个好的推荐系统不仅能够帮助消费者更快更便捷的发现感兴趣甚至潜在感兴趣的视频，还能帮助内容提供商提升利润和用户粘性，因此近十年来，推荐系统成了各大视频平台衡量的一个重要标准。目前短视频推荐技术面临两个重要的挑战：(1)目前大多数推荐算法都是基于用户的喜好、用户行为来进行推荐，忽视了物品的内容，也存在严重的冷启动问题，从而导致大多数视频被忽视，即使是传统的基于内容的推荐方法也并没达到很好的效果，因为它们依赖于元数据而不是原始视频内容。然而，微视频的元数据是由用户上传的，这对于视频来说可能是不准确的，如何有效的利用视频的多模态信息成为视频推荐的一个重要挑战。(2)单任务的推荐模型无法满足目前对多任务的需求，视频推荐中不仅要预测用户是否观看，还需预测用户对视频的评分、是否点赞、是否转发等行为。有效的多任务模型不仅可以减少模型训练成本，还能改进所有任务的模型预测。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷，提供一种基于多模态视频内容和多任务学习的视频推荐方法，...

【技术保护点】
1.一种基于多模态视频内容和多任务学习的视频推荐方法，其特征在于，所述的视频推荐方法包括下列步骤：/nS1、采用深度学习技术对视频内容进行分析，通过Inception-V3模型、3维卷积神经网络分别提取视频静态特征、动态特征构成视觉特征，通过VGGish模型提取音频特征，通过统计视频标题中每个词在该视频文本词库中出现的频率获得视频文本特征；/nS2、采用注意力机制学习视频各模态特征的权重，最后将各模态特征进行加权和获得视频特征表示，其中，所述的视频各模态特征包括视觉特征、音频特征、视频文本特征；/nS3、将用户和视频作为节点构成用户-视频社交网络，通过深度游走方法学习网络中顶点的向量表示，并作为用户社会关系的特征表示，其中，用户-视频社交网络的顶点表示用户；/nS4、基于注意力机制学习有效的特征组合，并与原始特征进行拼接融合作为深度神经网络的输入，学习多域特征表示；/nS5、基于上述步骤生成的特征嵌入作为多任务学习中各任务之间共享的部分，同时保留各任务特定的输出层生成预测结果。/n

【技术特征摘要】
1.一种基于多模态视频内容和多任务学习的视频推荐方法，其特征在于，所述的视频推荐方法包括下列步骤：
S1、采用深度学习技术对视频内容进行分析，通过Inception-V3模型、3维卷积神经网络分别提取视频静态特征、动态特征构成视觉特征，通过VGGish模型提取音频特征，通过统计视频标题中每个词在该视频文本词库中出现的频率获得视频文本特征；
S2、采用注意力机制学习视频各模态特征的权重，最后将各模态特征进行加权和获得视频特征表示，其中，所述的视频各模态特征包括视觉特征、音频特征、视频文本特征；
S3、将用户和视频作为节点构成用户-视频社交网络，通过深度游走方法学习网络中顶点的向量表示，并作为用户社会关系的特征表示，其中，用户-视频社交网络的顶点表示用户；
S4、基于注意力机制学习有效的特征组合，并与原始特征进行拼接融合作为深度神经网络的输入，学习多域特征表示；
S5、基于上述步骤生成的特征嵌入作为多任务学习中各任务之间共享的部分，同时保留各任务特定的输出层生成预测结果。

2.根据权利要求1所述的基于多模态视频内容和多任务学习的视频推荐方法，其特征在于，所述的步骤S1包括：
S11、对视频抽帧，利用经过预训练的经典图像处理模型Inception-V3模型提取每一帧视频的静态特征，最后通过平均池化层融合每一帧的信息作为视频的静态特征，利用3维卷积神经网络提取视频的动态特征；
S12、提取音频信息，利用经过预训练的VGGish模型提取视频的音频特征；
S13、提取视频标题信息，统计每个词在该视频文本词库中出现的频率作为视频文本特征；
S14、采用PCA方法对视频静态特征、视频动态特征、音频特征进行降维，同时视频静态特征和视频动态特征进行拼接构成视觉特征。

3.根据权利要求1所述的基于多模态视频内容和多任务学习的视频推荐方法，其特征在于，所述的步骤S2包括：
S21、融合用户特征，通过注意力机制学习用户与视频各模态之间的依赖关系，即学习用户分配视觉特征、音频特征、视频文本特征的权重，由以下公式计算：

其中m∈{v,a,t}分别表示视觉模态...

【专利技术属性】
技术研发人员：史景伦，邓丽，梁可弘，傅钎栓，林阳城，
申请(专利权)人：华南理工大学，广州梦辉机器人有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人