短视频数据标签推荐方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：23470749 阅读：21 留言：0更新日期：2020-03-06 12:47

本申请涉及一种短视频数据标签推荐方法、装置、计算机设备和存储介质，通过获取多模态短视频数据，提取多模态短视频数据中的图像数据、音频数据以及文本数据；分别提取情感特征矩阵以及内容特征矩阵；通过预设情感共同空间获取情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取内容特征矩阵对应的多模态融合内容特征向量；获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数；根据匹配分数推荐标签。本申请通过融合多模态短视频数据在不同模态下的情感特征与内容特征，而后获取融合后特征与标签的匹配结果，根据匹配结果为多模态短视频数据推荐标签，可以有效为短视频推荐标签。

Short video data labeling recommendations, devices, computer equipment, and storage media

全部详细技术资料下载

【技术实现步骤摘要】
短视频数据标签推荐方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种短视频数据标签推荐方法、装置、计算机设备和存储介质。
技术介绍
当今时代是互联网的时代，据报道，现今全球网民数量达到了40亿。同时，由于移动设备的普及和短视频制作门槛的降低，短视频作为一种新的生活故事记录和分享方式正日益受到人们的青睐。与此同时，Vine、Snapchat、抖音、快手等短视频平台和应用近年来也获得了前所未有的增长。与文字和图片相比，由于短视频中嵌入的信息更加直观、生动，观看短视频逐渐成为了越来越多人休闲娱乐的首选。然而，面对层出不穷的新发布的短视频，如何快速、准确地找到想要的内容往往是一项非常艰巨的任务。为了解决这个问题，一个可行的策略是给短视频添加hashtag(标签)，这样用户就可以通过平台上的关键词快速匹配自己想要的内容。然而，现有的标签自动推荐方法主要集中应用于纯文本以及文本结合图像方向，这些推荐方法并不适用于短视频领域的标签推荐。
技术实现思路
基于此，有必要针对现有标签推荐方法并不适用于短视频标签推荐领域的问题，提供一种能应用于短视频领域的短视频数据标签推荐方法、装置、计算机设备和存储介质。一种短视频数据标签推荐方法，所述方法包括：获取多模态短视频数据，提取所述多模态短视频数据中的图像数据、音频数据以及文本数据；分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；>通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；根据所述匹配分数为所述多模态短视频数据推荐标签。一种短视频数据标签推荐装置，所述装置包括：模态数据提取模块，用于获取多模态短视频数据，提取多模态短视频数据中的图像数据、音频数据以及文本数据；特征提取模块，用于分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；特征融合模块，用于通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；特征匹配模块，用于获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；标签推荐模块，用于根据所述匹配分数为所述多模态短视频数据推荐标签。一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取多模态短视频数据，提取所述多模态短视频数据中的图像数据、音频数据以及文本数据；分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；根据所述匹配分数为所述多模态短视频数据推荐标签。一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取多模态短视频数据，提取所述多模态短视频数据中的图像数据、音频数据以及文本数据；分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；根据所述匹配分数为所述多模态短视频数据推荐标签。上述短视频数据标签推荐方法、装置、计算机设备和存储介质，通过获取多模态短视频数据，提取多模态短视频数据中的图像数据、音频数据以及文本数据；分别提取图像数据、音频数据以及文本数据的情感特征矩阵，分别提取图像数据、音频数据以及文本数据的内容特征矩阵；通过预设情感共同空间获取各情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各内容特征矩阵对应的多模态融合内容特征向量；获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数；根据匹配分数为多模态短视频数据推荐标签。本申请通过融合多模态短视频数据在不同模态下的情感特征与内容特征，而后获取融合后特征与标签的匹配结果，根据匹配结果为多模态短视频数据推荐相应标签，可以有效为短视频推荐相应标签。附图说明图1为一个实施例中短视频数据标签推荐方法的应用环境图；图2为一个实施例中短视频数据标签推荐方法的功能示意图；图3为一个实施例中短视频数据标签推荐方法的流程示意图；图4为一个实施例中图3中步骤S100的子流程示意图；图5为一个实施例中图3中步骤S500的子流程示意图；图6为一个实施例中图3中步骤S700的子流程示意图；图7为一个实施例中短视频数据标签推荐方法的总体流程结构示意图；图8为一个实施例中短视频数据标签推荐装置的结构框图；图9为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。本申请提供的标签推荐方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与标签推荐服务器104进行通信。终端102可以提交多模态短视频数据至标签推荐服务器104，标签推荐服务器104可以获取多模态短视频数据，提取多模态短视频数据中的图像数据、音频数据以及文本数据；分别提取图像数据、音频数据以及文本数据的情感特征矩阵以及内容特征矩阵；通过预设情感共同空间获取图像数据、音频数据以及文本数据的情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取图像数据、音频数据以及文本数据的内容特征矩阵对应的多模态融合内容特征向量；获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数；根据匹配分数为多模态短视频数据推荐标签。并将标签反馈给到终端102。本申请的短视频数据标签推荐方法的示意图如图2所示，图2中，对于两个内容几乎相同的短视频，其表达情感的标签却存在部分标签表达的含义相反的情况，本申请的方案通过多模态短视频的各模态数据，不仅可以为其推荐内容标签，还可以同时推荐情感本文档来自技高网...

【技术保护点】
1.一种短视频数据标签推荐方法，包括：/n获取多模态短视频数据，提取所述多模态短视频数据中的图像数据、音频数据以及文本数据；/n分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；/n通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；/n获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；/n根据所述匹配分数为所述多模态短视频数据推荐标签。/n

【技术特征摘要】
1.一种短视频数据标签推荐方法，包括：
获取多模态短视频数据，提取所述多模态短视频数据中的图像数据、音频数据以及文本数据；
分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；
通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；
获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；
根据所述匹配分数为所述多模态短视频数据推荐标签。

2.根据权利要求1所述的方法，其特征在于，所述获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数之前，还包括：
获取训练数据集，获取所述训练数据集中多模态短视频数据对应各标签；
对未用空格隔开的短语形式的标签自动分词；
获取通过分词得到的标签中各单词的glove词向量；
获取所述各glove词向量的词向量平均值，将所述词向量平均值作为所述标签对应的预设标签语义。

3.根据权利要求1所述的方法，其特征在于，所述获取多模态短视频数据，提取多模态短视频数据中的图像数据、音频数据以及文本数据包括：
获取多模态短视频数据；
分离所述多模态短视频数据的图像模态数据以及音频模态数据；
提取所述图像模态数据中的关键帧数据，将所述关键帧数据作为图像数据；
将所述音频模态数据分割为各音频片段，将所述各音频片段作为音频数据；
将所述多模态短视频数据对应的文本模态数据作为文本数据。

4.根据权利要求3所述的方法，其特征在于，所述分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵包括：
通过预设ResNet-152特征提取器提取所述图像数据内各关键帧对应的内容特征向量，根据所述各关键帧对应的内容特征向量构建所述图像数据对应的内容特征矩阵；
通过预设CNN特征提取器提取所述图像数据内各关键帧对应的情感特征向量，根据所述各关键帧对应的情感特征向量构建所述图像数据对应的情感特征矩阵；
通过预设SoundNetCNN特征提取器提取所述音频数据内各音频片段对应的内容特征向量，根据各音频片段对应的内容特征向量构建所述音频数据对应的内容特征矩阵；
通过预设Librosa工具库提取所述音频数据内各音频片段对应的各基础声学特征，根据所述基础声学特征获取所述音频数据内各音频片段对应的情感特征向量，根据各音频片段对应的情感特征向量构建所述音频数据对应的情感特征矩阵；
获取所述文本数据内各单词对应的glove词向量，将所述各单词对应的glove词向量作为各单词对应的内容特征向量，根据所述各单词对应的内容特征向量构建所述文本数据对应的内容特征矩阵；
通过预设CoreNLP工具提取所述文本数据对应的情感特征矩阵。

5.根据权利要求4所述的方法，其特征在于，所述通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量包括：
获取各...

【专利技术属性】
技术研发人员：王小婵，杨超，蒋斌，
申请(专利权)人：湖南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人