基于多模态信息融合的视频标签生成方法及其相关设备技术

技术编号:38906233 阅读:19 留言:0更新日期:2023-09-22 14:24
本申请实施例属于智能决策技术领域,涉及一种基于多模态信息融合的视频标签生成方法及其相关设备,包括获取若干个已标注的播放内容;以区别标签将若干个已标注的播放内容划分为不同的播放内容集;对每个播放内容集进行多模态特征提取,获取每个播放内容集所对应的多模态特征矩阵;训练并获得标签预测模型;获取未标注的播放内容,经过标签预测模型,进行标签预测,获得模型输出结果作为未标注的播放内容的区别标签。通过多模态特征表征不同的区别标签,相比仅使用单模态特征对播放内容进行标签设定,有效地融合多模态的信息,提升对播放内容打标的科学性,同时,采用人工智能方式自动进行打标,更加智能化和自动化,避免人力打标消耗。标消耗。标消耗。

【技术实现步骤摘要】
基于多模态信息融合的视频标签生成方法及其相关设备


[0001]本申请涉及智能决策
,尤其涉及一种基于多模态信息融合的视频标签生成方法及其相关设备。

技术介绍

[0002]随着互联网技术的发展,数字视频和视频制作技术的普及,越来越多的信息通过视频的方式进行传播和分享。作为由时间上连续的静态图像序列构成的视频,其中包含了更丰富的信息。同时,随着视频规模的扩增,对视频数据的处理和分析技术变得越来越重要。通过对视频打上标签,可以基于标签对视频进行分类管理,从而实现通过标签对视频进行检索,帮助用户快速找到感兴趣的视频。
[0003]由于每天都会产生大量的视频,如果采用人工对视频进行打标会产生大量的人力成本,因此如何利用人工智能技术实现对视频进行自动化生成标签成为了亟需解决的问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种基于多模态信息融合的视频标签生成方法及其相关设备,以解决利用人工智能技术实现对视频进行自动化生成标签的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种基于多模态信息融合的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息融合的视频标签生成方法,其特征在于,包括下述步骤:根据目标获取地址,从预设的播放缓存库获取若干个已标注的播放内容,其中,所述已标注的播放内容表示已经打上区别标签的有声播放片段;以所述区别标签为分类类别,对所述若干个已标注的播放内容进行分类划分,划分出与所述区别标签个数相同的播放内容集;通过预设的多模态特征提取模型,对每个播放内容集进行多模态特征提取,获取每个播放内容集所对应的多模态特征矩阵;将所述每个播放内容集分别对应的多模态特征矩阵和区别标签,输入进预构建的预测模型,进行标签预测模型预训练,获得预训练完成的标签预测模型;构建所述多模态特征提取模型与所述预训练完成的标签预测模型间的传输关系,并进行模型融合,获得融合完成的标签预测模型;获取未标注的播放内容,将所述未标注的播放内容输入进所述融合完成的标签预测模型进行标签预测,获得模型输出结果作为所述未标注的播放内容的区别标签。2.根据权利要求1所述的基于多模态信息融合的视频标签生成方法,其特征在于,所述多模态特征包括音频特征、文字特征、关键帧特征和普通帧特征,所述通过预设的多模态特征提取模型,对每个播放内容集进行多模态特征提取,获取每个播放内容集所对应的多模态特征矩阵的步骤,具体包括:基于预设的视频处理工具,对每个播放内容集中各播放内容进行音视频分离处理,根据音视频分离处理结果,获得分离后的音频数据内容和视频数据内容;对分离后的音频数据内容和视频数据内容,进行特征提取,获取各播放内容对应的音频特征、文字特征、关键帧特征和普通帧特征;整理每个播放内容集中各播放内容所对应的音频特征、文本特征、关键帧特征和普通帧特征,获得每个播放内容集分别对应的多模态特征矩阵。3.根据权利要求2所述的基于多模态信息融合的视频标签生成方法,其特征在于,所述视频处理工具为FFmpeg视频处理工具,所述基于预设的视频处理工具,对每个播放内容集中各播放内容进行音视频分离处理,根据音视频分离处理结果,获得分离后的音频数据内容和视频数据内容的步骤,具体包括:将目标输入文件预先缓存到所述FFmpeg视频处理工具的自动调用区域,其中,所述目标输入文件指所述每个播放内容集中各播放内容;通过在预设的dos窗口调用所述FFmpeg视频处理工具的音频数据分离命令行,分离出所述每个播放内容集中各播放内容对应的音频数据内容;通过在预设的dos窗口调用所述FFmpeg视频处理工具的视频数据分离命令行,分离出所述每个播放内容集中各播放内容对应的视频数据内容;对根据同一播放内容分离出对应的音频数据内容和视频数据内容,进行同组缓存,其中,所述同组缓存表示采用二元组缓存的形式缓存所述同一播放内容分离出对应的音频数据内容和视频数据内容。4.根据权利要求2所述的基于多模态信息融合的视频标签生成方法,其特征在于,所述预设的多模态特征提取模型包括音频特征提取组件、音频转文本组件、文本特征提取组件和视频帧特征提取组件,所述对分离后的音频数据内容和视频数据内容,进行特征提取,获
取各播放内容对应的音频特征、文字特征、关键帧特征和普通帧特征的步骤,具体包括:根据所述音频特征提取组件,提取所述音频数据内容的音频特征,其中,所述音频特征提取组件具体为audioFlux音频特征提取组件;根据所述音频转文本组件,对所述音频数据内容进行文本化处理,获得文本化处理结果,其中,所述音频转文本组件具体为基于隐马尔可夫模型或者人工神经网络的语音识别组件;基于所述文本特征提取组件,提取所述文本化处理结果的文本特征,其中,所述文本特征提取组件具体为基于word2vec的词向量模型;根据所述视频帧特征提取组件,提取所述视频数据内容中的关键帧特征和普通帧特征。5.根据权利要求4所述的基于多模态信息融合的视频标签生成方法,其特征在于,所述基于所述文本特征提取组件,提取所述文本化处理结果的文本特征的步骤,具体包括:预先获取所有播放内容集中各播放内容对应的文本化处理结果,进行分词处理,并添加所有分词到同一文本库内,构建出文本语料库;根据所述区别标签对同一播放内容集对应的文本化处理结果进行聚类划分,获取与所述区别标签数量相同的文本聚类结果;依次将不同区别标签对应的文本聚类结果作为训练数据,输入到基于word2vec的词向量模型内,进行词向量训练;根据同一分词在不同文本聚类结果中对应的词向量训练结果,进行综合计算,获取每个分词所述文本语料库内对应的综合词向量表示;获取当前播放内容对应的文本化处理结果,对所述文本化处理结果进行分词处理,获取所述当前播放内容对应的分词处理结果;获取所述分词处理结果中每个分词所对应的综合词向量表示,并进行累加求和,将累加求和结果作为所述当前播放内容对应的文本特征。6.根据权利要求4所述的基于多模态信息融合的视频标签生成方法,其特征在于,所述视频帧特征提取组件包括关键帧提取子组件、关键帧融合子组件、...

【专利技术属性】
技术研发人员:陆维琛
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1