一种融合视觉语义信息的视频缩略图推荐方法技术

技术编号:25690252 阅读:18 留言:0更新日期:2020-09-18 21:02
本发明专利技术提供了一种融合视觉语义信息的视频缩略图推荐方法,该方法包括分别对视频概述模型和视频缩略图推荐模型进行训练,得到对应的第一训练结果和第二训练结果;通过所述第一训练结果对当前视频生成概述语句,将所述概述语句与当前视频的关键帧序列同时输入所述第二训练结果,推荐与所述概述语句相关的关键缩略图,结合当前视频的候选缩略图得到当前视频的推荐缩略图序列。本发明专利技术弥补了现有视频网站上不能自动为每段视频推荐代表视频主要内容的视频缩略图的缺陷。本方法为视频推荐客观且具有视频内容代表性的视频缩略图序列,从而提高视频的吸引力。

【技术实现步骤摘要】
一种融合视觉语义信息的视频缩略图推荐方法
本专利技术涉及数字图像处理
,尤其是一种融合视觉语义信息的视频缩略图推荐方法。
技术介绍
随着网络视频的爆炸式增长,视频缩略图的自动生成成为一个重要的研究方向。视频缩略图,即视频分享网站上每段视频的封面,它是对整个视频内容的静态表示,提供了对整个视频生动而简洁的预览。现在比较大型的视频分享网站都会给每段视频添加一个视频缩略图,这不仅能提高视频的点击率还能快速高效的为用户找到需要的视频资源。目前直接使用图像处理的方法对视频内容进行分析,提取最具视觉代表性的视频帧作为视频缩略图,这种方法忽略了与视频相关的语义信息。还有很多方法开始将用户的查询与视频内容相结合来生成查询敏感的视频缩略图生成框架,这种基于查询的方法主要分为两类,分别是基于搜索的方法和基于学习的方法。基于搜索的方法是针对用户的输入查询搜索相关的图像,然后根据图像相似性从视频中选取相关视频帧作为视频缩略图;基于学习的方法通过学习查询与视频缩略图之间的关联性来建立模型,针对输入查询直接从视频帧中挑选出语义相关的视频帧作为视频缩略图。现有的基于学习的方法,先使用简单的卷积神经网络来提取视觉特征向量,在提取查询的语义信息时通过词嵌入向量模型提取某个词的特征向量,然后依次计算每个视频帧的视觉特征向量与每个词的特征向量之间的相关性,取综合相关性最高的视频帧作为视频缩略图。这种将整个句子用多个单词的词嵌入特征向量表示的方法明显忽略了句子中单词之间的相关性,不能有效的表示整个句子的语义信息。综合以上,目前已有的视频缩略图推荐算法都是只考虑视频帧的图像质量,或者只考虑部分查询语句的语义特征,并没有完全考虑视频的主要内容信息,提取的视频缩略图缺乏视频内容代表性。
技术实现思路
本专利技术提供了一种融合视觉语义信息的视频缩略图推荐方法,用于解决现有视频缩略图缺乏视频内容代表性的问题。为实现上述目的,本专利技术采用下述技术方案:本专利技术提供了一种融合视觉语义信息的视频缩略图推荐方法,所述方法包括以下步骤:分别对视频概述模型和视频缩略图推荐模型进行训练,得到对应的第一训练结果和第二训练结果;通过所述第一训练结果对当前视频生成概述语句,将所述概述语句与当前视频的关键帧序列同时输入所述第二训练结果,推荐与所述概述语句相关的关键缩略图,结合当前关键缩略图对应的候选缩略图得到当前视频的推荐缩略图序列。进一步地,通过对标准数据集进行预处理得到视频概述模型训练数据集,对所述视频概述模型进行训练。进一步地,所述对标准数据集进行预处理得到视频概述模型训练数据集的具体过程为:去除标准数据集中所有标注语句的标点符号,并将所有单词转换为统一的形式,对标注语句进行分词处理;进行单词词频统计,去除出现次数小于预设阈值的单词,加入特殊标志符,形成视频概述模型训练数据集。进一步地,所述视频概述模型的构建过程为:使用编码器,从视频中提取表观视觉特征得到视觉特征向量序列,提取多标签属性得到多标签属性特征向量序列;通过解码器,融合视觉注意力与属性注意力机制提取视频特征,生成当前时间步的单词,其中所述视频特征包括视觉特征和多标签属性特征;生成所述单词的语义特征序列,利用语义注意力机制为重建的视觉特征提取对应的语义特征。进一步地,对所述视频概述模型进行训练的具体过程为:定义视频概述模型的损失函数:Lloss=L(θ,θrec)=L(θ)+L(θrec),L(θ)为编码器和解码器框架的损失函数,L(θrec)为视觉特征重建框架的损失函数;设置训练参数,通过上述损失函数对视频概述模型进行训练。进一步地,视频缩略图推荐模型训练数据集的构建过程为:构建{语句缩略图无关图}数据对;构建词汇表;将描述语句的单词以独热编码的形式表示。进一步地,所述视频缩略图推荐模型的构建过程为:分别提取所述数据对中缩略图的视觉特征和无关图的视觉特征;通过长短期记忆网络搭建神经语言模型,提取语义特征;构建视觉语义注意力机制。进一步地,对所述视频缩略图推荐模型进行训练的具体过程为:定义视频缩略图推荐模型的损失函数Lloss=L(θ1,θ2)+L(θ1'),L(θ1,θ2)为训练神经语言模型和视觉语义注意力机制的损失函数,L(θ1')为嵌入到视觉特征所在空间后的语义特征与视觉特征的拟合函数;定义训练参数,基于上述损失函数对视频缩略图推荐模型进行训练。进一步地,所述关键帧序列与候选缩略图的提取过程为:过滤视频中的过渡帧,在剩余视频中提取视频帧,形成视频帧序列;通过所述视频帧序列,生成颜色空间向量,作为视频帧的特征序列;对所述视频帧的特征序列进行顺序聚类,得到初步聚类结果及聚类数K0;对顺序聚类之后的视频帧在清晰度、亮度和色偏三方面进行图像质量评价,将三方面的评价结果进行加权融合,作为聚类中每个视频帧的图像质量得分,按照得分分别对每个聚类进行视频帧过滤,得到过滤后的视频帧序列;对上一步过滤后的视频帧进行K-means聚类,并将此时的聚类数设置为K0;提取每个聚类中熵值最高的视频帧作为关键帧,熵值较高的前A个视频帧作为该关键帧对应的候选缩略图。
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术融合视觉语义信息的视频缩略图推荐方法能够首先自动为视频生成概述语句,再融合概述语句的语义信息为视频推荐能够概括视频主要内容的视频缩略图序列。该方法能够弥补很多视频分享网站上不能自动为每段视频推荐能够代表视频主要内容的视频缩略图的缺陷,并且能够防止用户自定义与视频内容无关的图像作为视频的缩略图,以刻意吸引用户点击量的行为。本专利技术融合视觉语义信息的视频缩略图推荐方法能够为视频推荐客观且具有视频内容代表性的视频缩略图序列,从而提高视频的吸引力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术所述方法的流程示意图;图2是本专利技术视觉语义注意力模型的示意图。具体实施方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。如图1所示,本专利技术融本文档来自技高网
...

【技术保护点】
1.一种融合视觉语义信息的视频缩略图推荐方法,其特征是,所述方法包括以下步骤:/n分别对视频概述模型和视频缩略图推荐模型进行训练,得到对应的第一训练结果和第二训练结果;/n通过所述第一训练结果对当前视频生成概述语句,将所述概述语句与当前视频的关键帧序列同时输入所述第二训练结果,推荐与所述概述语句相关的关键缩略图,结合当前关键缩略图对应的的候选缩略图得到当前视频的推荐缩略图序列。/n

【技术特征摘要】
1.一种融合视觉语义信息的视频缩略图推荐方法,其特征是,所述方法包括以下步骤:
分别对视频概述模型和视频缩略图推荐模型进行训练,得到对应的第一训练结果和第二训练结果;
通过所述第一训练结果对当前视频生成概述语句,将所述概述语句与当前视频的关键帧序列同时输入所述第二训练结果,推荐与所述概述语句相关的关键缩略图,结合当前关键缩略图对应的的候选缩略图得到当前视频的推荐缩略图序列。


2.根据权利要求1所述融合视觉语义信息的视频缩略图推荐方法,其特征是,通过对标准数据集进行预处理得到视频概述模型训练数据集,对所述视频概述模型进行训练。


3.根据权利要求2所述融合视觉语义信息的视频缩略图推荐方法,其特征是,所述对标准数据集进行预处理得到视频概述模型训练数据集的具体过程为:
去除标准数据集中所有标注语句的标点符号,并将所有单词转换为统一的形式,对标注语句进行分词处理;
进行单词词频统计,去除出现次数小于预设阈值的单词,加入特殊标志符,形成视频概述模型训练数据集。


4.根据权利要求1所述融合视觉语义信息的视频缩略图推荐方法,其特征是,所述视频概述模型的构建过程为:
使用编码器,从视频中提取表观视觉特征得到视觉特征向量序列,提取多标签属性得到多标签属性特征向量序列;
通过解码器,融合视觉注意力与属性注意力机制提取视频特征,生成当前时间步的单词,其中所述视频特征包括视觉特征和多标签属性特征;
生成所述单词的语义特征序列,利用语义注意力机制为重建的视觉特征提取对应的语义特征。


5.根据权利要求4所述融合视觉语义信息的视频缩略图推荐方法,其特征是,对所述视频概述模型进行训练的具体过程为:
定义视频概述模型的损失函数:Lloss=L(θ,θrec)=L(θ)+L(θrec),L(θ)为编码器和解码器框架的损失函数,L(θrec)为视觉特征重建框架的损失函数;
设置训练参数,通过上...

【专利技术属性】
技术研发人员:张维刚张梦琴王树徽周延森黄庆明
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1