当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多核典型相关分析的视频检索方法技术

技术编号:9642414 阅读:95 留言:0更新日期:2014-02-07 00:58
基于多核典型相关分析的视频检索方法,从互联网上抓取视频及对应的文本描述后,针对每个视频进行如下操作:首先根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;然后利用多核典型相关分析方法得到视频特征和词频特征的映射矩阵及其低维表示,使它们在低维空间的相关性最大;最后,当用户输入关键词做视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果。本方法的优点在于:增强视频内容和检索关键词的相关程度,提高用户的检索精度。

【技术实现步骤摘要】
一种基于多核典型相关分析的视频检索方法
本专利技术涉及视频检索的
,特别是基于多核典型相关分析的视频检索方法。
技术介绍
随着近年来计算机网络多媒体技术通讯技术的飞速发展,人们可以通过互联网上传、观看和下载各类视频信息。互联网已经逐渐成为巨大的视频仓库,如何更加快速有效地检索用户所需视频信息已经日益成为信息检索热点问题。传统的视频检索方法是基于文本的,它将视频标签信息作为关键字和视频形成一一匹配关系,之后通过对关键字进行特征提取、预处理等操作进行聚类分类。这种完全依赖于手工标注视频信息的方法效率较低,对视频信息的描述能力不足且需要一定的经验。因此,基于文本的检索方法已不能满足用户日益增长的需求。自20世纪八十年代开始,基于内容的视频检索已逐步为人们所关注,近年来更成为研究热点。该方法可以在没有人工参与的情形下,自动地提取视频特征,而不仅仅是依赖于标签信息。具体说来,该方法在镜头分割和关键帧选取之后提取关键帧的视觉特征和镜头的运动特征,并录入视频检索数据库。用户检索时,将视频按照用户检索关键词的词频特征进行检索,并按照相似度由高到低的顺序将检索结果返回给用户。采用基于内容的视频检本文档来自技高网...
一种基于多核典型相关分析的视频检索方法

【技术保护点】
一种基于多核典型相关分析的视频检索方法,该方法的特征在于从互联网抓取视频后,针对每个视频进行以下操作:?1)根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;?2)利用多核典型相关分析方法,分别获取视频特征和词频特征的映射矩阵,从而获得两者对应的低维表示,使它们在低维数据空间的相关性最大;?3)当用户输入关键词进行视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果。

【技术特征摘要】
1.一种基于多核典型相关分析的视频检索方法,该方法的特征在于从互联网抓取视频后,针对每个视频进行以下操作:1)根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;2)利用多核典型相关分析方法,分别获取视频特征和词频特征的映射矩阵,从而获得两者对应的低维表示,使它们在低维数据空间的相关性最大;3)当用户输入关键词进行视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果;所述的步骤1)中所述的处理视频及其对应文本描述的方法,具体是:11)视频镜头切割时,采用双比较方法,设Tb为检测镜头突变的阈值,Ts为检测镜头渐变的阈值,用差值度量法检测相邻帧的差值,若差值大于Tb,则属于镜头突变,应进行镜头切分,若差值小于Tb大于Ts,则有可能属于镜头渐变,此时需要将该帧与后续帧进行比较,若帧间差值小于Ts,但相邻帧之间差值累加和大于Tb,则意味着的确属于镜头渐变;12)提取关键帧时,首先先将镜头的首尾帧设定为关键帧,因为首帧通常为了吸引观众代表了镜头的主题,尾帧希望观众回味往往用一种特写表示,首尾帧确定后,还要选取变化显著的帧作为关键帧,即将镜头中非关键帧的每一帧依次与关键帧进行比较,如果差异较大,将其作为关键帧,依次比较下去直到比完镜头中所有非关键帧,之后还要根据帧平均法选取关键帧,即在某个指定位置上,计算所有帧像素值的平均值,关键帧为像素值最接近平均值的帧;13)关键帧特征提取时,静态图像的视觉特征提取颜色、形状、纹理,镜头运动特性提取镜头运动变化、运动轨迹、运动目标大小,形成视频的视频特征表示;14)对视频文本描述进行分词,统计词频,形成其词频特征表示;所述的步骤2)中所述的多核典型相关分析方法,具体是:21)将训练样本视频总数设为n,用m维向量Xi来表示第i个视频的视频特征,将n个m维的向量Xi合并成矩阵X,代表视频特征矩阵,同理,用k维向量Yj来表示第j个视频对应的文本描述的词频特征,将n个k维的向量Yj合并成矩阵Y,代表词频特征矩阵;22)利用高斯核函数公式计算出X的Gram矩阵Kx,其中Kx为...

【专利技术属性】
技术研发人员:卜佳俊高珊李平陈纯何占盈宋明黎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1