视频内容索引结构的建立方法、视频检索方法及装置制造方法及图纸

技术编号：9694709 阅读：93 留言：0更新日期：2014-02-21 01:02

本发明专利技术公开了一种视频内容索引结构的建立方法、视频检索方法及装置，所述视频内容索引结构的建立方法依据影视类视频内容的关联性建立各视频内容的索引文件，包含如下步骤：步骤101）依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、视频相关文本和隐语义之间的时间关联处理；所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本；步骤102）基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立。

全部详细技术资料下载

【技术实现步骤摘要】
视频内容索引结构的建立方法、视频检索方法及装置
本专利技术涉及多媒体信息
，特别涉及到影视类视频、记录类视频等带解说或字幕的媒体数据内容关联和索引建立方法，即本专利技术提供了一种视频内容索引结构的建立方法、视频检索方法及装置。
技术介绍
在多媒体信息领域，针对视频数据，普遍采取人工标注、建立索引，才能进行后续的检索。这种方法具有精度较高的优点，但又有耗时长、费用高的缺陷，而且面对日益增多的海量视频数据，视频人工标注面临非常艰难的处境。随着时代发展，人们发现，对于视频数据，一般都伴随有文本数据、话音数据，因此如何利用文本数据、话音数据来标注视频数据，就成为90年代以来研究人员的主攻方向。沿着这样的思路，第一阶段是粗粒度的标注，即使用文本（或对语音数据经语音识别后的文本），建立文本索引，在索引中有一个字段指向视频数据；第二阶段是使用文本数据与视频数据的共时性关系，即场景关联，做法是使用视频切分工具或辅以人工干预，将视频切分成多个场景，然后利用文本数据（如字幕）中的时间与各场景关联，将整体文本分成与各场景关联的文本段，并从各场景中抽取一个关键帧作为该场景的标志。对各场景关联的文本段建立索引，在索引中有两个字段：一个字段指向关键帧，一个字段指向场景视频数据，目前处于这一阶段。另外一种研究思路是从视频数据本身出发实施的。第一种方法，类似于文本索引建立过程，该方法抽取视频词项，以视频词项建立索引，这种方法的缺陷是所谓的视频词项是人类不可读的，不具备显式涵义，仅适用于QBE（QuerybyExample）方法；第二种方法是语义学法，简单地说，是利用统计学方法，抽取...
视频内容索引结构的建立方法、视频检索方法及装置

【技术保护点】
一种视频内容索引文件的建立方法，该方法依据影视类视频内容的关联性建立各视频内容的索引文件，所述方法包含如下步骤：步骤101）依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、视频相关文本和隐语义之间的时间关联处理；所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本；步骤102）基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立。

【技术特征摘要】
1.一种视频内容索引文件的建立方法，该方法依据影视类视频内容的关联性建立各视频内容的索引文件，所述方法包含如下步骤：步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、视频相关文本和隐语义之间的时间关联处理；所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本；步骤102)基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立；所述步骤101)之前还包含如下步骤：步骤101-1)用于将整个视频文件切分为各个场景的步骤；步骤101-2)用于生成视频相关文本的步骤，该步骤具体为：从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息；步骤101-3)用于关键帧或I帧隐语义的生成步骤，该步骤为：利用视频包含的各图像的图像语义提取算法对图像数据进行计算，得到关键帧或I帧的隐语义；其中，步骤101-1)、步骤101-2)和步骤101-3)之间无执行的先后次序。2.根据权利要求1所述的视频内容索引文件的建立方法，其特征在于，依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。3.根据权利要求1所述的视频内容索引文件的建立方法，其特征在于，所述影片级索引结构包含：影片级倒排文件索引库和影片级倒排隐语义索引；所述场景级索引结构包含：视频场景倒排文本索引库和视频场景倒排隐语义索引库；所述关键帧或I帧级索引结构包含：帧组级倒排隐语义索引库和帧级倒排隐语义索引库。4.根据权利要求3所述的视频内容索引文件的建立方法，其特征在于，所述场景级索引结构的形成方法如下：利用视频场景、视频相关文本和隐语义关联中得到的归属关系，形成符合如下条件的多个集合：SequenceNo，[Starttime、Endtime]，[text]，[keyframeLSI，occur-time]；利用所述text集合使用文本索引技术，建立视频场景倒排文本索引库；利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。5.根据权利要求3所述的视频内容索引文件的建立方法，其特征在于，所述影片级的索引结构形成方法如下：利用与影片视频关联的文本，通过文本分词，形成影片视频的关键字，建立影片级倒排文本索引；其中，所述与影片视频关联的文本包含：影片介绍、剧本或字幕集合；利用影片代表帧，生成该代表帧的隐语义，建立影片倒排隐语义索引，所述代表帧由编辑人员选择确定。6.根据权利要求3所述的视频内容索引文件的建立方法，其特征在于，所述关键帧或I帧索引结构形成方法还包含如下步骤：如果是帧组，依据时间区间，得到这段时间对应的文本集合txt-set，建立帧组级的倒排文本索引；从帧组中为该帧组选择一代...

【专利技术属性】
技术研发人员：王玲芳，李挺屹，王劲林，
申请(专利权)人：中国科学院声学研究所，北京中科智网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人