视频内容索引结构的建立方法、视频检索方法及装置制造方法及图纸

技术编号:9694709 阅读:81 留言:0更新日期:2014-02-21 01:02
本发明专利技术公开了一种视频内容索引结构的建立方法、视频检索方法及装置,所述视频内容索引结构的建立方法依据影视类视频内容的关联性建立各视频内容的索引文件,包含如下步骤:步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。

【技术实现步骤摘要】
视频内容索引结构的建立方法、视频检索方法及装置
本专利技术涉及多媒体信息
,特别涉及到影视类视频、记录类视频等带解说或字幕的媒体数据内容关联和索引建立方法,即本专利技术提供了一种视频内容索引结构的建立方法、视频检索方法及装置。
技术介绍
在多媒体信息领域,针对视频数据,普遍采取人工标注、建立索引,才能进行后续的检索。这种方法具有精度较高的优点,但又有耗时长、费用高的缺陷,而且面对日益增多的海量视频数据,视频人工标注面临非常艰难的处境。随着时代发展,人们发现,对于视频数据,一般都伴随有文本数据、话音数据,因此如何利用文本数据、话音数据来标注视频数据,就成为90年代以来研究人员的主攻方向。沿着这样的思路,第一阶段是粗粒度的标注,即使用文本(或对语音数据经语音识别后的文本),建立文本索引,在索引中有一个字段指向视频数据;第二阶段是使用文本数据与视频数据的共时性关系,即场景关联,做法是使用视频切分工具或辅以人工干预,将视频切分成多个场景,然后利用文本数据(如字幕)中的时间与各场景关联,将整体文本分成与各场景关联的文本段,并从各场景中抽取一个关键帧作为该场景的标志。对各场景关联的文本段建立索引,在索引中有两个字段:一个字段指向关键帧,一个字段指向场景视频数据,目前处于这一阶段。另外一种研究思路是从视频数据本身出发实施的。第一种方法,类似于文本索引建立过程,该方法抽取视频词项,以视频词项建立索引,这种方法的缺陷是所谓的视频词项是人类不可读的,不具备显式涵义,仅适用于QBE(QuerybyExample)方法;第二种方法是语义学法,简单地说,是利用统计学方法,抽取视频数据的隐语义,和上面一种方法的缺陷一样,也不具备显式涵义。从视频数据本身出发的方法,实际的系统都要求较好的用户界面,要求用户提供范例,才能进行具体的检索。目前缺少将基于文本的索引建立方法与基于视频数据的索引建立方法相结合的有效方法,从而解决基于文本索引建立方法粒度粗、基于视频数据索引建立方法不直观的缺陷,提供一种方便检索、粒度较细的索引结构及其建立方法。
技术实现思路
本专利技术的目的在于,为克服现有技术的上述问题,本专利技术提供了一种视频内容索引结构的建立方法、视频检索方法及装置。为了实现上述目的,一方面本专利技术提供了一种视频内容索引文件的建立方法,该方法依据影视类视频内容的关联性建立各视频内容的索引文件,所述方法包含如下步骤:步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。上述技术方案中,所述步骤101)之前还包含如下步骤:用于将整个视频文件切分为各个场景的步骤;用于生成视频相关文本的步骤,该步骤具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;用于关键帧或I帧隐语义的生成步骤,该步骤为:利用视频包含的各图像的图像语义提取算法对图像数据进行计算,得到关键帧或I帧的隐语义;其中,上述三个步骤之间无执行的先后次序。上述技术方案中,依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。上述技术方案中,所述影片级索引结构包含:影片级倒排文件索引库和影片级倒排隐语义索引;所述场景级索引结构包含:视频场景倒排文本索引库和视频场景倒排隐语义索引库;所述关键帧或I帧级索引结构包含:帧组级倒排隐语义索引库和帧级倒排隐语义索引库。上述技术方案中,所述场景级索引结构的形成方法如下:利用视频场景、视频相关文本和隐语义关联中得到的归属关系,形成符合如下条件的多个集合:SequenceNo,[Starttime、Endtime],[text],[keyframeLSI,occur-time];利用所述text集合使用文本索引技术,建立视频场景倒排文本索引库;利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。上述技术方案中,所述影片级的索引结构形成方法如下:利用与影片视频关联的文本,通过文本分词,形成影片视频的关键字,建立影片级倒排文本索引;其中,所述影片级视频关联的文本包含:影片介绍、剧本或字幕集合;利用影片代表帧,生成该代表帧的隐语义,建立影片倒排隐语义索引,所述代表帧由编辑人员选择确定。上述技术方案中,所述关键帧或I帧索引结构形成方法还包含如下步骤:如果是帧组,依据时间区间,得到这段时间对应的文本集合txt-set,建立帧组级的倒排文本索引;从帧组中为该帧组选择一代表帧,生成代表帧的隐语义,建立帧组级倒排隐语义索引;如果是单帧,则依据该帧发生时的时刻,得到含该时刻的文本句子,建立帧级的倒排文本索引;并生成该帧的隐语义,建立帧级倒排隐语义索引。另一方面,本专利技术还提供一种基于上述构建的视频内容索引文件进行视频检索方法,所述检索方法包含:用户输入视频检索请求信息;依据用户输入的视频检索请求信息获取用户检索的类型,并依据用户检索的类型将用户引导到具体类别的索引结构中进行索引查找;其中,所述用户检索的类型包含:影片级检索请求、场景级检索请求或帧组或帧级检索请求;所述索引结构包含:影片级索引结构、场景级索引结构、关键帧或I帧级索引结构;依据获取的视频索引到服务器或其他的终端用户的视频库查找用户所需的视频检索请求的具体内容并提供给用户。最后,本专利技术还提供一种基于上述构建的的视频内容索引文件进行视频检索装置,其特征在于,所述视频检索装置包含:视频内容索引文件生成单元,用于依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、文本和隐语义之间的时间关联处理;基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立;接收单元,用于接收用户发送的检索请求;第一处理单元,用于处理接收的用户的检索请求,并将该检索请求进行类别划分,所述类别包含:影片级检索请求、场景级检索请求或帧组或帧级检索请求;引导单元,用于依据第一处理模块输出的用户检索请求的类别将用户引导至合适的视频内容索引文件生成单元得到的多层次的索引结构进行目标索引,所述多层次的索引结构包含:影片级索引结构、场景级索引结构、关键帧或I帧级索引结构;所述合适的索引结构为将用户请求的类型与具体的索引结构进行匹配;视频文件定位发送单元,用于借助引导模块从视频库中定位用户所请求的视频文件,并将定位的视频文件发送至请求用户,完成视频文件检索。上述技术方案中,所述视频内容索引文件生成单元进一步包含:场景切分子单元,用于将整个视频文件切分为各个场景;视频相关文本获取子单元,用于生成视频相关文本,具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;隐语义生成子单元,用于关键帧或I帧隐语义的生成,具体为:利用视频包含的各图像本文档来自技高网
...
视频内容索引结构的建立方法、视频检索方法及装置

【技术保护点】
一种视频内容索引文件的建立方法,该方法依据影视类视频内容的关联性建立各视频内容的索引文件,所述方法包含如下步骤:步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。

【技术特征摘要】
1.一种视频内容索引文件的建立方法,该方法依据影视类视频内容的关联性建立各视频内容的索引文件,所述方法包含如下步骤:步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立;所述步骤101)之前还包含如下步骤:步骤101-1)用于将整个视频文件切分为各个场景的步骤;步骤101-2)用于生成视频相关文本的步骤,该步骤具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;步骤101-3)用于关键帧或I帧隐语义的生成步骤,该步骤为:利用视频包含的各图像的图像语义提取算法对图像数据进行计算,得到关键帧或I帧的隐语义;其中,步骤101-1)、步骤101-2)和步骤101-3)之间无执行的先后次序。2.根据权利要求1所述的视频内容索引文件的建立方法,其特征在于,依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。3.根据权利要求1所述的视频内容索引文件的建立方法,其特征在于,所述影片级索引结构包含:影片级倒排文件索引库和影片级倒排隐语义索引;所述场景级索引结构包含:视频场景倒排文本索引库和视频场景倒排隐语义索引库;所述关键帧或I帧级索引结构包含:帧组级倒排隐语义索引库和帧级倒排隐语义索引库。4.根据权利要求3所述的视频内容索引文件的建立方法,其特征在于,所述场景级索引结构的形成方法如下:利用视频场景、视频相关文本和隐语义关联中得到的归属关系,形成符合如下条件的多个集合:SequenceNo,[Starttime、Endtime],[text],[keyframeLSI,occur-time];利用所述text集合使用文本索引技术,建立视频场景倒排文本索引库;利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。5.根据权利要求3所述的视频内容索引文件的建立方法,其特征在于,所述影片级的索引结构形成方法如下:利用与影片视频关联的文本,通过文本分词,形成影片视频的关键字,建立影片级倒排文本索引;其中,所述与影片视频关联的文本包含:影片介绍、剧本或字幕集合;利用影片代表帧,生成该代表帧的隐语义,建立影片倒排隐语义索引,所述代表帧由编辑人员选择确定。6.根据权利要求3所述的视频内容索引文件的建立方法,其特征在于,所述关键帧或I帧索引结构形成方法还包含如下步骤:如果是帧组,依据时间区间,得到这段时间对应的文本集合txt-set,建立帧组级的倒排文本索引;从帧组中为该帧组选择一代...

【专利技术属性】
技术研发人员:王玲芳李挺屹王劲林
申请(专利权)人:中国科学院声学研究所北京中科智网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1