兴趣区间抽取装置、兴趣区间抽取方法制造方法及图纸

技术编号:7978511 阅读:188 留言:0更新日期:2012-11-16 05:45
一种兴趣区间抽取装置(104),根据动态图像文件中所包含的音频信号来抽取包括指定时刻(T0)的用户的兴趣区间,该兴趣区间抽取装置(104)具有:接口装置(109),取得指定时刻(T0);似然度向量生成部(202),对于音频信号的每个第1单位区间计算表现多种音素各自的特征的各个锚模型(Ar)的似然度,并生成以计算出的各个似然度为分量的似然度向量(F);以及兴趣区间抽取部(209),根据似然度向量(F)计算成为兴趣区间的候选的第1特征区间,并抽取包括指定时刻(T0)的第1特征区间的一部分区间作为兴趣区间。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及从AV内容中抽取成为用户的兴趣对象的兴趣区间的技术,尤其涉及使用音频信号的技术。
技术介绍
在数字摄像机等动态图像摄影设备中,要求能够从用户拍摄的AV内容中去除不需要的区间而仅抽取有兴趣的区间(下面称为“兴趣区间”)的功能。与此相对,在过去的动态图像摄影设备中,用户视听AV内容的内容,并在兴趣区间的开始时刻到来时操作控制器(例如按下控制器的输入按钮的操作)确定兴趣区间的开始时刻,然后在兴趣区间的结束时刻到来时,再次操作控制器确定兴趣区间的结束时刻,由此能够抽取兴趣区间。 可是,在这种动态图像摄影设备中,在想要抽取适宜的兴趣区间时,需要视听AV内容的内容并在恰当的定时操作控制器,在视听AV内容的内容的同时操作控制器的作业需要某种程度的熟练功。并且,在不能恰当地确定兴趣区间的开始时刻和结束时刻的情况下,需要再次反复视听AV内容的内容来操作控制器的作业,兴趣区间的抽取花费许多功夫。因此,过去提出了一种动态图像编辑装置(参照专利文献I ),该动态图像编辑装置具有将针对用户指定的时刻加上用户预先根据内容的内容而设定的偏置时间后的时刻作为起始点和终止点的功能。在这种动态图像编辑装置中,如果将起始点的时刻设定为例如比用户指定的时刻提前偏置时间,即使是用户指定起始点的定时延迟了,也能够指定期望的起始点,能够抽取适宜的兴趣区间。另外,过去还提出了这样的方法(参照专利文献2),预先设定兴趣区间的开始时刻(起始点)的音响特征条件和结束时刻(终止点)的音响特征条件,根据这些音响特征条件来确定起始点和终止点,由此抽取兴趣区间。现有技术文献专利文献专利文献I :日本特开2001 - 057660号公报专利文献2 :日本特开平3 - 080782号公报专利技术概要专利技术要解决的问题但是,在专利文献I记载的方法中,通常需要根据AV内容的内容将适宜的偏置时间设定为不同的长度,例如在想要从多种AV内容分别抽取兴趣区间来生成摘要的情况下,需要在对每种AV内容分别设定偏置时间后抽取兴趣区间。在想要从这些多种AV内容分别抽取兴趣区间的情况下,按照每种AV内容分别设定不同的偏置时间的作业,对于用户而言是非常费功夫的作业。另外,在专利文献2记载的方法中,需要根据AV内容的内容设定起始点和终止点的音响特征条件,因而在想要从多种AV内容抽取兴趣区间的情况下,需要对每种AV内容分别设定起始点和终止点的音响特征条件。因此,在对多种AV内容分别设定音响特征条件来抽取兴趣区间的情况下,这种设定作业对于用户而言成为较大的负担。
技术实现思路
本专利技术正是鉴于上述情况而提出的,其目的在于,减轻从AV内容抽取兴趣区间时的用户的作业负担。用于解决问题的手段本专利技术的兴趣区间抽取根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间,其特征在于,该兴趣区间抽取装置具有锚模型(anchor model)存储单元,预先存储有用于表现作为基准的多种音素各自的特征的锚模型;指定时刻取得单元,取得指定时刻;似然度向量生成单元,对于音频信号的每个单位区间,使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度,并生成以各个似然度为分量的似然度向量;以及兴趣区间抽取单元,根据似然度向量计算成为兴趣区间的候选的候选区间,并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。专利技术效果根据这种结构,在从AV内容抽取兴趣区间时,仅通过指定指定时刻即可抽取适宜的兴趣区间,因而能够减轻抽取兴趣区间时的用户的作业负担。并且,也可以是,本专利技术的兴趣区间抽取装置具有频次向量生成单元,该频次向量生成单元将单位区间作为第I单位区间,根据从长度为该第I单位区间的N倍的第2单位区间的音频信号生成的N个似然度向量生成频次向量,N为2以上的自然数,候选区间是根据频次向量而计算出的。并且,也可以是,本专利技术的兴趣区间抽取装置具有分量分类单元,将频次向量的各个分量分类为多个分量组;以及特征区间计算单元,根据多个分量组分别计算多个特征区间,候选区间由多个特征区间确定。根据这种结构,根据表示AV内容整体中的各个音素的出现频次的、从音频信号的整体区间生成的似然度向量的重心向量的各个分量来分类为多个分量组,按照根据多个分量组分别计算出的特征区间来确定候选区间,由此如果按照声音环境的性质上的差异将分量分类,则能够从根据声音环境为相同性质的分量而计算出的特征区间中确定候选区间,因而能够使声音环境的性质体现在特征区间中。并且,也可以是,在本专利技术的兴趣区间抽取装置中,分量分类单元根据音频信号的整体区间的似然度向量生成重心向量,根据该重心向量的各个分量的大小,将频次向量的各个分量分类为第I分量组和第2分量组,特征区间计算单元根据重心向量中的属于第I分量组的各个分量计算第I特征区间,根据重心向量中的属于第2分量组的各个分量计算第2特征区间,候选区间由第I特征区间和第2特征区间确定。根据这种结构,特征区间计算单元构成为将重心向量中对应于与大小为预定量以上的分量对应的锚模型的重心向量的分量作为第I分量组,将重心向量中对应于与大小小于预定量的分量对应的锚模型的重心向量的分量作为第2分量组,并根据第I分量组计算第I特征区间,根据第2分量组计算第2特征区间,由此能够根据属于第I分量组的各个分量计算稳定性质的声音环境的持续期间即第I特征区间,并根据属于第2分量组的各个分量计算突发性质的声音环境的持续期间即第2特征区间,因而能够抽取包括稳定性质的声音环境和突发性质的声音环境的兴趣区间。并且,也可以是,在本专利技术的兴趣区间抽取装置中,兴趣区间是包含于第I特征区间中且包含第2特征区间的区间。根据这种结构,兴趣区间是包含于第I特征区间中且包括第2特征区间的区间,由此能够准确抽取包括突发性的声音环境的兴趣区间,因而能够准确抽取包括稳定的声音环境和突发性的声音环境的兴趣区间。并且,也可以是,本专利技术的兴趣区间抽取装置具有兴趣区间长度取得单元,取得用户预先设定的兴趣区间的长度;以及特征时刻抽取单元,从指定时刻开始使时刻每次错时第2单位区间,同时检索并提取包含于第2特征区间中的特征时刻,兴趣区间抽取单元,从指定时刻开始使时刻朝向由特征时刻抽取单元抽取的特征时刻每次错时第2单位区间,同时判定对象时刻是否属于第I特征区间、且该对象时刻与指定时刻之间的长度是否比预·先设定的兴趣区间的长度短,在判定为对象时刻属于第I特征区间、且该对象时刻与指定时刻之间的长度比预先设定的兴趣区间的长度短时,将包括对象时刻的第2单位区间作为兴趣区间。根据这种结构,在第I特征区间的长度比用户预先设定的兴趣区间的长度短的情况下,能够减轻兴趣区间抽取单元的处理负荷。并且,也可以是,在本专利技术的兴趣区间抽取装置中,动态图像文件对应于表示一个内容的动态图像。根据这种结构,动态图像文件对应于表示一个内容的动态图像,由此能够从一个内容整体中抽取第I特征区间和第2特征区间,因而能够更准确地抽取用户对内容的兴趣区间。并且,也可以是,在本专利技术的兴趣区间抽取装置中,兴趣区间抽取单元将表示与多个指定时刻对应的多个兴趣区间的兴趣区间数据按照指定时刻的顺序进行排列,并向外部存储装置存储。根据这种结构,在生成按照指定时刻的顺序来呈现兴趣区间的动态图像的摘要动态图像的情况下,不需要进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:小沼知浩川西亮一上野山努
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1