【技术实现步骤摘要】
关于本申请,主张以在2014年12月22日申请的日本国专利申请第2014-259419号为基础的优先权,参照该基础申请的内容,在本申请引用全部内容。
本专利技术涉及一种声音检索装置、声音检索方法。
技术介绍
随着声音、动画等多媒体内容的扩大/普及,要求高精度的多媒体检索技术。其中,正在研究从声音信号中确定发出与成为检索对象的检索词(查询)对应的声音的位置的声音检索技术。在声音检索中,尚未确立与使用图像识别的字符串检索技术相比具有充分的性能的检索方法。因此,正在研究用于实现具有充分性能的声音检索的各种技术。例如,在非专利文献1中(Y.ZhangandJ.Glass.“Aninner-productlower-boundestimatefordynamictimewarping”inProc.ICASSP,2011,pp.5660-5663.),公开了高速地比较声音信号之间的方法。由此,能够从检索对象的声音信号中高速地确定与通过声音输入的查询对应的位置。在非专利文献1公开的技术中,在检索对象的音声的语速和查询输入者的语速不同的情况下,存在检索精度变差的问题。
技术实现思路
本专利技术是为了解决上述的课题而提出的,其目的是提供一种能够从不同语速的声音信号中高精度地对检索词进行检索的声音检索装置、声音检索方法。为了实现上述目的,本专利技术的声音检索装置具备:记录单元,其记录检索对象的声音信号;< ...
【技术保护点】
一种声音检索装置,其特征在于,具备:记录单元,其记录检索对象的声音信号;变换单元,其将检索字符串变换为音素串;时间长度取得单元,其从存储有与音素相关的持续时间长度数据的数据库中取得由所述变换单元进行变换而得的音素串所包含的各音素的持续时间长度;时间长度导出单元,其根据由所述时间长度取得单元取得的持续时间长度,导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对应的声音的发声时间长度的候补;区间指定单元,其在检索对象的声音信号的时间长度中,对所述多个时间长度分别指定多个具有由所述时间长度导出单元导出的时间长度的区间即似然取得区间;似然取得单元,其取得表示由所述区间指定单元指定的似然取得区间是发出与所述检索字符串对应的声音的区间的似然度的似然;以及确定单元,其根据由所述似然取得单元针对由所述区间指定单元指定的似然取得区间分别取得的似然,确定从所述检索对象的声音信号中推定发出与所述检索字符串对应的声音的推定区间。
【技术特征摘要】
2014.12.22 JP 2014-2594191.一种声音检索装置,其特征在于,具备:
记录单元,其记录检索对象的声音信号;
变换单元,其将检索字符串变换为音素串;
时间长度取得单元,其从存储有与音素相关的持续时间长度数据的数据库
中取得由所述变换单元进行变换而得的音素串所包含的各音素的持续时间长
度;
时间长度导出单元,其根据由所述时间长度取得单元取得的持续时间长
度,导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对
应的声音的发声时间长度的候补;
区间指定单元,其在检索对象的声音信号的时间长度中,对所述多个时间
长度分别指定多个具有由所述时间长度导出单元导出的时间长度的区间即似
然取得区间;
似然取得单元,其取得表示由所述区间指定单元指定的似然取得区间是发
出与所述检索字符串对应的声音的区间的似然度的似然;以及
确定单元,其根据由所述似然取得单元针对由所述区间指定单元指定的似
然取得区间分别取得的似然,确定从所述检索对象的声音信号中推定发出与所
述检索字符串对应的声音的推定区间。
2.根据权利要求1所述的声音检索装置,其特征在于,
该声音检索装置还具备:选择单元,其根据由所述似然取得单元取得的似
然,从所述多个时间长度中选择一个时间长度,
所述确定单元根据针对具有所述选择的时间长度的似然取得区间取得的
似然,从所述选择的时间长度的似然取得区间中确定所述推定区间。
3.根据权利要求2所述的声音检索装置,其特征在于,
所述选择单元针对所述多个时间长度分别取得按照似然从高到低的顺序
相加预定数量的针对相同时间长度的似然取得区间取得的似然而得的相加值,
并对该取得的相加值进行比较,从所述多个时间长度中选择相加值最大的时间
长度。
4.根据权利要求3所述的声音检索装置,其特征在于,
所述选择单元通过以似然越高乘上越大的加权系数的方式将针对相同时
间长度的似然取得区间取得的似然相加来取得上述相加值。
5.根据权利要求1至4中的任一项所述的声音检索装置,其特征在于,
该声音检索装置还具备:
特征量计算单元,其针对比较声音信号和音素模型的区间即每个帧计算出
由所述区间指定单元指定的似然取得区间中的所述检索对象的声音信号的特
征量;以及
输出概率取得单元,其对每个帧取得从所述音素串包含的各音素输出所述
检索对象的声音信号的特征量的输出概率,
所述似然取得单元相加将针对由所述区间指定单元指定的似然取得区间
所包含的每个帧取得的输出概率取对数而得的值,来取得该似然取得区间的所
述似然。
6.根据权利要求5所述的声音检索装置,其特征在于,
该声音检索装置还具备:输出概率存储单元,其对所述检索对象的声音信
号所包含的每个帧,将声学模型的音素的各状态与输出概率对应起来进行存
储,其中,该输出概率是从根据声学模型生成的音素的各状态输出所述检索对
象的声音信号的特征量的概率,
在所述变换单元将所述检索字符串变换为所述音素串时,所述输出概率取
得单元从存储在所述输出概率存储单元中的输出概率中,针对所述似然取得区
间所包含的每个帧取得与该音素串所包含的音素的各状态对应起来存储的输
出概率。
7.根据权利要求6所述的声音检索装置,其特征在于,
该声音检索装置还具备:置换单元,其将由所述输出概率取得单元针对每
个帧取得的输出概率分别置换为该帧、该帧之前的N1个帧以及该帧之后的
N2个帧中最大的输出概率,
所述N1和N2是包含0的自然数,N1和N2中的任一个不是0,
所述似然取得单元根据基于所述置换单元的置换后的输出概率,取得由所
述区间指定单元指定的似然取得区间的所述似然。
8.根据权利要求2至7中的任一项所述的声音检索装置,其特征在于,
所述变换单元排列不依存于相邻音素的声学模型的音素,将所述检索字符
串变换为所述音素串,
所述似然取得单元根据所述音素串取得由所述区间指定单元指定的似然
取得区间的所述似然,
所述选择单元根据所述似然取得单元取得的似然,从所述区间指定单元指
定的似然取得区间中选择所述推定区间的多个候补,
该声音检索装置还具备:
第2变换单元,其排列依存于相邻音素的第2声学模型的音素,将所述检
索字符串变换为第2音素串;以及
第2似然取得单元,其根据所述第2音素串,对所述选择单元选择的多个
候补分别取得第2似然,其中,该第2似然表示所述选择单元选择为所述推定
区间的候补的区间为发出与所述检索字符串对应的声音的区间的似然度,
所述确定单元根据所述第2似然取得单元取得的第2似然,从所述选择单
元选择的多个候补中确定所述推定区间。
9.根据权利要求8所述的声音检索装置,其特征在于,
所述选择单元从所述区间指定单元指定的似然取得区间中,对每个预定的
选择时间长度逐一选择在从该预定的选择时间长度的区间中开始的似然取得
区间中所述似然最大的似然取得区间,由此选择所述推定区间的多个候补。
10.一种声音检索...
【专利技术属性】
技术研发人员:富田宽基,
申请(专利权)人:卡西欧计算机株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。