声音检索装置、声音检索方法制造方法及图纸

技术编号:13330257 阅读:25 留言:0更新日期:2016-07-11 20:33
本发明专利技术提供声音检索装置、声音检索方法。检索字符串取得部取得检索字符串。变换部将检索字符串变换为音素串。时间长度导出部使用语速不同的多个音素的持续时间长度,导出多个与检索字符串对应的声音的发声时间长度。区间指定部指定检索对象的声音信号中的似然取得区间。似然取得部取得表示似然取得区间为发出与检索字符串对应的声音的区间的似然度的似然。重复部改变由区间指定部指定的似然取得区间,重复进行区间指定部和似然取得部的处理。选择部选择使用与似然变高的语速对应的持续时间长度的似然取得区间。确定部根据针对所选择的似然取得区间分别取得的似然,确定从检索对象的声音信号中推定发出与检索字符串对应的声音的推定区间。

【技术实现步骤摘要】
关于本申请,主张以在2014年12月22日申请的日本国专利申请第2014-259419号为基础的优先权,参照该基础申请的内容,在本申请引用全部内容。
本专利技术涉及一种声音检索装置、声音检索方法
技术介绍
随着声音、动画等多媒体内容的扩大/普及,要求高精度的多媒体检索技术。其中,正在研究从声音信号中确定发出与成为检索对象的检索词(查询)对应的声音的位置的声音检索技术。在声音检索中,尚未确立与使用图像识别的字符串检索技术相比具有充分的性能的检索方法。因此,正在研究用于实现具有充分性能的声音检索的各种技术。例如,在非专利文献1中(Y.ZhangandJ.Glass.“Aninner-productlower-boundestimatefordynamictimewarping”inProc.ICASSP,2011,pp.5660-5663.),公开了高速地比较声音信号之间的方法。由此,能够从检索对象的声音信号中高速地确定与通过声音输入的查询对应的位置。在非专利文献1公开的技术中,在检索对象的音声的语速和查询输入者的语速不同的情况下,存在检索精度变差的问题。
技术实现思路
本专利技术是为了解决上述的课题而提出的,其目的是提供一种能够从不同语速的声音信号中高精度地对检索词进行检索的声音检索装置、声音检索方法。为了实现上述目的,本专利技术的声音检索装置具备:记录单元,其记录检索对象的声音信号;<br>变换单元,其将检索字符串变换为音素串;时间长度取得单元,其从存储有与音素相关的持续时间长度数据的数据库中取得由所述变换单元进行变换而得的音素串所包含的各音素的持续时间长度;时间长度导出单元,其根据由所述时间长度取得单元取得的持续时间长度,导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对应的声音的发声时间长度的候补;区间指定单元,其在检索对象的声音信号的时间长度中,对所述多个时间长度中的各时间长度指定多个具有由所述时间长度导出单元导出的时间长度的区间即似然取得区间;似然取得单元,其取得表示由所述区间指定单元指定的似然取得区间是发出与所述检索字符串对应的声音的区间的似然度的似然;以及确定单元,其根据由所述似然取得单元针对由所述区间指定单元指定的似然取得区间分别取得的似然,确定从所述检索对象的声音信号中推定发出与所述检索字符串对应的声音的推定区间。根据本专利技术,能够从不同语速的声音信号中能够高精度地对检索词进行检索。附图说明若根据以下的附图考虑以下的详细记述,则能够得到对本申请的更深的理解。图1是表示本专利技术的实施方式1的声音检索装置的物理结构的图。图2是表示本专利技术的实施方式1的声音检索装置的功能结构的图。图3是用于说明音素的状态的图。图4是用于说明导出与语速对应的说话时间长度的图。图5(a)是检索对象的声音信号的波形图,图5(b)是表示在检索对象的声音信号中设定的帧的图,图5(c)是表示在检索对象的声音信号中指定的似然取得区间的图。图6是表示将输出概率下限化的例子的图。图7是用于说明基于选择部的候补区间的选择方法的图。图8是表示本专利技术的实施方式1的声音检索装置执行的声音检索处理的流程的流程图。图9是表示确定与检索字符串对应的区间的处理流程的流程图。图10是表示本专利技术的实施方式2的声音检索装置的功能结构的图。图11A是用于说明选择部在乘上所取得的似然的加权系数后选择候补区间的方法的图。图11B是表示加权系数的例子的图。图12是用于说明基于选择部的候补区间的选择方法的图。图13A是表示选择部对每个语速记载了分割声音信号而得的区间的最大似然的例子的图。图13B是表示在分割声音信号而得的每个区间对与语速对应的似然顺序进行比较的例子的图。具体实施方式以下,参照附图对本专利技术的实施方式的声音检索装置进行说明。另外,对图中相同或对应的部分赋予相同符号。(实施方式1)如图1所示,实施方式1的声音检索装置100物理上具备:ROM(ReadOnlyMemory:只读存储器)1、RAM(RandomAccessMemory:随机存取存储器)2、外部存储装置3、输入装置4、输出装置5、CPU(CentralProcessingUnit:中央处理单元)6以及总线7。ROM1存储声音检索程序。RAM2被用作CPU6的工作区域。外部存储装置3例如由硬盘构成,将解析对象即声音信号、后述的单音子模型、三音子模型以及音素的时间长度作为数据来存储。输入装置4例如由键盘、声音识别装置构成。输入装置4向CPU6提供用户输入的检索词作为文本数据。输出装置5例如具备液晶显示器等画面、扬声器等。输出装置5在画面上显示由CPU6输出的文本数据,从扬声器输出声音数据。CPU6将存储在ROM1中的声音检索程序读出到RAM2并执行该声音检索程序,由此实现以下所示的功能。总线7连接ROM1、RAM2、外部存储装置3、输入装置4、输出装置5、CPU6。如图2所示,声音检索装置100功能上具备声音信号存储部101、单音子模型存储部102、三音子模型存储部103、时间长度存储部104、检索字符串取得部111、变换部112、时间长度取得部113、时间长度导出部114、区间指定部115、特征量计算部116、输出概率取得部117、置换部118、似然取得部119、重复部120、选择部121、第2变换部122、第2输出概率取得部123、第2似然取得部124以及确定部125。在外部存储装置3的存储区域构筑声音信号存储部101、单音子模型存储部102、三音子模型存储部103以及时间长度存储部104。声音信号存储部101存储检索对象的声音信号。检索对象的声音信号例如是新闻播放等声音、所录音的会议的声音、所录音的演讲的声音、电影的声音等声音信号。单音子模型存储部102和三音子模型存储部103存储声学模型。声学模型是对构成能够作为检索字符串而取得的字符串的各音素的频率特性等进行模型化而得的模型。具体而言,单音子模型存储部102存储基于单音子(1个音素)的声学模型(单音子模型),三音子模型存储部103存储基于三音子(3个音素)的声学模型(三音子模型)。音素是构成说话者发出的声音的成分单位。例如“カテゴリ”这一单词由“k”、“a”、“t”、“e”、“g”、“o”、“r”、“i”这8个音素构成。单音子模本文档来自技高网...

【技术保护点】
一种声音检索装置,其特征在于,具备:记录单元,其记录检索对象的声音信号;变换单元,其将检索字符串变换为音素串;时间长度取得单元,其从存储有与音素相关的持续时间长度数据的数据库中取得由所述变换单元进行变换而得的音素串所包含的各音素的持续时间长度;时间长度导出单元,其根据由所述时间长度取得单元取得的持续时间长度,导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对应的声音的发声时间长度的候补;区间指定单元,其在检索对象的声音信号的时间长度中,对所述多个时间长度分别指定多个具有由所述时间长度导出单元导出的时间长度的区间即似然取得区间;似然取得单元,其取得表示由所述区间指定单元指定的似然取得区间是发出与所述检索字符串对应的声音的区间的似然度的似然;以及确定单元,其根据由所述似然取得单元针对由所述区间指定单元指定的似然取得区间分别取得的似然,确定从所述检索对象的声音信号中推定发出与所述检索字符串对应的声音的推定区间。

【技术特征摘要】
2014.12.22 JP 2014-2594191.一种声音检索装置,其特征在于,具备:
记录单元,其记录检索对象的声音信号;
变换单元,其将检索字符串变换为音素串;
时间长度取得单元,其从存储有与音素相关的持续时间长度数据的数据库
中取得由所述变换单元进行变换而得的音素串所包含的各音素的持续时间长
度;
时间长度导出单元,其根据由所述时间长度取得单元取得的持续时间长
度,导出多个相互不同的语速所对应的多个时间长度作为与所述检索字符串对
应的声音的发声时间长度的候补;
区间指定单元,其在检索对象的声音信号的时间长度中,对所述多个时间
长度分别指定多个具有由所述时间长度导出单元导出的时间长度的区间即似
然取得区间;
似然取得单元,其取得表示由所述区间指定单元指定的似然取得区间是发
出与所述检索字符串对应的声音的区间的似然度的似然;以及
确定单元,其根据由所述似然取得单元针对由所述区间指定单元指定的似
然取得区间分别取得的似然,确定从所述检索对象的声音信号中推定发出与所
述检索字符串对应的声音的推定区间。
2.根据权利要求1所述的声音检索装置,其特征在于,
该声音检索装置还具备:选择单元,其根据由所述似然取得单元取得的似
然,从所述多个时间长度中选择一个时间长度,
所述确定单元根据针对具有所述选择的时间长度的似然取得区间取得的
似然,从所述选择的时间长度的似然取得区间中确定所述推定区间。
3.根据权利要求2所述的声音检索装置,其特征在于,
所述选择单元针对所述多个时间长度分别取得按照似然从高到低的顺序
相加预定数量的针对相同时间长度的似然取得区间取得的似然而得的相加值,
并对该取得的相加值进行比较,从所述多个时间长度中选择相加值最大的时间
长度。
4.根据权利要求3所述的声音检索装置,其特征在于,
所述选择单元通过以似然越高乘上越大的加权系数的方式将针对相同时
间长度的似然取得区间取得的似然相加来取得上述相加值。
5.根据权利要求1至4中的任一项所述的声音检索装置,其特征在于,
该声音检索装置还具备:
特征量计算单元,其针对比较声音信号和音素模型的区间即每个帧计算出
由所述区间指定单元指定的似然取得区间中的所述检索对象的声音信号的特
征量;以及
输出概率取得单元,其对每个帧取得从所述音素串包含的各音素输出所述
检索对象的声音信号的特征量的输出概率,
所述似然取得单元相加将针对由所述区间指定单元指定的似然取得区间
所包含的每个帧取得的输出概率取对数而得的值,来取得该似然取得区间的所
述似然。
6.根据权利要求5所述的声音检索装置,其特征在于,
该声音检索装置还具备:输出概率存储单元,其对所述检索对象的声音信
号所包含的每个帧,将声学模型的音素的各状态与输出概率对应起来进行存
储,其中,该输出概率是从根据声学模型生成的音素的各状态输出所述检索对
象的声音信号的特征量的概率,
在所述变换单元将所述检索字符串变换为所述音素串时,所述输出概率取
得单元从存储在所述输出概率存储单元中的输出概率中,针对所述似然取得区
间所包含的每个帧取得与该音素串所包含的音素的各状态对应起来存储的输
出概率。
7.根据权利要求6所述的声音检索装置,其特征在于,
该声音检索装置还具备:置换单元,其将由所述输出概率取得单元针对每
个帧取得的输出概率分别置换为该帧、该帧之前的N1个帧以及该帧之后的
N2个帧中最大的输出概率,
所述N1和N2是包含0的自然数,N1和N2中的任一个不是0,
所述似然取得单元根据基于所述置换单元的置换后的输出概率,取得由所
述区间指定单元指定的似然取得区间的所述似然。
8.根据权利要求2至7中的任一项所述的声音检索装置,其特征在于,
所述变换单元排列不依存于相邻音素的声学模型的音素,将所述检索字符
串变换为所述音素串,
所述似然取得单元根据所述音素串取得由所述区间指定单元指定的似然
取得区间的所述似然,
所述选择单元根据所述似然取得单元取得的似然,从所述区间指定单元指
定的似然取得区间中选择所述推定区间的多个候补,
该声音检索装置还具备:
第2变换单元,其排列依存于相邻音素的第2声学模型的音素,将所述检
索字符串变换为第2音素串;以及
第2似然取得单元,其根据所述第2音素串,对所述选择单元选择的多个
候补分别取得第2似然,其中,该第2似然表示所述选择单元选择为所述推定
区间的候补的区间为发出与所述检索字符串对应的声音的区间的似然度,
所述确定单元根据所述第2似然取得单元取得的第2似然,从所述选择单
元选择的多个候补中确定所述推定区间。
9.根据权利要求8所述的声音检索装置,其特征在于,
所述选择单元从所述区间指定单元指定的似然取得区间中,对每个预定的
选择时间长度逐一选择在从该预定的选择时间长度的区间中开始的似然取得
区间中所述似然最大的似然取得区间,由此选择所述推定区间的多个候补。
10.一种声音检索...

【专利技术属性】
技术研发人员:富田宽基
申请(专利权)人:卡西欧计算机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1