语音分析设备和语音分析方法技术

技术编号:3046248 阅读:191 留言:0更新日期:2012-04-11 18:40
提供了一种语音分析方法和设备,由此能够实时地执行处理,并能够应付无限制数量的说话者。一种计算机可执行的语音分析方法从输入语音中检测音素边界,并且特征在于重复在输入语音信号中指定时刻的步骤、提取从该时刻开始的规定长度的时间范围中包含的语音信号的步骤、以及将所提取的语音信号分解成频率分量数据的步骤;从规定长度的时间范围中包含的语音信号中求得多个频率分量数据;使用与规定长度的相邻时间范围中包含的语音信号相对应的频率分量数据求得多个相关度;求得变化度大于相邻的两个变化度的时间范围;以及,根据这些时间范围将输入的语音信号划分成多个片段。

【技术实现步骤摘要】

本专利技术涉及语音分析设备、语音分析程序和语音分析方法。更具体地说,涉及采用根据本专利技术的语音分析方法的图像生成设备,特别是创建根据语音改变口形的动画(嘴唇同步动画)的嘴唇同步动画图像生成设备。
技术介绍
当前,在许多领域中使用语音分析技术。例如通过语音识别说话者,将语音转换成文本,或者生成根据语音改变口形的嘴唇同步动画。在这些情况下执行的处理分别涉及在语音分析技术的情况下,从语音中提取音素,即用于区分单词含义的部;在识别说话者的情况下,使用所提取的音素和预先登记的参考模式之间的相似度来识别说话者;在文本转换的情况下,在显示器等设备上显示与所提取的音素对应的字母;以及,在生成嘴唇同步动画的情况下,在显示器等设备上显示与所提取的音素对应的图像。现有技术包括下列从语音中提取音素的方法。例如,在日本特公平6-32007号公报中公开的说话者识别系统中,通过下述方式提取音素为每个元音确定间隔区间以便预先输入的参考模式和说话者语音之间的差别小于规定的值,并建立这些间隔区间和元音之间的对应关系。这种用于提取音素的间隔区间称作片段。在日本特开2003-233389号公报的动画图像生成设备中,执行使用诸如复合正弦建模(CompositeSinusoidal Modeling,CSM)的共振峰分析,并根据表征元音的共振峰信息提取音素。
技术实现思路
然而,为了利用与参考模式的差距来进行片段的确定,必需准备为每个说话者登记参考模式的数据库。然而,这不可避免地产生了取决于说话者数量的大量数据,延长了语音分析需要的处理时间。因此,难于将该系统应用于需要实时处理的情况(例如建立嘴唇同步动画)。而且,当加入新的说话者时,产生了将新说话者的参考模式添加到数据库中的任务;因此,管理数据库的任务变得很繁重,并且该系统难以应用于无限制的大量说话者。而且,当前的情况是,实际上使用共振峰信息提取音素由于这种处理需要的时间而难以应用于需要实时处理的情况。除此之外,还公知一种音素提取方法使用例如LPC(线性预测编码)倒谱分析。已经发现使用该方法提取音素的精度随着重复次数的增加而提高,即,存在学习效果。相反地,为了提高提取的精度,需要预先准备大量学习信号的分析结果;因此,很难将该方法应用于无限制的大量说话者。此外,已知频谱包络的特性根据表达方法或提取方法显著地改变,所述表达方法或提取方法受诸如重复程度或次数的确定的影响,因此,需要分析员的技巧。因此,本专利技术的一个目的是提供一种语音分析设备和语音分析方法,其中能够执行实时语音分析处理,并能够将其应用于无限制数量的说话者,而不需要为每个说话者准备参考模式。另一个目的是提供一种动画图像生成设备,能够通过应用该语音分析方法而实现实时处理。根据本专利技术的第一方面,通过提供一种计算机可执行的语音分析方法实现了上述目的,该计算机可执行的方法从输入语音中检测音素边界,包括在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次改变1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;以及,根据所指定的时间范围将所述输入语音信号划分成多个片段。根据本专利技术的第二方面,通过提供根据第一方面的语音分析方法实现了上述目的,还包括为所述划分的语音信号的每个片段计算特征量,并通过比较所述特征量与各个所述音素的参考数据而指定所述片段的所述音素。根据本专利技术的第三方面,通过提供根据第一方面的语音分析方法实现了上述目的,其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分。根据本专利技术的第四方面,通过提供根据第一方面的语音分析方法实现了上述目的,其中所述相关度是通过累加与同一频率分量相对应的幅值之积而求得的值。根据本专利技术的第五方面,通过提供根据第一方面的语音分析方法实现了上述目的,其中通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据。根据本专利技术的第六方面,通过提供根据第二方面的语音分析方法实现了上述目的,其中根据通过所述划分而获得的所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。根据本专利技术的第七方面,通过提供动画图像生成计算机可执行方法实现了上述目的,该计算机可执行方法显示与输入语音信号中的音素划分相对应的图像,包括在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;以及,将所述提取的语音信号分解成频率分量数据的第三步,其中,通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;根据所述指定的时间范围将所述输入语音信号划分成多个片段;为所划分的语音信号的每个片段计算特征量;通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素;以及,与所述片段相应地切换显示与所述片段的所述音素对应的图像。根据本专利技术的第八方面,通过提供可由包括CPU的计算机执行、检测输入语音中的音素边界的语音分析程序实现了上述目的,该程序使CPU执行在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;以及,将所述提取的语音信号分解成频率分量数据的第三步,其中,通过在每个规定时间中由所述CPU重复所述第一、第二和第三步n次(其中n是至少为6的自本文档来自技高网...

【技术保护点】
一种计算机可执行的语音分析方法,从输入语音中检测音素边界,包括:在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步, 其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相 对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k 是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即 m满足条件:当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;并且根据所述指定的时间范围将所述输入语音信号划分成 多个片段。...

【技术特征摘要】
JP 2004-2-26 JP2004-0519981.一种计算机可执行的语音分析方法,从输入语音中检测音素边界,包括在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;并且根据所述指定的时间范围将所述输入语音信号划分成多个片段。2.根据权利要求1的语音分析方法,还包括为所述划分的语音信号的每个片段计算特征量,以及通过比较所述特征量与各个所述音素的参考数据而指定所述片段的所述音素。3.根据权利要求1的语音分析方法,其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分。4.根据权利要求1的语音分析方法,其中所述相关度是通过累加与同一频率分量相对应的幅值的乘积而求得的值。5.根据权利要求1的语音分析方法,其中通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据。6.根据权利要求2的语音分析方法,其中根据通过所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。7.一种计算机可执行的动画图像生成方法,其显示与输入语音信号中的音素划分相对应的图像,包括在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;根据所述指定的时间范围将所述输入语音信号划分成多个片段;为所述划分的语音信号的各个片段计算特征量;通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素;以及与所述片段相应地切换显示与所述片段的所述音素对应的图像。8.一种可由包括CPU的计算机执行并检测输入语音中的音素边界的语音分析程序,所述程序使CPU执行在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中由所述CPU重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;并且根据所述指定的时间范围将所述输入语音信号划分成多个...

【专利技术属性】
技术研发人员:工藤裕一
申请(专利权)人:世嘉股份有限公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利