语音分析设备和语音分析方法技术

技术编号：3046248 阅读：191 留言：0更新日期：2012-04-11 18:40

提供了一种语音分析方法和设备，由此能够实时地执行处理，并能够应付无限制数量的说话者。一种计算机可执行的语音分析方法从输入语音中检测音素边界，并且特征在于重复在输入语音信号中指定时刻的步骤、提取从该时刻开始的规定长度的时间范围中包含的语音信号的步骤、以及将所提取的语音信号分解成频率分量数据的步骤；从规定长度的时间范围中包含的语音信号中求得多个频率分量数据；使用与规定长度的相邻时间范围中包含的语音信号相对应的频率分量数据求得多个相关度；求得变化度大于相邻的两个变化度的时间范围；以及，根据这些时间范围将输入的语音信号划分成多个片段。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音分析设备、语音分析程序和语音分析方法。更具体地说，涉及采用根据本专利技术的语音分析方法的图像生成设备，特别是创建根据语音改变口形的动画(嘴唇同步动画)的嘴唇同步动画图像生成设备。
技术介绍
当前，在许多领域中使用语音分析技术。例如通过语音识别说话者，将语音转换成文本，或者生成根据语音改变口形的嘴唇同步动画。在这些情况下执行的处理分别涉及在语音分析技术的情况下，从语音中提取音素，即用于区分单词含义的部；在识别说话者的情况下，使用所提取的音素和预先登记的参考模式之间的相似度来识别说话者；在文本转换的情况下，在显示器等设备上显示与所提取的音素对应的字母；以及，在生成嘴唇同步动画的情况下，在显示器等设备上显示与所提取的音素对应的图像。现有技术包括下列从语音中提取音素的方法。例如，在日本特公平6-32007号公报中公开的说话者识别系统中，通过下述方式提取音素为每个元音确定间隔区间以便预先输入的参考模式和说话者语音之间的差别小于规定的值，并建立这些间隔区间和元音之间的对应关系。这种用于提取音素的间隔区间称作片段。在日本特开2003-233389号公报的动画图像生成设备中，执行使用诸如复合正弦建模(CompositeSinusoidal Modeling，CSM)的共振峰分析，并根据表征元音的共振峰信息提取音素。
技术实现思路
然而，为了利用与参考模式的差距来进行片段的确定，必需准备为每个说话者登记参考模式的数据库。然而，这不可避免地产生了取决于说话者数量的大量数据，延长了语音分析需要的处理时间。因此，难于将该系统应用于需要实时处理的情况(例如建立嘴唇...

【技术保护点】
一种计算机可执行的语音分析方法，从输入语音中检测音素边界，包括：在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；和将所述提取的语音信号分解成频率分量数据的第三步，其中通过在每个规定时间中重复所述第一、第二和第三步ｎ次（其中ｎ是至少为６的自然数），求得从ｎ个所述规定长度的时间范围中包含的语音信号中提取出的ｎ个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第ｉ项所述频率分量数据和第（ｉ＋１）项所述频率分量数据求得第ｉ个相关度（其中ｉ是至少为１且不大于（ｎ－１）的自然数），从而由ｎ个所述频率分量数据求得（ｎ－１）个相关度；通过根据第ｋ个相关度和所述第（ｋ＋１）个所述相关度（其中ｋ是至少为１且不大于（ｎ－２）的自然数）求得第ｋ个变化度，从而由（ｎ－１）个所述的相关度求得（ｎ－２）个所述的变化度；当将ｍ限定为指定在从第１至第（ｎ－２）的（ｎ－２）个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即...

【技术特征摘要】
JP 2004-2-26 JP2004-0519981.一种计算机可执行的语音分析方法，从输入语音中检测音素边界，包括在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；和将所述提取的语音信号分解成频率分量数据的第三步，其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，从而由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；并且根据所述指定的时间范围将所述输入语音信号划分成多个片段。2.根据权利要求1的语音分析方法，还包括为所述划分的语音信号的每个片段计算特征量，以及通过比较所述特征量与各个所述音素的参考数据而指定所述片段的所述音素。3.根据权利要求1的语音分析方法，其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分。4.根据权利要求1的语音分析方法，其中所述相关度是通过累加与同一频率分量相对应的幅值的乘积而求得的值。5.根据权利要求1的语音分析方法，其中通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据。6.根据权利要求2的语音分析方法，其中根据通过所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。7.一种计算机可执行的动画图像生成方法，其显示与输入语音信号中的音素划分相对应的图像，包括在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；和将所述提取的语音信号分解成频率分量数据的第三步，其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，从而由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；根据所述指定的时间范围将所述输入语音信号划分成多个片段；为所述划分的语音信号的各个片段计算特征量；通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素；以及与所述片段相应地切换显示与所述片段的所述音素对应的图像。8.一种可由包括CPU的计算机执行并检测输入语音中的音素边界的语音分析程序，所述程序使CPU执行在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；和将所述提取的语音信号分解成频率分量数据的第三步，其中通过在每个规定时间中由所述CPU重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，从而由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；并且根据所述指定的时间范围将所述输入语音信号划分成多个...

【专利技术属性】
技术研发人员：工藤裕一，
申请(专利权)人：世嘉股份有限公司，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人