【技术实现步骤摘要】
本专利技术涉及语音分析设备、语音分析程序和语音分析方法。更具体地说,涉及采用根据本专利技术的语音分析方法的图像生成设备,特别是创建根据语音改变口形的动画(嘴唇同步动画)的嘴唇同步动画图像生成设备。
技术介绍
当前,在许多领域中使用语音分析技术。例如通过语音识别说话者,将语音转换成文本,或者生成根据语音改变口形的嘴唇同步动画。在这些情况下执行的处理分别涉及在语音分析技术的情况下,从语音中提取音素,即用于区分单词含义的部;在识别说话者的情况下,使用所提取的音素和预先登记的参考模式之间的相似度来识别说话者;在文本转换的情况下,在显示器等设备上显示与所提取的音素对应的字母;以及,在生成嘴唇同步动画的情况下,在显示器等设备上显示与所提取的音素对应的图像。现有技术包括下列从语音中提取音素的方法。例如,在日本特公平6-32007号公报中公开的说话者识别系统中,通过下述方式提取音素为每个元音确定间隔区间以便预先输入的参考模式和说话者语音之间的差别小于规定的值,并建立这些间隔区间和元音之间的对应关系。这种用于提取音素的间隔区间称作片段。在日本特开2003-233389号公报的动画图像生成设备中,执行使用诸如复合正弦建模(CompositeSinusoidal Modeling,CSM)的共振峰分析,并根据表征元音的共振峰信息提取音素。
技术实现思路
然而,为了利用与参考模式的差距来进行片段的确定,必需准备为每个说话者登记参考模式的数据库。然而,这不可避免地产生了取决于说话者数量的大量数据,延长了语音分析需要的处理时间。因此,难于将该系统应用于需要实时处理的情况(例如建立嘴唇 ...
【技术保护点】
一种计算机可执行的语音分析方法,从输入语音中检测音素边界,包括:在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步, 其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相 对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k 是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即 ...
【技术特征摘要】
JP 2004-2-26 JP2004-0519981.一种计算机可执行的语音分析方法,从输入语音中检测音素边界,包括在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;并且根据所述指定的时间范围将所述输入语音信号划分成多个片段。2.根据权利要求1的语音分析方法,还包括为所述划分的语音信号的每个片段计算特征量,以及通过比较所述特征量与各个所述音素的参考数据而指定所述片段的所述音素。3.根据权利要求1的语音分析方法,其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分。4.根据权利要求1的语音分析方法,其中所述相关度是通过累加与同一频率分量相对应的幅值的乘积而求得的值。5.根据权利要求1的语音分析方法,其中通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据。6.根据权利要求2的语音分析方法,其中根据通过所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。7.一种计算机可执行的动画图像生成方法,其显示与输入语音信号中的音素划分相对应的图像,包括在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;根据所述指定的时间范围将所述输入语音信号划分成多个片段;为所述划分的语音信号的各个片段计算特征量;通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素;以及与所述片段相应地切换显示与所述片段的所述音素对应的图像。8.一种可由包括CPU的计算机执行并检测输入语音中的音素边界的语音分析程序,所述程序使CPU执行在所述输入语音信号中指定时刻的第一步;提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步;和将所述提取的语音信号分解成频率分量数据的第三步,其中通过在每个规定时间中由所述CPU重复所述第一、第二和第三步n次(其中n是至少为6的自然数),求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据;通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数),从而由n个所述频率分量数据求得(n-1)个相关度;通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度,从而由(n-1)个所述的相关度求得(n-2)个所述的变化度;当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时,即m满足条件当m从2到(n-3)每次变化1时,第m个变化度大于第(m-1)个变化度,并大于第(m+1)个变化度,求得所限定的数m;根据所限定的数m指定所述规定长度的时间范围;并且根据所述指定的时间范围将所述输入语音信号划分成多个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。