一种基于语音识别的口型动画实现方法及装置制造方法及图纸

技术编号:19906085 阅读:20 留言:0更新日期:2018-12-26 03:43
本发明专利技术提供一种基于语音识别的口型动画实现方法和装置,其中装置包括采集单元、信号处理单元、动画合成单元和显示单元;采集单元配置成采集原始声音数据的模拟信号;信号处理单元配置成对声音数据进行分析得到声音数据的元音;动画合成单元配置成根据声音数据的元音,调用骨骼动画,使骨骼动画作出匹配元音的口型动作;并将口型动作与现有动画进行融合播放,得到最终的口型动画;显示单元配置成用于显示动画合成单元生成的口型动画。

【技术实现步骤摘要】
一种基于语音识别的口型动画实现方法及装置
本专利技术涉及通信领域的语间识别
,尤其涉及一种基于语音识别的口型动画实现方法及装置。
技术介绍
随着游戏、动漫等娱乐产业的发展,在各种游戏应用程序、动漫视频或计算机仿真应用程序中,通常会涉及到一些图像显示需要与音频互相配合的对话场景。在这些对话场景中,场景角色会轮流进行对话。例如,游戏应用中通常会涉及到游戏剧情对话场景,在游戏剧情对话场景,游戏角色会轮流进行对话。可见,在对话场景中,不仅需要播放场景角色对话的声音,还需要呈现与对话音频相配合的场景角色口型,也即,在场景角色说话时需要呈现该场景角色口型正在进行动态的变化。。为了使得场景角色说话时口型实现动态的变化,现有技术采用的是,对话场景预先设置场景角色不同口型的图片,当应用程序运行到对话场景时,将场景角色不同口型的图片动态地切换显示,这样就使得对话场景的显示图像中场景角色的口型能够进行动态的变化,从而与对话场景的音频中场景角色的对话相配合。但是这种方案需要存储大量的口型图片,存储容量需要非常大。当前,也有一些通过对声音时域波形进行分割,对比已有词汇的音频特征库,识别出对应的字词,但是这种识别方法,不能准确给出单个字的出现时间点,针对不同的音色也会有不同的识别结果。因为声音是模拟信号,拿到的声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,所以识别准确率不高,最终得到的口型动画的匹配度也不是太好。
技术实现思路
为了至少解决现有的技术问题。一般办法是针对不同音色添加参数值,或者调整时域波形的采样频率,从而提高语音的识别准确性。本专利技术创造性的提供了一种基于语音识别的口型动画实现方法及装置能够解决上述技术问题当中的至少一个或多个。一种基于语音识别的口型动画实现方法,其中,方法包括如下步骤:采集原始声音数据的模拟信号;将模拟信号通过A/D转换得到数字信号;对声音数据的数字信号进行傅利叶变换,将数字信号的时域波形转换为频域波形;对声音数据频域波形的进行Mel滤波处理;对声音数据进行分割,分析得到声音数据的元音;根据声音数据的元音,调用骨骼动画,使骨骼动画作出匹配元音的口型动作;将口型动作与现有动画进行融合播放,得到最终的口型动画。其有益效果是,首先拿到声音的模拟信号,通过A/D转换后得到数字信号,此时的数字信号的波形为时域波形,但是由于数字信号在时域上的变换通常很难看出信号的特性,特征性非常差,不利于区分判别。所以本专利技术通过将时域波形进行傅利叶变换,转换成频域波形,将数字信号转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性,在进行傅利叶变换后,再对声音数据频域波形的进行Mel滤波处理,可以让声音数据的频谱更加平滑化,消除谐波的作用,突显原先语音的共振峰。再对声音数据进行分割,分析出其中的元音。本专利技术当中选择元音,是因为通过多种不同口型综合分析发现,口型的形状与元音基本呈对应关系。即对于不同的文字读音而言,只要元音相同,则发音者的口型形状和张开的大小是基本固定的,所以只需要分析出语音数据当中的元音,就可以制作出相对准确的口型动画。最后根据声音数据的元音,调用相应的骨骼动画,使骨骼动画作出匹配元音的口型动作;再将口型动作与现有动画进行融合播放,得到最终的口型动画。在一些实施方式中,在Mel滤波处理的步骤当中,添加人耳听觉特性的滤波器,补偿声音数据中低频部分掩盖的高频部分,并且突显出高频共振峰。其有益效果是,进行Mel滤波处理后,可以使得声音数据的频域波形更加符合真实情况,将掩盖的高频部分补偿回去,从而突显出高频共振峰,便于其后的声音数据切割和元音识别。在一些实施方式中,在对声音数据进行分割,分析得到声音数据的元音的步骤当中,设置外挂配置参数功能,供分析结果不精确时进行手工修改。其有益效果是,设置外挂配置参数功能后,如果元音在一些实施方式中,对声音数据的数字信号进行傅利叶变换的具体公式为:参数N是采样点数量,x(k)为输入声音数据序列。傅利叶原理表明:从数学角度来看,任何连续测量的时序或信号,都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号,以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。从物理的角度来看,待傅利叶变换,可以帮助改变传统的时间域分析信号的方法转到从频率域上来分析信号,这也是本专利技术创造性的将将数字信号的时域波形转换为频域波形,再来进行切割和分析元音。在一些实施方式中,对声音数据频域波形的进行Mel滤波处理的具体公式为:M(f)=11251n(1+f/700)参数f是频率,1125和700都是经验值常量,将不统一的频率转化为统一的频率。也就是统一的滤波器组。在Mel频域内,人对音调的感知度为线性关系。举例来说,如果两段语音的Mel频率相差两倍,则人耳听起来两者的音调也相差两倍。在一些实施方式中,在对声音数据频域波形的进行Mel滤波处理的步骤后,还包括步骤:对声音数据的频域波形进行倒谱,具体倒谱的公式为:M-1(m)=700(exp(m/1125)-1)参数m是频域波形的振幅,700和1125是经验值常量。梅尔频率倒谱系数考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。虽然此时获得倒谱为时域信号,但已经和原始的时域信号x(n)不一样,但是可以把时域信号的卷积关系转化为了线性加关系。这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。同时,本专利技术还公开了一种非易失性计算机存储介质,存储有计算机可执行程序,计算机可执行程序用于执行如上的基于语音识别的口型动画实现方法。存储介质包括但不限于ROM、RAM、普通硬盘、U盘或者软盘。其有益效果是,只需要可以用于存储相应程序即可,通过存储介质将相应的可执行程序存储起来后,可以将方便的将相应的可执行程序安装到台式电脑、笔记本电脑、PAD、智能手机等终端上,从而方便的进行相应的口型动画生成。同时,本专利技术还公开了一种基于语音识别的口型动画实现装置,其特征在于,包括:采集单元、信号处理单元、动画合成单元和显示单元;采集单元配置成采集原始声音数据的模拟信号;信号处理单元配置成对声音数据进行分析得到声音数据的元音;动画合成单元配置成根据声音数据的元音,调用骨骼动画,使骨骼动画作出匹配元音的口型动作;并将口型动作与现有动画进行融合播放,得到最终的口型动画;显示单元配置成用于显示动画合成单元生成的口型动画。其有益效果是,本专利技术的装置通过信号处理单元,识别出声音数据当中的元音,即可调用骨骼动画,使骨骼动画作出匹配元音的口型动作。选择元音是因为通过多种不同口型综合分析发现,口型的形状与元音基本呈对应关系。即对于不同的文字读音而言,只要元音相同,则发音者的口型形状和张开的大小是基本固定的,所以只需要分析出语音数据当中的元音,就可以制作出相对准确的口型动画。最终动画合成单元配置成根据声音数据的元音,调用骨骼动画,使骨骼动画作出匹配元音的口型动作;并将口型动作与现有动画进行融合播放,得到最终的口型动画。在一些实施方式中,信号处理单元包括A/D转换模块、傅利叶变换模块、Mel滤波处理模块和元音分割模块,A/D转换模块本文档来自技高网...

【技术保护点】
1.一种基于语音识别的口型动画实现方法,其中,所述方法包括如下步骤:采集原始声音数据的模拟信号;将模拟信号通过A/D转换得到数字信号;对声音数据的数字信号进行傅利叶变换,将数字信号的时域波形转换为频域波形;对声音数据频域波形的进行Mel滤波处理;对声音数据进行分割,分析得到声音数据的元音;根据声音数据的元音,调用骨骼动画,使骨骼动画作出匹配元音的口型动作;将口型动作与现有动画进行融合播放,得到最终的口型动画。

【技术特征摘要】
1.一种基于语音识别的口型动画实现方法,其中,所述方法包括如下步骤:采集原始声音数据的模拟信号;将模拟信号通过A/D转换得到数字信号;对声音数据的数字信号进行傅利叶变换,将数字信号的时域波形转换为频域波形;对声音数据频域波形的进行Mel滤波处理;对声音数据进行分割,分析得到声音数据的元音;根据声音数据的元音,调用骨骼动画,使骨骼动画作出匹配元音的口型动作;将口型动作与现有动画进行融合播放,得到最终的口型动画。2.根据权利要求1所述的方法,其中,在Mel滤波处理的步骤当中,添加人耳听觉特性的滤波器,补偿声音数据中低频部分掩盖的高频部分,并且突显出高频共振峰。3.根据权利要求1所述的方法,其中,对声音数据的数字信号进行傅利叶变换的具体公式为:其中,参数N是采样点数量,x(k)为输入声音数据序列。4.根据权利要求1所述的方法,其中,对声音数据频域波形的进行Mel滤波处理的具体公式为:M(f)=1125ln(1+f/700)参数f是频率,1125和700都是经验值常量,将不统一的频率转化为统一的频率。5.根据权利要求1所述的方法,其中,在对声音数据频域波形的进行Mel滤波处理的步骤后,还包括步骤:对声音数据的频域波形进行倒谱,具体倒谱的公式为:M-1(m)=700(exp(m/1125)-1)参数m是频域波形的振幅,700和1125是经验值常量。6.一种非易失性计算机存储介质,存储有计算机可执行程序,所述计算机可执行程序用于执行如上所述的基于语音识别的口型动画实现方法。存储介质包括但不限于ROM、RAM、普通硬盘、U盘或者软盘。7.一种基于...

【专利技术属性】
技术研发人员:宋大伟李拓
申请(专利权)人:苏州玩友时代科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1