一种基于语音识别的口型动画实现方法及装置制造方法及图纸

技术编号：19906085 阅读：20 留言：0更新日期：2018-12-26 03:43

本发明专利技术提供一种基于语音识别的口型动画实现方法和装置，其中装置包括采集单元、信号处理单元、动画合成单元和显示单元；采集单元配置成采集原始声音数据的模拟信号；信号处理单元配置成对声音数据进行分析得到声音数据的元音；动画合成单元配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画；显示单元配置成用于显示动画合成单元生成的口型动画。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音识别的口型动画实现方法及装置
本专利技术涉及通信领域的语间识别
，尤其涉及一种基于语音识别的口型动画实现方法及装置。
技术介绍
随着游戏、动漫等娱乐产业的发展，在各种游戏应用程序、动漫视频或计算机仿真应用程序中，通常会涉及到一些图像显示需要与音频互相配合的对话场景。在这些对话场景中，场景角色会轮流进行对话。例如，游戏应用中通常会涉及到游戏剧情对话场景，在游戏剧情对话场景，游戏角色会轮流进行对话。可见，在对话场景中，不仅需要播放场景角色对话的声音，还需要呈现与对话音频相配合的场景角色口型，也即，在场景角色说话时需要呈现该场景角色口型正在进行动态的变化。。为了使得场景角色说话时口型实现动态的变化，现有技术采用的是，对话场景预先设置场景角色不同口型的图片，当应用程序运行到对话场景时，将场景角色不同口型的图片动态地切换显示，这样就使得对话场景的显示图像中场景角色的口型能够进行动态的变化，从而与对话场景的音频中场景角色的对话相配合。但是这种方案需要存储大量的口型图片，存储容量需要非常大。当前，也有一些通过对声音时域波形进行分割，对比已有词汇的音频特征库，识别出对应的字词，但是这种识别方法，不能准确给出单个字的出现时间点，针对不同的音色也会有不同的识别结果。因为声音是模拟信号，拿到的声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，所以识别准确率不高，最终得到的口型动画的匹配度也不是太好。
技术实现思路
为了至少解决现有的技术问题。一般办法是针对不同音色添加参数值，或者调整时域波形的采样频率，从而提高语音的识别准确性。本专利技术创造性的...

【技术保护点】
1.一种基于语音识别的口型动画实现方法，其中，所述方法包括如下步骤：采集原始声音数据的模拟信号；将模拟信号通过A/D转换得到数字信号；对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；对声音数据频域波形的进行Mel滤波处理；对声音数据进行分割，分析得到声音数据的元音；根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；将口型动作与现有动画进行融合播放，得到最终的口型动画。

【技术特征摘要】
1.一种基于语音识别的口型动画实现方法，其中，所述方法包括如下步骤：采集原始声音数据的模拟信号；将模拟信号通过A/D转换得到数字信号；对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；对声音数据频域波形的进行Mel滤波处理；对声音数据进行分割，分析得到声音数据的元音；根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；将口型动作与现有动画进行融合播放，得到最终的口型动画。2.根据权利要求1所述的方法，其中，在Mel滤波处理的步骤当中，添加人耳听觉特性的滤波器，补偿声音数据中低频部分掩盖的高频部分，并且突显出高频共振峰。3.根据权利要求1所述的方法，其中，对声音数据的数字信号进行傅利叶变换的具体公式为：其中，参数N是采样点数量，x(k)为输入声音数据序列。4.根据权利要求1所述的方法，其中，对声音数据频域波形的进行Mel滤波处理的具体公式为：M(f)＝1125ln(1+f/700)参数f是频率，1125和700都是经验值常量，将不统一的频率转化为统一的频率。5.根据权利要求1所述的方法，其中，在对声音数据频域波形的进行Mel滤波处理的步骤后，还包括步骤：对声音数据的频域波形进行倒谱，具体倒谱的公式为：M-1(m)＝700(exp(m/1125)-1)参数m是频域波形的振幅，700和1125是经验值常量。6.一种非易失性计算机存储介质，存储有计算机可执行程序，所述计算机可执行程序用于执行如上所述的基于语音识别的口型动画实现方法。存储介质包括但不限于ROM、RAM、普通硬盘、U盘或者软盘。7.一种基于...

【专利技术属性】
技术研发人员：宋大伟，李拓，
申请(专利权)人：苏州玩友时代科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人