一种基于LSTM的独立说话人语音发音逆求解的方法技术

技术编号：20366675 阅读：30 留言：0更新日期：2019-02-16 18:16

本发明专利技术涉及试验系统及其方法，更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法，具体步骤如下：（1）首先对指定4个人音频信号以及同步的轨迹信号进行采集，通过安放传感器对上唇(Upper lip，UL)、下唇(Lower lip，LL)、下齿龈(Lower incisor，LI)、舌尖(Tongue tip，TP)、舌中(Tongue body，TB)，舌根(Tongue dorsum，TD)六个点的数据进行采集；（2）在步骤（1）之后，选定鼻梁(RF)为参考点，在参考点处也放置传感器进行数据的采集。本发明专利技术第一：预测了未在训练集中出现说话人的语音发音轨迹；第二：改变输入特征，选取了效果更好、更合适的的声学特征作为网络输入，提升了RMSE和相关系数；第三：克服了轨迹采集时不连续、不平滑的特性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LSTM的独立说话人语音发音逆求解的方法
本专利技术涉及试验系统及其方法，更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法。
技术介绍
语音发音逆求解是通过采集到发音器官的轨迹数据以及同步音频，通过神经网络模型训练从而获得拟求解模型，试图从声音语音信号中推断声道发音器位置。系统能够从声学信号中预测发音器的位置。该系统能够从以下几个方面得以应用：在语音识别中，发音信息可以提高识别系统性能；语音合成中，可以提高语音质量以及修改合成语音的特征；角色动画中，可以用来自动化电影或视频游戏中虚拟人物的面部动画。但是这种系统存在以下问题：第一、以往的逆求解问题都是预测已知说话人，采集A数据，预测A的发音轨迹。训练集和验证集是同一人。不仅采集耗时，而且不能实践应用。第二、特征选取效果不够好，均方根误差(Rootmean-squarederror，RMSE)在2-5mm左右和相关系数r为0.7左右，而且是在预测已知说话人的轨迹，并不是未知说话人的轨迹的预测。并且在预测发音轨迹时仍存在偏差。第三、网络不具备时序性。以往采用的都是DNN作为网络，不具备时序特性，需要将多帧特征合并作为网络输入。数据不平滑，轨迹数据采样率一般为100hz，存在锯齿形波形，数据不连续的问题。长时间大规模数据采集也会存在数据波动范围不稳定的情况。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷，提供一种基于LSTM的独立说话人语音发音逆求解的方法，通过设置，预测了未在训练集中出现说话人的语音发音轨迹；改变输入特征，选取了效果更好、更合适的的声学特征作为网络输入，提升了RM...

【技术保护点】
1.一种基于LSTM的独立说话人语音发音逆求解的方法，其特征在于，具体步骤如下：(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集，通过安放传感器对上唇(Upper lip，UL)、下唇(Lower lip，LL)、下齿龈(Lower incisor，LI)、舌尖(Tongue tip，TP)、舌中(Tongue body，TB)，舌根(Tongue dorsum，TD)六个点的数据进行采集；(2)在步骤(1)之后，选定鼻梁(RF)为参考点，在参考点处也放置传感器进行数据的采集；(3)在步骤(2)之后，选定其中三个记为A、B、C作为训练人，D作为测试人；(4)将训练人的语音信号进行特征提取，提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)以及音素后验概率(phoneme posterior probabilities，PPP)；并且将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)以及音素后验概率(phoneme posterior probabilities，PPP)作为联合...

【技术特征摘要】
1.一种基于LSTM的独立说话人语音发音逆求解的方法，其特征在于，具体步骤如下：(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集，通过安放传感器对上唇(Upperlip，UL)、下唇(Lowerlip，LL)、下齿龈(Lowerincisor，LI)、舌尖(Tonguetip，TP)、舌中(Tonguebody，TB)，舌根(Tonguedorsum，TD)六个点的数据进行采集；(2)在步骤(1)之后，选定鼻梁(RF)为参考点，在参考点处也放置传感器进行数据的采集；(3)在步骤(2)之后，选定其中三个记为A、B、C作为训练人，D作为测试人；(4)将训练人的语音信号进行特征提取，提取梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)以及音素后验概率(phonemeposteriorprobabilities，PPP)；并且将梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient，MFCC)以及音素后验概率(phonemeposteriorprobabilities，PPP)作为联合输入特征(tandem)，输入到长短期记忆网络(LongShort-TermMemory，LSTM)网络中；获取MFCC步骤中Mel滤波的公式为，(5)选定训练好的模型，将D的联合输入特征(tandem)作为输入，发音轨迹作为输出；对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测，并与参考数据对比；RMSE和相关系数r是衡量系统的两个指标；RMSE越小，误差越小，r越大，预测的轨迹与真实值的轨迹趋势越接近；公式...

【专利技术属性】
技术研发人员：覃晓逸，张东，李明，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人