当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于LSTM的独立说话人语音发音逆求解的方法技术

技术编号:20366675 阅读:30 留言:0更新日期:2019-02-16 18:16
本发明专利技术涉及试验系统及其方法,更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法,具体步骤如下:(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upper lip,UL)、下唇(Lower lip,LL)、下齿龈(Lower incisor,LI)、舌尖(Tongue tip,TP)、舌中(Tongue body,TB),舌根(Tongue dorsum,TD)六个点的数据进行采集;(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集。本发明专利技术第一:预测了未在训练集中出现说话人的语音发音轨迹;第二:改变输入特征,选取了效果更好、更合适的的声学特征作为网络输入,提升了RMSE和相关系数;第三:克服了轨迹采集时不连续、不平滑的特性。

【技术实现步骤摘要】
一种基于LSTM的独立说话人语音发音逆求解的方法
本专利技术涉及试验系统及其方法,更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法。
技术介绍
语音发音逆求解是通过采集到发音器官的轨迹数据以及同步音频,通过神经网络模型训练从而获得拟求解模型,试图从声音语音信号中推断声道发音器位置。系统能够从声学信号中预测发音器的位置。该系统能够从以下几个方面得以应用:在语音识别中,发音信息可以提高识别系统性能;语音合成中,可以提高语音质量以及修改合成语音的特征;角色动画中,可以用来自动化电影或视频游戏中虚拟人物的面部动画。但是这种系统存在以下问题:第一、以往的逆求解问题都是预测已知说话人,采集A数据,预测A的发音轨迹。训练集和验证集是同一人。不仅采集耗时,而且不能实践应用。第二、特征选取效果不够好,均方根误差(Rootmean-squarederror,RMSE)在2-5mm左右和相关系数r为0.7左右,而且是在预测已知说话人的轨迹,并不是未知说话人的轨迹的预测。并且在预测发音轨迹时仍存在偏差。第三、网络不具备时序性。以往采用的都是DNN作为网络,不具备时序特性,需要将多帧特征合并作为网络输入。数据不平滑,轨迹数据采样率一般为100hz,存在锯齿形波形,数据不连续的问题。长时间大规模数据采集也会存在数据波动范围不稳定的情况。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种基于LSTM的独立说话人语音发音逆求解的方法,通过设置,预测了未在训练集中出现说话人的语音发音轨迹;改变输入特征,选取了效果更好、更合适的的声学特征作为网络输入,提升了RMSE和相关系数r为解决上述技术问题,本专利技术采用的技术方案是:提供一种基于LSTM的独立说话人语音发音逆求解的方法,具体步骤如下:(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upperlip,UL)、下唇(Lowerlip,LL)、下齿龈(Lowerincisor,LI)、舌尖(Tonguetip,TP)、舌中(Tonguebody,TB),舌根(Tonguedorsum,TD)六个点的数据进行采集;(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集;(3)在步骤(2)之后,选定其中三个记为A、B、C作为训练人,D作为测试人;(4)将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)以及音素后验概率(phonemeposteriorprobabilities,PPP);并且将梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)以及音素后验概率(phonemeposteriorprobabilities,PPP)作为联合输入特征(tandem),输入到长短期记忆网络(LongShort-TermMemory,LSTM)网络中;(5)选定训练好的模型,将D的联合输入特征(tandem)作为输入,发音轨迹作为输出;对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测,并与参考数据对比。优选地,在步骤(5)中,推测出的RMSE为1mm-2mm,相关系数r为0.5-0.75。优选地,所述LSTM为适合于处理和预测时间序列中间隔和延迟相对较长的重要事件的时间递归神经网络。优选地,在步骤(4)中采用低通滤波器平滑轨迹。优选地,所述音素后验概率(phonemeposteriorprobabilities,PPP)为零阶统计量。优选地,在步骤(4)中,长短期记忆网络(LongShort-TermMemory,LSTM)网络为四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。优选地,使用ReLU作为activationfunction,采用RMSE作为Lossfunction,选用Adam作为optimizer,并设置dropout为0.2;语音轨迹选择传感器的x轴、y轴,2*6作为输出。具体的:选择A、B、C三人作为训练人,D作为测试人。这就让验证集中的说话人不在训练集中,从而预测一个未知说话人的发音轨迹。这是以往实验没有解决的一个问题,就是去预测未知说话人的发音轨迹。将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)以及音素后验概率(phonemeposteriorprobabilities,PPP)。PPP特征是将MFCC基于DNN的声学模型得到音素后验概率。我们采用已公开发布的HKUST数据集来训练基于DNN的声学模型,但此时训练得到的音素后验概率维度很高,在5000-6000维。所以使用PCA降维至40维,得到PPP。将PPP(40*1)与MFCC(39*1)作为联合输入特征(tandem)。这里我们使用kaldi进行特征提取。将tandem作为输入,输入到长短期记忆网络(LongShort-TermMemory,LSTM)网络中。这里我们采用的是四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。使用ReLU作为activationfunction,采用RMSE作为Lossfunction,选用Adam作为optimizer,并设置dropout为0.2。语音轨迹选择传感器的x轴、y轴,2*6作为输出。从而训练模型。我们选用PyTorch实现神经网络的训练。通过训练好的模型,将D的tandem特征作为输入,发音轨迹作为输出。预测出的轨迹与采集到的轨迹计算RMSE和相关系数。通过实验可得,我们的RMSE为1mm-2mm左右,相关系数r为0.5-0.75左右,其中舌位轨迹预测的相关系数为0.8左右。优于现阶段使用的DNN网络和只使用MFCC特征作为输入。这里网络选用的是LSTM,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,具有很强的时序特性,也是语音领域常用的模型之一。DNN在处理具有时间特性的问题上能力不如LSTM效果好。特征选用新的特征,MFCC是一种在自动语音识别和说话人识别应用中广泛使用的特征。由于PPP是音素后验概率,属于零阶统计量,可以弱化单个说话人的特征。将MFCC和PPP作为联合输入特征,既保留了语音的特征又使得输入的特征具有良好的泛化能力。对于语音轨迹的不平滑。采集到的轨迹往往会存在锯齿形的形状,这并不符合人说话发音轨迹的特点。因此我们使用一个低通滤波器来平滑轨迹,使得轨迹预测更加精准。实验证明,我们基于LSTM模型解决独立说话人的语音发音逆求解问题是可行的。与现有技术相比,本专利技术的有益效果是:第一:预测了未在训练集中出现说话人的语音发音轨迹;第二:改变输入特征,选取了效果更好、更合适的的声学特征作为网络输入,提升了RMSE和相关系数;第三:克服了轨迹采集时不连续、不平滑的特性。附图说明图1为本专利技术实施例的一种基于LSTM的独立说话人语音发音逆求解的方法的独立人语音发音逆求解模型图。图2为本专利技术图1的采集点的结构示意图。图3为本专利技术图1中的联合输入特征提取的流程图。图4为本专利技术图本文档来自技高网...

【技术保护点】
1.一种基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,具体步骤如下:(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upper lip,UL)、下唇(Lower lip,LL)、下齿龈(Lower incisor,LI)、舌尖(Tongue tip,TP)、舌中(Tongue body,TB),舌根(Tongue dorsum,TD)六个点的数据进行采集;(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集;(3)在步骤(2)之后,选定其中三个记为A、B、C作为训练人,D作为测试人;(4)将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)以及音素后验概率(phoneme posterior probabilities,PPP);并且将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)以及音素后验概率(phoneme posterior probabilities,PPP)作为联合输入特征(tandem),输入到长短期记忆网络(Long Short‑Term Memory,LSTM)网络中;获取MFCC步骤中Mel滤波的公式为,...

【技术特征摘要】
1.一种基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,具体步骤如下:(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upperlip,UL)、下唇(Lowerlip,LL)、下齿龈(Lowerincisor,LI)、舌尖(Tonguetip,TP)、舌中(Tonguebody,TB),舌根(Tonguedorsum,TD)六个点的数据进行采集;(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集;(3)在步骤(2)之后,选定其中三个记为A、B、C作为训练人,D作为测试人;(4)将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)以及音素后验概率(phonemeposteriorprobabilities,PPP);并且将梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)以及音素后验概率(phonemeposteriorprobabilities,PPP)作为联合输入特征(tandem),输入到长短期记忆网络(LongShort-TermMemory,LSTM)网络中;获取MFCC步骤中Mel滤波的公式为,(5)选定训练好的模型,将D的联合输入特征(tandem)作为输入,发音轨迹作为输出;对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测,并与参考数据对比;RMSE和相关系数r是衡量系统的两个指标;RMSE越小,误差越小,r越大,预测的轨迹与真实值的轨迹趋势越接近;公式...

【专利技术属性】
技术研发人员:覃晓逸张东李明
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1