当前位置: 首页 > 专利查询>天津大学专利>正文

通过输入语音实时合成人体发声器官运动图像的方法技术

技术编号:24172917 阅读:32 留言:0更新日期:2020-05-16 03:34
一种通过输入语音实时合成人体发声器官运动图像的方法,包括:同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;提取语音特征向量;对核磁共振图像进行预处理并提取图像特征向量;建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;核磁共振图像重构。本发明专利技术建立从语音信号到核磁共振(MRI)图像的连续映射模型,从而实现通过输入语音,基于语音信息实时地合成人体发声器官,包括嘴唇、下颌、舌部、喉管、软腭等部位在发音过程中运动的情况,实现对于连续语音的语音信息的发声过程发声器官核磁共振图像的合成,该方法解决了发声器官核磁共振图像难以采集的问题,在语音识别领域有很广泛的应用。

【技术实现步骤摘要】
通过输入语音实时合成人体发声器官运动图像的方法
本专利技术涉及一种合成人体发声器官运动图像的方法。特别是涉及一种通过输入语音实时合成人体发声器官运动图像的方法。
技术介绍
目前通过声学信号合成声学器官运动的方式主要有两种。一种是通过多流结构方法,典型的做法是使用人工神经网络(ANN),再将提取的结果替换原有的测量结果中的语音特征向量或作为原有语音特征向量的补充。另外一种通过声学信号合成声学器官运动的方式,是采用帧对帧模型。帧对帧模型的建模,不需要使用语言学的相关知识进行建模,使模型本身可以与语言无关,有着更好的适用性,不过通常需要大量数据来建模。通过核磁共振成像(MRI技术)实时获得说话人发声器官的中矢面图片。由于包含更大量的发声器官的生理信息,因此MRI数据能够更好地帮助自动语音识别的识别率提升。在现实世界的语音识别场景中,发声过程的生理信息数据并不能通过直接的测量获得,但是发声过程中生理器官的运动情况对自动语音识别的识别率的提升上扮演着重要的角色。因此,通过一定的方法来合成发声过程中生理器官运动的情况的实时信息成为一个重要的工作。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够相对较好地表示出核磁共振图像中发声器官的重要特征的通过输入语音实时合成人体发声器官运动图像的方法。本专利技术所采用的技术方案是:一种通过输入语音实时合成人体发声器官运动图像的方法,包括如下步骤:1)同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;2)提取语音特征向量;3)对核磁共振图像进行预处理并提取图像特征向量;4)建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;5)核磁共振图像重构。步骤2)所述的提取语音特征向量,是采用梅尔倒谱系数实现,包括:(1)预加重,将原始的语音信号进行滤波处理;(2)分帧,将每段语音信号划分为一个一个短时帧;(3)加窗,为了增加每一帧在时域上左右两端的连续性,将每一帧的语音信号乘上一个窗函数;(4)进行快速傅里叶变换,将语音信号从时域转换到频域;(5)使用Mel滤波器组对转换为频谱的语音信号进行平滑处理,突显原始语音的共振峰同时消除谐波;(6)对每个滤波器组的输出求取对数能量;(7)对求取的对数能量进行离散余弦变换,得到梅尔频率倒谱系数,即语音特征向量;(8)对语音特征向量提取动态差分参数,得到扩充的语音特征向量。步骤3)所述的对核磁共振图像进行预处理并提取图像特征向量,包括:(1)对采集的核磁共振图像分别进行离散余弦变换,分别得到矩阵;(2)分别计算每个矩阵的协方差矩阵;(3)将每个协方差矩阵通过奇异值分解的方法得到对应的投影矩阵;(4)提取每个投影矩阵的前k维主成份分析特征向量,构成图像特征向量。步骤4)包括:对语音特征向量和图像特征向量进行联立,建立高斯混合模型得到语音特征向量和图像特征向量之间的关系。步骤5)所述的核磁共振图像重构,包括:(1)将扩充的语音特征向量输入高斯混合模型,得到初步的合成人体发声器官核磁共振图像的矩阵。(2)对初步的合成人体发声器官核磁共振图像的矩阵前k维的特征向量xin,使用公式xout=Uk×xin进行逆投影,其中,xout为逆投影的结果;Uk为投影矩阵;(3)对逆投影的结果进行离散余弦反变换,得到新的矩阵,即为合成人体发声器官核磁共振图像。本专利技术的通过输入语音实时合成人体发声器官运动图像的方法,建立从语音信号到核磁共振(MRI)图像的连续映射模型,从而实现通过输入语音,基于语音信息实时地合成人体发声器官,包括嘴唇、下颌、舌部、喉管、软腭等部位在发音过程中运动的情况,实现对于连续语音的语音信息的发声过程发声器官核磁共振图像的合成,该方法解决了发声器官核磁共振图像难以采集的问题,在语音识别领域有很广泛的应用。附图说明图1是PCA图像重构效果示意图。具体实施方式下面结合实施例和附图对本专利技术的通过输入语音实时合成人体发声器官运动图像的方法做出详细说明。本专利技术的通过输入语音实时合成人体发声器官运动图像的方法,包括如下步骤:1)同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;2)提取语音特征向量;本专利技术是采用梅尔倒谱系数(MFCC)实现,包括:(1)预加重,将原始的语音信号进行滤波处理;(2)分帧,将每段语音信号划分为一个一个短时帧;(3)加窗,在分帧之后得到的语音帧容易丢失语音信号的动态信息,为了增加每一帧在时域上左右两端的连续性,将每一帧的语音信号乘上一个窗函数;(4)进行快速傅里叶变换,将语音信号从时域转换到频域;(5)使用Mel滤波器组对转换为频谱的语音信号进行平滑处理,突显原始语音的共振峰同时消除谐波;(6)对每个滤波器组的输出求取对数能量;(7)对求取的对数能量进行离散余弦变换,得到梅尔频率倒谱系数,即语音特征向量;(8)对语音特征向量提取动态差分参数,得到扩充的语音特征向量。使用动态差分参数的目的是在语音特征向量中增添语音的动态特性。3)对核磁共振图像进行预处理并提取图像特征向量;包括:(1)对采集的核磁共振图像分别进行离散余弦变换(DCT),分别得到矩阵;(2)分别计算每个矩阵的协方差矩阵;(3)将每个协方差矩阵通过奇异值分解(SingularValueDecomposition,简称SVD)的方法得到对应的投影矩阵;(4)提取每个投影矩阵的前k维主成份分析特征向量,构成图像特征向量。4)建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;具体是对语音特征向量和图像特征向量进行联立,建立高斯混合模型(GMM)得到语音特征向量和图像特征向量之间的关系。5)核磁共振图像重构。包括:(1)将扩充的语音特征向量输入高斯混合模型,得到初步的合成人体发声器官核磁共振图像的矩阵。(2)对初步的合成人体发声器官核磁共振图像的矩阵前k维的特征向量xin,使用公式xout=Uk×xin进行逆投影,将图像从前k维的主成分特征向量所代表的数据投影到原有的维度上,其中,xout为逆投影的结果;Uk为投影矩阵;(3)对逆投影的结果进行离散余弦反变换,得到新的矩阵,即为合成人体发声器官核磁共振图像。本专利技术实施例使用美国南加利福尼亚大学所录制的USC-TIMIT数据库作为实验中语音数据以及原始的测量所得的发声器官核磁共振图像数据的来源。在实验中,对于每一个人的460句语音数据,按照8:2的比例随机选择句子,划分成训练集和测试集。训练集用于在提取特征向量之后,将语音数据的MFCC特征向量和核磁共振图像的PCA特征联合,用于高斯混合模型参数的训练。测试集中的语音数据在提取39维特征向量之后,本文档来自技高网...

【技术保护点】
1.一种通过输入语音实时合成人体发声器官运动图像的方法,其特征在于,包括如下步骤:/n1)同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;/n2)提取语音特征向量;/n3)对核磁共振图像进行预处理并提取图像特征向量;/n4)建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;/n5)核磁共振图像重构。/n

【技术特征摘要】
1.一种通过输入语音实时合成人体发声器官运动图像的方法,其特征在于,包括如下步骤:
1)同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;
2)提取语音特征向量;
3)对核磁共振图像进行预处理并提取图像特征向量;
4)建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;
5)核磁共振图像重构。


2.根据权利要求1所述的通过输入语音实时合成人体发声器官运动图像的方法,其特征在于,步骤2)所述的提取语音特征向量,是采用梅尔倒谱系数实现,包括:
(1)预加重,将原始的语音信号进行滤波处理;
(2)分帧,将每段语音信号划分为一个一个短时帧;
(3)加窗,为了增加每一帧在时域上左右两端的连续性,将每一帧的语音信号乘上一个窗函数;
(4)进行快速傅里叶变换,将语音信号从时域转换到频域;
(5)使用Mel滤波器组对转换为频谱的语音信号进行平滑处理,突显原始语音的共振峰同时消除谐波;
(6)对每个滤波器组的输出求取对数能量;
(7)对求取的对数能量进行离散余弦变换,得到梅尔频率倒谱系数,即语音特征向量;
(8)对语音特征向量提取动态差分参数,得到扩充的语音特征向量。


3...

【专利技术属性】
技术研发人员:于瑞国付钊刘志强于健赵满坤喻梅王建荣黄竑垚
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1