【技术实现步骤摘要】
通过输入语音实时合成人体发声器官运动图像的方法
本专利技术涉及一种合成人体发声器官运动图像的方法。特别是涉及一种通过输入语音实时合成人体发声器官运动图像的方法。
技术介绍
目前通过声学信号合成声学器官运动的方式主要有两种。一种是通过多流结构方法,典型的做法是使用人工神经网络(ANN),再将提取的结果替换原有的测量结果中的语音特征向量或作为原有语音特征向量的补充。另外一种通过声学信号合成声学器官运动的方式,是采用帧对帧模型。帧对帧模型的建模,不需要使用语言学的相关知识进行建模,使模型本身可以与语言无关,有着更好的适用性,不过通常需要大量数据来建模。通过核磁共振成像(MRI技术)实时获得说话人发声器官的中矢面图片。由于包含更大量的发声器官的生理信息,因此MRI数据能够更好地帮助自动语音识别的识别率提升。在现实世界的语音识别场景中,发声过程的生理信息数据并不能通过直接的测量获得,但是发声过程中生理器官的运动情况对自动语音识别的识别率的提升上扮演着重要的角色。因此,通过一定的方法来合成发声过程中生理器官运动的情况的实 ...
【技术保护点】
1.一种通过输入语音实时合成人体发声器官运动图像的方法,其特征在于,包括如下步骤:/n1)同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;/n2)提取语音特征向量;/n3)对核磁共振图像进行预处理并提取图像特征向量;/n4)建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;/n5)核磁共振图像重构。/n
【技术特征摘要】
1.一种通过输入语音实时合成人体发声器官运动图像的方法,其特征在于,包括如下步骤:
1)同步采集语音数据和发声器官运动的核磁共振图像,得到训练数据;
2)提取语音特征向量;
3)对核磁共振图像进行预处理并提取图像特征向量;
4)建立语音特征向量到核磁共振图像特征向量的高斯混合模型,用于计算合成图形的特征向量;
5)核磁共振图像重构。
2.根据权利要求1所述的通过输入语音实时合成人体发声器官运动图像的方法,其特征在于,步骤2)所述的提取语音特征向量,是采用梅尔倒谱系数实现,包括:
(1)预加重,将原始的语音信号进行滤波处理;
(2)分帧,将每段语音信号划分为一个一个短时帧;
(3)加窗,为了增加每一帧在时域上左右两端的连续性,将每一帧的语音信号乘上一个窗函数;
(4)进行快速傅里叶变换,将语音信号从时域转换到频域;
(5)使用Mel滤波器组对转换为频谱的语音信号进行平滑处理,突显原始语音的共振峰同时消除谐波;
(6)对每个滤波器组的输出求取对数能量;
(7)对求取的对数能量进行离散余弦变换,得到梅尔频率倒谱系数,即语音特征向量;
(8)对语音特征向量提取动态差分参数,得到扩充的语音特征向量。
3...
【专利技术属性】
技术研发人员:于瑞国,付钊,刘志强,于健,赵满坤,喻梅,王建荣,黄竑垚,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。