一种由唇部图像序列到语音编码参数的转换方法技术

技术编号：19145835 阅读：33 留言：0更新日期：2018-10-13 09:34

本发明专利技术涉及一种由唇部图像序列到语音编码参数的转换方法，包括以下步骤：1)构建语音编码参数转换器，包括输入缓存和参数配置后的预测器；2)按照时间先后顺序依次接收唇部图像，并将其存储在转换器的输入缓存中；3)每隔一定的时间，将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器，并获取一个预测结果，该预测结果为一个语音帧的编码参数向量；4)语音编码参数转换器输出预测结果。与现有技术相比，本发明专利技术具有直接转换、无需文字转换、便于构造训练等优点。

A conversion method from lip image sequence to speech coding parameter

The invention relates to a method for converting a lip image sequence to a speech coding parameter, which comprises the following steps: 1) constructing a speech coding parameter converter, including an input buffer and a predictor configured with parameters; 2) receiving the lip image in sequence of time and storing it in the input buffer of the converter; 3) each time At certain intervals, the K latest lip images buffered at the current time are sent to the predictor as a short-term image sequence, and a prediction result is obtained. The prediction result is the coding parameter vector of a speech frame; 4) The speech coding parameter converter outputs the prediction result. Compared with the prior art, the invention has the advantages of direct conversion, no need for text conversion, and easy construction training.

全部详细技术资料下载

【技术实现步骤摘要】
一种由唇部图像序列到语音编码参数的转换方法
本专利技术涉及计算机视觉、数字图像处理和微电子
，尤其是涉及一种由唇部图像序列到语音编码参数的转换方法
技术介绍
唇语识别是依据嘴唇视频生成对应的文字表达，以下是现有的相关的技术方案：(1)CN107122646A，专利技术名称：一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对，以确定身份，但是只能获取嘴唇特征。(2)CN107437019A，专利技术名称：唇语识别的身份验证方法和装置。其原理与(1)类似，差异在于采用了3D图像。(3)CN106504751A，专利技术名称：自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字，然后基于文字进行指令交互，转换步骤繁复。(4)LipNet，是牛津大学联合DeepMind发布的深度学习唇语识别算法，其目的也是将嘴唇识别成文字。与之前技术相比，识别率更高一些，但转换的过程也很复杂。(5)CN107610703A，专利技术名称：一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字，然后再利用现有的语音合成模块将文字转换成语音。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部图像序列到语音编码参数的转换方法本专利技术的目的可以通过以下技术方案来实现：一种由唇部图像序列到语音编码参数的转换方法，包括以下步骤：1)构建语音编码参数转换器，包括输入缓存和参数配置后的预测器；2)按照时间先后顺序依次接收唇部图像，并将其存储在转换器的输入缓存中；3)每隔一定的时间，将当前时刻缓存的k个...

【技术保护点】
1.一种由唇部图像序列到语音编码参数的转换方法，其特征在于，包括以下步骤：1)构建语音编码参数转换器，包括输入缓存和参数配置后的预测器；2)按照时间先后顺序依次接收唇部图像，并将其存储在转换器的输入缓存中；3)每隔一定的时间，将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器，并获取一个预测结果，该预测结果为一个语音帧的编码参数向量；4)语音编码参数转换器输出预测结果。

【技术特征摘要】
1.一种由唇部图像序列到语音编码参数的转换方法，其特征在于，包括以下步骤：1)构建语音编码参数转换器，包括输入缓存和参数配置后的预测器；2)按照时间先后顺序依次接收唇部图像，并将其存储在转换器的输入缓存中；3)每隔一定的时间，将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器，并获取一个预测结果，该预测结果为一个语音帧的编码参数向量；4)语音编码参数转换器输出预测结果。2.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法，其特征在于，所述的预测器为训练后的深度人工神经网络，所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成，中间插入必要的池化层和丢弃层。3.根据权利要求2所述的一种由唇部图像序列到语音编码参数的转换方法，其特征在于，所述的预测器的训练方法具体包括以下步骤：21)同步采集视频和语音：通过视频和音频采集设备，同步采集视频和对应的语音数据，从视频中提取唇部图像I1,I2,...,In，唇部图像包括整个嘴部以及以嘴为中心的一个矩形区域，并依据人脸参数进行姿态矫正和尺度规范化，所述的语音数据为语音样值序列S1,S2,...,SM，并使唇部图像和语音数据保持时间对应关系；22)获取任意时刻t的唇部图像短时序列ISt：对给定的任意时刻t，提取k个连续的唇部图像作为t时刻的唇部图像短时序列ISt＝(It-k+1,...,It-2,It-1,It)，其中，It为时间上最接近t的一个唇部图像，k为指定参数；...

【专利技术属性】
技术研发人员：贾振堂，
申请(专利权)人：上海电力学院，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人