一种由唇部图像序列到语音编码参数的转换方法技术

技术编号:19145835 阅读:33 留言:0更新日期:2018-10-13 09:34
本发明专利技术涉及一种由唇部图像序列到语音编码参数的转换方法,包括以下步骤:1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量;4)语音编码参数转换器输出预测结果。与现有技术相比,本发明专利技术具有直接转换、无需文字转换、便于构造训练等优点。

A conversion method from lip image sequence to speech coding parameter

The invention relates to a method for converting a lip image sequence to a speech coding parameter, which comprises the following steps: 1) constructing a speech coding parameter converter, including an input buffer and a predictor configured with parameters; 2) receiving the lip image in sequence of time and storing it in the input buffer of the converter; 3) each time At certain intervals, the K latest lip images buffered at the current time are sent to the predictor as a short-term image sequence, and a prediction result is obtained. The prediction result is the coding parameter vector of a speech frame; 4) The speech coding parameter converter outputs the prediction result. Compared with the prior art, the invention has the advantages of direct conversion, no need for text conversion, and easy construction training.

【技术实现步骤摘要】
一种由唇部图像序列到语音编码参数的转换方法
本专利技术涉及计算机视觉、数字图像处理和微电子
,尤其是涉及一种由唇部图像序列到语音编码参数的转换方法
技术介绍
唇语识别是依据嘴唇视频生成对应的文字表达,以下是现有的相关的技术方案:(1)CN107122646A,专利技术名称:一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对,以确定身份,但是只能获取嘴唇特征。(2)CN107437019A,专利技术名称:唇语识别的身份验证方法和装置。其原理与(1)类似,差异在于采用了3D图像。(3)CN106504751A,专利技术名称:自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字,然后基于文字进行指令交互,转换步骤繁复。(4)LipNet,是牛津大学联合DeepMind发布的深度学习唇语识别算法,其目的也是将嘴唇识别成文字。与之前技术相比,识别率更高一些,但转换的过程也很复杂。(5)CN107610703A,专利技术名称:一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字,然后再利用现有的语音合成模块将文字转换成语音。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部图像序列到语音编码参数的转换方法本专利技术的目的可以通过以下技术方案来实现:一种由唇部图像序列到语音编码参数的转换方法,包括以下步骤:1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量;4)语音编码参数转换器输出预测结果。所述的预测器为训练后的深度人工神经网络,所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成,中间插入必要的池化层和丢弃层。所述的预测器的训练方法具体包括以下步骤:21)同步采集视频和语音:通过视频和音频采集设备,同步采集视频和对应的语音数据,从视频中提取唇部图像I1,I2,...,In,唇部图像包括整个嘴部以及以嘴为中心的一个矩形区域,并依据人脸参数进行姿态矫正和尺度规范化,所述的语音数据为语音样值序列S1,S2,...,SM,并使唇部图像和语音数据保持时间对应关系;22)获取任意时刻t的唇部图像短时序列ISt:对给定的任意时刻t,提取k个连续的唇部图像作为t时刻的唇部图像短时序列ISt=(It-k+1,...,It-2,It-1,It),其中,It为时间上最接近t的一个唇部图像,k为指定参数;23)获取任意时刻t的语音帧编码参数向量FAt,对任意时刻t,提取L个连续语音采样值作为一个语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近t的一个语音采样,采用基于声码器的语音编码算法获取该语音帧的编码参数,即为t时刻的语音帧编码参数向量FAt,其中,L为固定参数;24)采用样本训练预测器:任取一时刻t,根据步骤22)和23)得到的训练样本对{FISt,FAt}作为预测器的输入和期望输出,并在有效范围内随机选取多个t值,以获取多个训练样本对,对预测器进行训练。所述的步骤22)中,采用对唇部图像进行时间插值使其帧率加倍,或采用高速图像采集设备进行采集的方式提高唇部图像的帧率。所述的步骤22)中,根据应用情景中需要识别的词汇长度选取k值,k值等于一个待识别的字、词或者短语所占的最大视频帧数。所述的步骤23)中,L的取值为180。所述的步骤23)中,所述的语音编码算法为LPC10e算法,所述的编码参数向量为LPC参数,包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基音周期、1个增益和10个反射系数。与现有技术相比,本专利技术具有以下特点:一、直接转换:本专利技术采用机器学习技术构造了一个特殊的转换器,它实现从唇部图像到语音帧编码参数向量的转换。其中的预测器,可用深度学习人工神经网络来实现,但并不限于人工神经网络。二、无需文字转换:该转换器采用唇部图像序列作为输入,语音帧编码参数向量作为输出。其输出的语音帧编码参数向量,可以由语音合成技术直接合成为语音采样帧,而不需要经过“文字”这一中间环节。三、便于构造训练:本专利技术还提供了所设计预测器的训练方法,以及训练样本的构造方法。附图说明图1为转换器的组成和接口结构图。图2为预测器的训练流程图。图3为预测器的人工神经网络结构。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本专利技术设计了一种由唇部图像序列到语音编码参数转换的转换器。它能够将接收唇部图像序列,并将它们转换成语音帧编码参数向量序列、并予以输出。如图1所示,该转换器主要包括输入缓存、预测器、和配置参数。其核心是一个预测器,该预测器是一个机器学习模型,能够利用训练样本对它进行训练。训练完成后的预测器,能够将唇部图像的一个短时序列预测输出为一个对应的语音编码参数向量。转换器的工作过程描述如下,包括四个步骤:(1)转换器启动后,读取配置参数,从而构建预测器。(2)转换器接收一系列时间上连续的唇部图像I1,I2,...,In,并将其存储在输入缓存中。这些唇部图像按照时间先后顺序依次输入。(3)每隔一定的时间Δt,转换器就将当前时刻t缓存的k个最新的唇部图像作为一个短时图像序列ISt=(It-k+1,...,It-2,It-1,It)送入预测器,并得到一个预测结果FAt。该预测结果是一个语音帧的编码参数向量。其中Δt等于一个语音帧所占的时长,k是一个固定的参数。(4)得到一个预测结果FAt后,随即将其从输出接口输出。以上步骤持续循环运行,从而将唇部图像序列I1,I2,...,In转换成语音帧的编码参数向量序列FA1,FA2,...,FAm。由于语音帧的频率和视频帧的频率并不一定相等,因此这里输入的图像I的个数n和输出的语音帧参数向量FA个数m也不一定相等。本专利描述的转换器中,涉及一个预测器,该预测器用一种具有数据预测能力的机器学习模型来实现,例如用一个人工神经网络来实现,但不限于人工神经网络。在应用之前,需要对其进行训练(即让预测器进行学习),训练其原理如图2所示,图中,从唇部视频的图像中任意选取的一个唇部图像短序列ISt=(It-k+1,...,It-2,It-1,It),作为训练用的输入样本;在语音中选取一个与ISt对应的语音帧At=(St-L+1,...,St-2,St-1,St),其中St是在时间上与It最接近的一个音频采样,然后采用基于声码器的语音编码算法对语音帧At进行分析,得到其编码参数向量FAt,作训练用的期望输出,即标签,由此获取大量的训练样本和标签对{ISt,FAt},用来训练预测器,这里t为随机的任意有效时刻。(1)同步采集视频和语音。通过视频和音频采集设备,同步采集视频和对应的语音数据。视频中需要包含嘴唇部分。从视频中提取嘴唇部分,即包含整个嘴部、以觜为中心的一个矩形区域,并依据人脸参数进行姿态矫正和尺度规范化,最终的唇部视频是由一系列唇部图像I1,I2,...,In组成,语音数据则表现为语音样值序列S1,S2,...,SM(这里M为大写,表示采样数,语音帧数本文档来自技高网...

【技术保护点】
1.一种由唇部图像序列到语音编码参数的转换方法,其特征在于,包括以下步骤:1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量;4)语音编码参数转换器输出预测结果。

【技术特征摘要】
1.一种由唇部图像序列到语音编码参数的转换方法,其特征在于,包括以下步骤:1)构建语音编码参数转换器,包括输入缓存和参数配置后的预测器;2)按照时间先后顺序依次接收唇部图像,并将其存储在转换器的输入缓存中;3)每隔一定的时间,将当前时刻缓存的k个最新的唇部图像作为一个短时图像序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量;4)语音编码参数转换器输出预测结果。2.根据权利要求1所述的一种由唇部图像序列到语音编码参数的转换方法,其特征在于,所述的预测器为训练后的深度人工神经网络,所述的深度人工神经网络由3个卷积LSTM网络层和2个全连接层依次连接组成,中间插入必要的池化层和丢弃层。3.根据权利要求2所述的一种由唇部图像序列到语音编码参数的转换方法,其特征在于,所述的预测器的训练方法具体包括以下步骤:21)同步采集视频和语音:通过视频和音频采集设备,同步采集视频和对应的语音数据,从视频中提取唇部图像I1,I2,...,In,唇部图像包括整个嘴部以及以嘴为中心的一个矩形区域,并依据人脸参数进行姿态矫正和尺度规范化,所述的语音数据为语音样值序列S1,S2,...,SM,并使唇部图像和语音数据保持时间对应关系;22)获取任意时刻t的唇部图像短时序列ISt:对给定的任意时刻t,提取k个连续的唇部图像作为t时刻的唇部图像短时序列ISt=(It-k+1,...,It-2,It-1,It),其中,It为时间上最接近t的一个唇部图像,k为指定参数;...

【专利技术属性】
技术研发人员:贾振堂
申请(专利权)人:上海电力学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1