自适应视觉语音识别制造技术

技术编号:39569683 阅读:6 留言:0更新日期:2023-12-03 19:20
用于使用自适应视觉语音识别模型来处理视频数据的方法

【技术实现步骤摘要】
【国外来华专利技术】自适应视觉语音识别

技术介绍

[0001]本说明书涉及视觉语音识别神经网络

[0002]神经网络是采用一层或多层非线性单元来对接收到的输入预测输出的机器学习模型

除了输出层之外,一些神经网络还包括一个或多个隐藏层

每个隐藏层的输出用作对网络中的下一层
——
例如,下一隐藏层或输出层
——
的输入

网络的每个层根据相应参数集的当前值从接收到的输入生成输出

[0003]神经网络的一个示例是视觉语音识别神经网络

视觉语音识别神经网络根据说话者的嘴的移动解码语音

换句话说,视觉语音识别神经网络将说话者的面部的视频作为输入,并且生成表示由视频中描绘的说话者所说出的单词的文本作为输出

[0004]视觉语音识别神经网络的一个示例是
LipNet。LipNets
最初在
Assael
等人的在
arxiv.org
可获得的在
arXiv preprint arXiv:1611.01599(2016)
中的
LipNet:End

to

End Sentence

Level Lipreading(LipNet
:端到端句子级别唇读
)
中描述
。LipNet
是利用时空卷积和递归神经网络将视频帧的可变长度序列映射到文本的深度神经网络

[0005]视觉语音识别神经网络的另一个示例在
Shillingford
等人的在
arxiv.org
可获得的在
arXiv preprint arXiv:1807.05612(2018)
中的
Large

Scale Visual Speech Recognition(
大规模视觉语音识别
)
中描述
。Large

Scale Visual Speech Recognition
描述了将唇部视频映射到音素分布序列的深度视觉语音识别神经网络和根据由深度神经网络生成的音素分布序列输出单词序列的语音解码器


技术实现思路

[0006]本说明书描述了一种系统,该系统在一个或多个位置中的一个或多个计算机上实现为计算机程序,其可以生成样本高效且自适应的视觉语音识别模型

在此情景下,是样本高效的和自适应的即意味着该模型可以被定制以识别具有远远少于用于训练自适应模型的训练数据的新说话者的语音

例如,尽管训练自适应模型可能需要每个个体说话者的几个小时的视频记录,但是为新说话者适配该模型可能只需要新说话者的几分钟的视频记录

[0007]训练系统可以使用用于相应个体说话者的多个嵌入向量和视觉语音识别神经网络来训练视觉语音识别模型

由于训练过程的计算密集型特性,所以训练可以由具有数百或数千个计算机的分布式计算系统
——
例如数据中心
——
来执行

[0008]训练过程的输出是可以高效地适配于新说话者的自适应视觉语音识别模型

适配模型通常涉及学习用于新说话者的新嵌入向量,并且可以可选地涉及微调用于新说话者的神经网络的参数

适配数据可以仅仅是新说话者的几秒钟或几分钟的视频以及针对文本的对应转录

例如,视频可以是在说话者说出在用户设备上向用户呈现的文本提示上的文本时说话者的视频

[0009]因此,与原始训练过程相比,适配过程的计算强度小得多

因此,可以在功率小得多的硬件
——
例如,移动电话或另一可佩戴设备

台式或膝上型计算机

或安装在用户家中
的另一启用因特网的设备,仅举几个示例
——
上执行适配过程

[0010]在一个方面中,一种方法包括:接收包括描绘第一说话者的多个视频帧的视频;获得表征第一说话者的第一嵌入;以及使用具有多个参数的视觉语音识别神经网络来处理包括
(i)
该视频和
(ii)
第一嵌入的第一输入,其中,视觉语音识别神经网络被配置为根据参数的训练值来处理视频和第一嵌入,以生成定义由第一说话者在视频中说出的一个或多个单词的序列的语音识别输出

[0011]在一些实施方式中,视觉语音识别神经网络被配置为:从第一嵌入生成附加输入通道;以及在处理视频中的帧之前将附加通道与视频中的一个或多个帧进行组合,以生成语音识别输出

[0012]在一些实施方式中,视觉语音识别神经网络包括多个隐藏层,并且其中神经网络被配置为针对隐藏层中的至少一个隐藏层:从第一嵌入生成附加隐藏通道;以及在提供隐藏层的输出以供视觉语音识别神经网络的另一个隐藏层处理之前将隐藏通道和该输出进行组合

[0013]在一些实施方式中,该方法还包括:获得用于第一说话者的适配数据,该适配数据包括第一说话者的一个或多个视频以及用于所述视频中的每个视频的相应地面真实转录;以及使用适配数据来确定用于第一说话者的第一嵌入

[0014]在一些实施方式中,该方法还包括:获得通过在包括与不同于第一说话者的多个说话者相对应的训练示例的训练数据上训练视觉语音识别神经网络已经确定的模型参数的预训练值,其中,确定第一嵌入包括使用预训练值和适配数据来确定第一嵌入

[0015]在一些实施方式中,确定第一嵌入包括:初始化第一嵌入;以及通过重复执行包括以下的操作来更新第一嵌入:根据参数的当前值使用视觉语音识别神经网络来处理适配数据中的一个或多个视频片段中的每个视频片段和第一嵌入,以生成针对所述一个或多个视频片段中的每个视频片段的相应语音识别输出;以及更新第一嵌入以最小化针对所述一个或多个视频片段中的每个视频片段测量视频片段的地面真实转录与针对视频片段的相应语音识别输出之间的相应误差的损失函数

[0016]在一些实施方式中,更新第一嵌入以最小化针对所述一个或多个视频片段中的每个视频片段测量视频片段的地面真实转录与针对视频片段的相应语音识别输出之间的相应误差的损失函数包括:将损失函数的梯度反向传播通过视觉语音识别神经网络,以确定损失函数相对于第一嵌入的梯度;以及使用损失函数相对于第一嵌入的梯度来更新第一嵌入

[0017]在一些实施方式中,当前值等于预训练值并且等于训练值,并且其中模型参数在确定第一嵌入时是固定的

[0018]在一些实施方式中,该操作还包括:基于损失函数相对于视觉语音识别神经网络的参数的梯度来更新视觉语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种由一个或多个计算机执行的方法,所述方法包括:接收包括描绘第一说话者的多个视频帧的视频;获得表征所述第一说话者的第一嵌入;以及使用具有多个参数的视觉语音识别神经网络来处理包括
(i)
所述视频和
(ii)
所述第一嵌入的第一输入,其中,所述视觉语音识别神经网络被配置为根据所述参数的训练值来处理所述视频和所述第一嵌入,以生成定义由所述第一说话者在所述视频中说出的一个或多个单词的序列的语音识别输出
。2.
根据权利要求1所述的方法,其中,所述视觉语音识别神经网络被配置为:从所述第一嵌入生成附加输入通道;以及在处理所述视频中的帧之前将所述附加通道与所述视频中的一个或多个帧进行组合,以生成所述语音识别输出
。3.
根据任一前述权利要求所述的方法,其中,所述视觉语音识别神经网络包括多个隐藏层,并且其中所述神经网络被配置为针对所述隐藏层中的至少一个隐藏层:从所述第一嵌入生成附加隐藏通道;以及在提供所述隐藏层的输出以供所述视觉语音识别神经网络的另一个隐藏层处理之前将所述隐藏通道和所述输出进行组合
。4.
根据任一前述权利要求所述的方法,还包括:获得用于所述第一说话者的适配数据,所述适配数据包括所述第一说话者的一个或多个视频以及用于所述视频中的每个视频的相应地面真实转录;以及使用所述适配数据来确定用于所述第一说话者的所述第一嵌入
。5.
根据权利要求4所述的方法,还包括:获得通过在包括与不同于所述第一说话者的多个说话者相对应的训练示例的训练数据上训练所述视觉语音识别神经网络已经确定的模型参数的预训练值,其中,确定所述第一嵌入包括使用所述预训练值和所述适配数据来确定所述第一嵌入
。6.
根据权利要求5所述的方法,其中,确定所述第一嵌入包括:初始化所述第一嵌入;以及通过重复执行包括以下的操作来更新所述第一嵌入:根据所述参数的当前值使用所述视觉语音识别神经网络来处理所述适配数据中的一个或多个视频片段中的每个视频片段和所述第一嵌入,以生成针对所述一个或多个视频片段中的每...

【专利技术属性】
技术研发人员:扬尼斯
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1