自适应视觉语音识别制造技术

技术编号：39569683 阅读：6 留言：0更新日期：2023-12-03 19:20

用于使用自适应视觉语音识别模型来处理视频数据的方法

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】自适应视觉语音识别

技术介绍

[0001]本说明书涉及视觉语音识别神经网络
。
[0002]神经网络是采用一层或多层非线性单元来对接收到的输入预测输出的机器学习模型
。
除了输出层之外，一些神经网络还包括一个或多个隐藏层
。
每个隐藏层的输出用作对网络中的下一层
——
例如，下一隐藏层或输出层
——
的输入
。
网络的每个层根据相应参数集的当前值从接收到的输入生成输出
。
[0003]神经网络的一个示例是视觉语音识别神经网络
。
视觉语音识别神经网络根据说话者的嘴的移动解码语音
。
换句话说，视觉语音识别神经网络将说话者的面部的视频作为输入，并且生成表示由视频中描绘的说话者所说出的单词的文本作为输出
。
[0004]视觉语音识别神经网络的一个示例是
LipNet。LipNets
最初在
Assael
等人的在
arxiv.org
可获得的在
arXiv preprint arXiv:1611.01599(2016)
中的
LipNet:End
‑
to
‑
End Sentence
‑
Level Lipreading(LipNet
：端到端句子级别唇读
)
中描述
。LipNet
是利用时空卷积和递归神经网络将视频帧的可变长度...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种由一个或多个计算机执行的方法，所述方法包括：接收包括描绘第一说话者的多个视频帧的视频；获得表征所述第一说话者的第一嵌入；以及使用具有多个参数的视觉语音识别神经网络来处理包括
(i)
所述视频和
(ii)
所述第一嵌入的第一输入，其中，所述视觉语音识别神经网络被配置为根据所述参数的训练值来处理所述视频和所述第一嵌入，以生成定义由所述第一说话者在所述视频中说出的一个或多个单词的序列的语音识别输出
。2.
根据权利要求1所述的方法，其中，所述视觉语音识别神经网络被配置为：从所述第一嵌入生成附加输入通道；以及在处理所述视频中的帧之前将所述附加通道与所述视频中的一个或多个帧进行组合，以生成所述语音识别输出
。3.
根据任一前述权利要求所述的方法，其中，所述视觉语音识别神经网络包括多个隐藏层，并且其中所述神经网络被配置为针对所述隐藏层中的至少一个隐藏层：从所述第一嵌入生成附加隐藏通道；以及在提供所述隐藏层的输出以供所述视觉语音识别神经网络的另一个隐藏层处理之前将所述隐藏通道和所述输出进行组合
。4.
根据任一前述权利要求所述的方法，还包括：获得用于所述第一说话者的适配数据，所述适配数据包括所述第一说话者的一个或多个视频以及用于所述视频中的每个视频的相应地面真实转录；以及使用所述适配数据来确定用于所述第一说话者的所述第一嵌入
。5.
根据权利要求4所述的方法，还包括：获得通过在包括与不同于所述第一说话者的多个说话者相对应的训练示例的训练数据上训练所述视觉语音识别神经网络已经确定的模型参数的预训练值，其中，确定所述第一嵌入包括使用所述预训练值和所述适配数据来确定所述第一嵌入
。6.
根据权利要求5所述的方法，其中，确定所述第一嵌入包括：初始化所述第一嵌入；以及通过重复执行包括以下的操作来更新所述第一嵌入：根据所述参数的当前值使用所述视觉语音识别神经网络来处理所述适配数据中的一个或多个视频片段中的每个视频片段和所述第一嵌入，以生成针对所述一个或多个视频片段中的每...

【专利技术属性】
技术研发人员：扬尼斯，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人