端到端多讲话者视听自动语音识别制造技术

技术编号:33762994 阅读:26 留言:0更新日期:2022-06-12 14:12
用于从视听数据(204)转录语音的单一视听自动语音识别(AV

【技术实现步骤摘要】
【国外来华专利技术】端到端多讲话者视听自动语音识别


[0001]本公开涉及端到端多讲话者视听自动语音识别。

技术介绍

[0002]自动语音识别(ASR)是在移动设备和其它设备中使用的重要技术。一般而言,自动语音识别试图提供一个人已经说出的内容的准确转录。在嘈杂环境中,或者在其它情况下当记录话语的音频质量差时,获得准确ASR结果可能是一项困难任务。当讲话者的视频数据可用时,能够利用视频数据来帮助改进ASR结果。例如,讲话者的视频数据可以提供当讲话者正在讲出话语时嘴唇的运动,这进而能够与话语的音频数据组合以协助处理ASR结果。

技术实现思路

[0003]本公开的一个方面提供一种用于从视听数据转录语音的单一视听语音识别(AV

ASR)模型。该AV

ASR模型包括编码器前端,该编码器前端具有被配置成接收视听数据的音频轨迹和视听数据的视频部分的注意力机制。视听数据的视频部分包括多个视频面部轨迹。该多个视频面部轨迹中的每个视频面部轨迹与相应人的面部相关联。对于该多个视频面部轨迹中的每个视频面部轨迹,注意力机制被进一步配置本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从视听数据(204)转录语音的单一视听自动语音识别AV

ASR模型(200),所述AV

ASR模型(200)包括:编码器前端(260),所述编码器前端(260)包括注意力机制(270),所述注意力机制(270)被配置成:接收所述视听数据(204)的音频轨迹(210)和所述视听数据(204)的视频部分(220),所述视听数据(204)的视频部分(220)包括多个视频面部轨迹(230),所述多个视频面部轨迹(230)中的每个视频面部轨迹(230)与相应人的面部相关联;并且对于所述多个视频面部轨迹(230)中的每个视频面部轨迹(230),确定以下置信度分数,所述置信度分数指示与所述视频面部轨迹(230)相关联的所述相应人的面部包括所述音频轨迹(210)的讲话面部的可能性;以及解码器(280),所述解码器(280)被配置成处理所述音频轨迹(210)和所述多个视频面部轨迹(230)中的与最高置信度分数相关联的视频面部轨迹(230)以确定所述音频轨迹(210)的语音识别结果(248)。2.根据权利要求1所述的AV

ASR模型(200),其中,所述单一AV

ASR模型(200)包括序列到序列模型(200)。3.根据权利1或者2所述的AV

ASR模型(200),其中,所述单一AV

ASR模型(200)包括视听循环神经网络转换器(RNN

T)模型(200)。4.根据权利要求1

3中的任一项所述的AV

ASR模型(200),其中,所述单一AV

ASR模型(200)不包括用于硬选择所述多个视频面部轨迹(230)中的哪个视频面部轨迹包括所述音频轨迹(210)的讲话面部的单独面部选择系统。5.根据权利要求1

4中的任一项所述的AV

ASR模型(200),其中,所述注意力机制(270)被配置成为所述多个视频面部轨迹(230)生成注意力加权视觉特征向量(272)以作为输出,所述注意力加权视觉特征向量(272)表示对所述多个视频面部轨迹(230)中的以下视频面部轨迹(230)的软选择,所述视频面部轨迹包括具有包括所述音频轨迹(210)的讲话面部的最高可能性的所述相应人的面部。6.根据权利要求1

5中的任一项所述的AV

ASR模型(200),其中,所述注意力机制(270)包括具有逆温度参数的softmax层,所述softmax层被配置成使所述注意力机制(270)收敛到选择所述多个视频面部轨迹(230)中的与最高置信度分数相关联的所述视频面部轨迹(230)作为所述音频轨迹(210)的讲话面部的硬判定规则。7.根据权利要求1

6中的任一项所述的AV

ASR模型(200),其中,所述编码器前端(260)在以下训练数据集(302)上被训练,所述训练数据集(302)包括:训练音频轨迹(210T),所述训练音频轨迹(210T)包括一个或多个口语话语;第一训练视频面部轨迹(230Ta),所述第一训练视频面部轨迹(230Ta)包括所述训练音频轨迹(210T)的所述一个或多个口语话语的正确的讲话面部;以及一个或多个第二训练视频面部轨迹(230Tb),每个第二训练视频面部轨迹(230Tb)包括所述训练音频轨迹(210T)的所述一个或多个口语话语的不正确的讲话面部。8.根据权利要求7所述的AV

ASR模型(200),其中,在训练期间,所述注意力机制(270)被配置成学习如何将所述第一训练视频面部轨迹(230Ta)选通为所述训练音频轨迹(210T)的所述一个或多个口语话语的正确的讲话面部。
9.根据权利要求7或8所述的AV

ASR模型(200),其中,所述注意力机制(270)用交叉熵损失而被训练。10.根据权利要求1

9中的任一项所述的AV

ASR模型(200),其中,所述解码器(...

【专利技术属性】
技术研发人员:奥塔维奥
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1