基于唇部检测的查询端点化制造技术

技术编号:19024880 阅读:38 留言:0更新日期:2018-09-26 19:26
描述了用于改善由用户提交的言语查询的端点检测的系统和方法。在一些实施方式中,接收同步的视频数据和音频数据。确定包括与脸部上的唇部移动对应的图像的视频数据的帧序列。基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据。端点化的音频数据的录音由自动语音识别器生成。然后生成的录音被提供用于输出。

【技术实现步骤摘要】
基于唇部检测的查询端点化
本说明书通常涉及自动语音识别(ASR)。
技术介绍
自动语音识别(ASR)通常用于促进由用户提供的任务和/或命令的完成。例如,智能个人助理(PA)系统经常使用ASR来识别用户的口头命令以响应于该命令而执行指定动作。PAS可以基于用户输入、位置感知和/或从各种在线来源(例如天气或交通状况、新闻、股票价格、用户日程、零售价格等)访问信息的能力来执行动作。
技术实现思路
许多PA系统通常仅处理用户的音频数据编码话音(utterance)以识别和录音(transcribe)由用户提交的言语查询。然而,如果接收到的音频数据包括例如由于背景声音的高噪声电平,则可能难以准确地端点化(endpointing)音频数据以识别与所提交的言语查询相对应的音频的语音部分。结果,许多PA系统经常错误地识别或录音音频数据,包括例如包括不对应于用户的言语查询的音频段的音频数据、例如在用户的言语查询之前或之后的背景噪声。在一些实施方式中,系统能够改善由用户提交的言语查询的端点检测。例如,系统可以初始地获得编码所提交的言语查询的音频数据、以及与包括当提交言语查询时的用户脸部的图像的所获得的音频数据同步的视频数据。然后,该系统使用技术来区分对应于语音输入的音频数据的部分和对应于非语音输入的言语查询的其它部分(例如背景噪声)。作为示例,系统初始地确定包括用户脸部的图像的视频帧序列。然后,系统识别包括检测到的唇部移动的图像的视频帧序列。在一些实施方式中,系统确定序列的第一帧和最后帧、以及它们对应的时间点。然后,系统识别音频数据中的具有与视频帧序列的第一和最后帧的时间点对应的开始和结束时间点的音频段。系统端点化音频数据以提取音频段,并提供音频段以输出到ASR用于录音。通篇描述的端点化技术可用于为PA系统提供各种优点。例如,由于使用同步的视频数据来验证音频数据的语音部分,所以可以使用端点化技术来例如减少假阳性(falsepositive)言语查询检测,减少指定的PA系统激活术语或短语的错过(missed)检测,或者识别在编码接收到的查询的音频数据内的多个言语命令的发生。此外,在一些实施方式中,检测到的唇部移动数据可以用作由ASR系统独立验证语音识别以减少生成不正确的录音假设(hypotheses)的可能性。例如,可以针对指示用户所说的术语和/或短语的检测到的唇部移动数据来验证基于将语音识别技术应用于音频数据而生成的基线录音假设,以识别和/或纠正错误识别的术语。在一个方面,一种计算机实现的方法可以包括:接收同步的视频数据和音频数据;确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像;基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据,端点化音频数据;通过自动语音识别器生成端点化的音频数据的录音;并提供所生成的录音以输出。一个或多个实施方式可以包括以下可选特征。例如,在一些实施方式中,确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括:识别与脸部上的唇部移动相对应的图像的一个或多个特征统计;以及确定一个或多个所识别的特征统计包括被确定为表示唇部移动相关语音的特征统计。在一些实施方式中,该方法还包括:确定视频数据包括用户运动;并且响应于确定视频数据包括用户动作,确定视频数据的帧序列包括脸部的图像。在一些实施方式中,从智能电话接收同步的视频数据和音频数据;该同步的视频数据由智能电话的前置摄像机捕获。在一些实施方式中,端点化的音频数据对应于编码由用户提交的言语查询的音频数据的一部分。在一些实施方式中,该方法还包括:响应于确定视频数据的帧序列包括脸部的图像,激活个人助理系统以处理用户提交的言语查询。在一些实施方式中,确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括:从视频数据获得帧序列;以及使用深度神经网络来处理帧序列,深度神经网络配置为:接收帧序列内的每个帧;并且计算帧序列内的每个帧的置信度分数,该置信度分数表示该帧包括与该脸部上的唇部移动相对应的图像的可能性。在一些实施方式中,该方法还包括:确定视频数据的帧的子集包括脸部的图像,帧序列包括帧的子集,其中确定视频数据的帧序列包括与脸部的唇部移动相对应的图像包括:响应于确定视频数据的帧的子集包括脸部的图像,确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像。在一些实施方式中,确定视频数据的帧的子集包括脸部的图像包括:从视频数据获得帧的子集;使用深度神经网络来处理帧的子集,深度神经网络被配置为:接收帧的子集内的每个帧;并且计算帧的子集内的每个帧的置信度分数,该置信度分数表示该帧包括该脸部的图像的可能性。在一些实施方式中,端点化音频数据包括:识别对应于视频数据的帧序列的第一帧的第一音频数据;识别对应于视频数据的帧序列的最后一帧的第二音频数据;以及截断在第一音频数据之前且第二音频数据之后的音频数据。其它版本包括对应的系统和计算机程序,其被配置为执行在计算机存储设备上编码的方法的动作。在附图和下面的说明书中阐述了一个或多个实施方式的细节。其它潜在的特征和优点将从说明书、附图和权利要求中变得显而易见。这些方面的其它实施方式包括被配置为执行在计算机存储设备上编码的方法的动作的对应系统、装置和计算机程序。附图说明图1示出了能够使用检测到的唇部移动数据来确定言语查询段的端点的系统的示例。图2示出了能够使用替代录音技术来选择性地处理言语查询的系统的示例。图3示出了可用于训练图1和图2所示的系统的系统的示例。图4示出了基于检测到的唇部移动数据来确定言语查询段的端点的处理的示例。图5示出了可以在其上实现本文所描述的处理或其部分的计算设备的示例。在附图中,相同的附图标记始终表示对应的部分。具体实施方式通常,系统能够改善由用户提交给个人助理设备的言语查询的端点检测。例如,系统可以初始地获得编码所提交的言语查询的音频数据、以及包括在提交言语查询时用户的脸部图像的同步视频数据。系统使用技术来区分对应于语音输入的音频数据的部分和对应于非语音输入的言语查询的其它部分(例如背景噪声)。作为示例,系统确定包括检测到的唇部移动的视频帧的序列。系统识别序列的第一帧和最后一帧及其对应的时间点。该系统识别音频数据的如下音频段,其具有与视频帧序列的第一帧和最后一帧的时间点对应的开始和结束时间点。系统通过提取音频段来端点化音频数据,并提供音频段以输出到ASR用于录音。如所描述的,“端点”可以指代音频段的起始点或终止点。例如,如果使用单个端点来端点化单个音频文件,则生成两个音频段,例如,从音频文件的开头到作为终止点的端点的一个音频段、以及从作为起始点的该端点到音频文件的末尾的第二音频段。图1示出了能够使用检测到的唇部移动数据来确定言语查询段的端点的PA系统100的示例。在该示例中,系统100包括客户端设备110、脸部检测模块122、唇部移动模块124、查询端点模块126、ASR128和查询响应生成器129。通常,系统100可以表示任何类型的智能个人助理软件,其能够执行诸如语音交互、音乐回放、制作待办事项列表、设置闹钟、流式音频数据、提供信息(例如,天气交通或实时信息)的任务。在一些实施方式中,系统100还可以另外能够被用作家庭自动化集线器(hub)。系统100可以在诸如客本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:接收同步的视频数据和音频数据;确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像;基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据;通过自动语音识别器生成端点化的音频数据的录音;以及提供生成的录音以输出。

【技术特征摘要】
2017.03.14 US 15/458,2141.一种计算机实现的方法,包括:接收同步的视频数据和音频数据;确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像;基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据;通过自动语音识别器生成端点化的音频数据的录音;以及提供生成的录音以输出。2.根据权利要求1所述的方法,其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括:识别与脸部的唇部移动相对应的图像的一个或多个特征统计;以及确定所述一个或多个所识别的特征统计包括被确定为表示唇部移动相关语音的特征统计。3.根据权利要求1所述的方法,包括:确定视频数据包括用户动作;以及响应于确定视频数据包括用户动作,确定视频数据的帧序列包括脸部的图像。4.根据权利要求1所述的方法,其中:从智能电话接收同步的视频数据和音频数据;以及同步的视频数据由智能电话的前置摄像机捕获。5.根据权利要求1所述的方法,其中所述端点化的音频数据对应于编码由用户提交的言语查询的所述音频数据的一部分。6.根据权利要求5所述的方法,包括:响应于确定视频数据的帧序列包括脸部的图像,激活个人助理系统以处理由用户提交的言语查询。7.根据权利要求1所述的方法,其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括:从视频数据获取帧序列;以及使用深度神经网络处理帧序列,所述深度神经网络配置为:接收帧序列内的每个帧;以及计算帧序列内的每个帧的置信度分数,所述置信度分数表示帧包括与脸部上的唇部移动相对应的图像的可能性。8.根据权利要求1所述的方法,包括:确定所述视频数据的帧的子集包括所述脸部的图像,所述帧序列包括所述帧的子集,其中确定所述视频数据的帧序列包括与所述脸部上的唇部移动相对应的图像包括:响应于确定视频数据的帧的子集包括脸部的图像,确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像。9.根据权利要求8所述的方法,其中确定所述视频数据的帧的子集包括脸部的图像包括:从视频数据获得帧的子集;使用深度神经网络处理帧的子集,所述深度神经网络配置为:接收帧的子集内的每个帧;以及计算帧的子集内的每个帧的置信度分数,所述置信度分数表示帧包括脸部的图像的可能性。10.根据权利要求1所述的方法,其中,端点化所述音频数据包括:识别对应于视频数据的帧序列的第一帧的第一音频数据;识别对应于视频数据的帧序列的最后一帧的第二音频数据...

【专利技术属性】
技术研发人员:金澯佑RC农皮乌尔MAU巴奇亚尼
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1