基于唇部检测的查询端点化制造技术

技术编号：19024880 阅读：38 留言：0更新日期：2018-09-26 19:26

描述了用于改善由用户提交的言语查询的端点检测的系统和方法。在一些实施方式中，接收同步的视频数据和音频数据。确定包括与脸部上的唇部移动对应的图像的视频数据的帧序列。基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据。端点化的音频数据的录音由自动语音识别器生成。然后生成的录音被提供用于输出。

全部详细技术资料下载

【技术实现步骤摘要】
基于唇部检测的查询端点化
本说明书通常涉及自动语音识别(ASR)。
技术介绍
自动语音识别(ASR)通常用于促进由用户提供的任务和/或命令的完成。例如，智能个人助理(PA)系统经常使用ASR来识别用户的口头命令以响应于该命令而执行指定动作。PAS可以基于用户输入、位置感知和/或从各种在线来源(例如天气或交通状况、新闻、股票价格、用户日程、零售价格等)访问信息的能力来执行动作。
技术实现思路
许多PA系统通常仅处理用户的音频数据编码话音(utterance)以识别和录音(transcribe)由用户提交的言语查询。然而，如果接收到的音频数据包括例如由于背景声音的高噪声电平，则可能难以准确地端点化(endpointing)音频数据以识别与所提交的言语查询相对应的音频的语音部分。结果，许多PA系统经常错误地识别或录音音频数据，包括例如包括不对应于用户的言语查询的音频段的音频数据、例如在用户的言语查询之前或之后的背景噪声。在一些实施方式中，系统能够改善由用户提交的言语查询的端点检测。例如，系统可以初始地获得编码所提交的言语查询的音频数据、以及与包括当提交言语查询时的用户脸部的图像的所获得的音频数据同步的视频数据。然后，该系统使用技术来区分对应于语音输入的音频数据的部分和对应于非语音输入的言语查询的其它部分(例如背景噪声)。作为示例，系统初始地确定包括用户脸部的图像的视频帧序列。然后，系统识别包括检测到的唇部移动的图像的视频帧序列。在一些实施方式中，系统确定序列的第一帧和最后帧、以及它们对应的时间点。然后，系统识别音频数据中的具有与视频帧序列的第一和最后帧的时间点对应的...

【技术保护点】
1.一种计算机实现的方法，包括：接收同步的视频数据和音频数据；确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像；基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据；通过自动语音识别器生成端点化的音频数据的录音；以及提供生成的录音以输出。

【技术特征摘要】
2017.03.14 US 15/458,2141.一种计算机实现的方法，包括：接收同步的视频数据和音频数据；确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像；基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据；通过自动语音识别器生成端点化的音频数据的录音；以及提供生成的录音以输出。2.根据权利要求1所述的方法，其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：识别与脸部的唇部移动相对应的图像的一个或多个特征统计；以及确定所述一个或多个所识别的特征统计包括被确定为表示唇部移动相关语音的特征统计。3.根据权利要求1所述的方法，包括：确定视频数据包括用户动作；以及响应于确定视频数据包括用户动作，确定视频数据的帧序列包括脸部的图像。4.根据权利要求1所述的方法，其中：从智能电话接收同步的视频数据和音频数据；以及同步的视频数据由智能电话的前置摄像机捕获。5.根据权利要求1所述的方法，其中所述端点化的音频数据对应于编码由用户提交的言语查询的所述音频数据的一部分。6.根据权利要求5所述的方法，包括：响应于确定视频数据的帧序列包括脸部的图像，激活个人助理系统以处理由用户提交的言语查询。7.根据权利要求1所述的方法，其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：从视频数据获取帧序列；以及使用深度神经网络处理帧序列，所述深度神经网络配置为：接收帧序列内的每个帧；以及计算帧序列内的每个帧的置信度分数，所述置信度分数表示帧包括与脸部上的唇部移动相对应的图像的可能性。8.根据权利要求1所述的方法，包括：确定所述视频数据的帧的子集包括所述脸部的图像，所述帧序列包括所述帧的子集，其中确定所述视频数据的帧序列包括与所述脸部上的唇部移动相对应的图像包括：响应于确定视频数据的帧的子集包括脸部的图像，确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像。9.根据权利要求8所述的方法，其中确定所述视频数据的帧的子集包括脸部的图像包括：从视频数据获得帧的子集；使用深度神经网络处理帧的子集，所述深度神经网络配置为：接收帧的子集内的每个帧；以及计算帧的子集内的每个帧的置信度分数，所述置信度分数表示帧包括脸部的图像的可能性。10.根据权利要求1所述的方法，其中，端点化所述音频数据包括：识别对应于视频数据的帧序列的第一帧的第一音频数据；识别对应于视频数据的帧序列的最后一帧的第二音频数据...

【专利技术属性】
技术研发人员：金澯佑，RC农皮乌尔，MAU巴奇亚尼，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人