利用话音识别器反馈来进行语音活动检测制造技术

技术编号：7845767 阅读：159 留言：0更新日期：2012-10-13 03:30

本文描述了利用话音识别器反馈来进行语音活动检测。语音活动检测(VAD)模块分析诸如音频文件或视频文件之类的媒体文件，以确定该媒体文件的一个或多个帧是否包括话音。话音识别器生成与VAD确定的准确度有关的反馈。VAD模块利用该反馈来改进后继VAD确定。VAD模块还利用与媒体文件相关联的超前窗口来调节先前处理的帧的估计概率或VAD判定。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及利用话音识别器反馈来进行语音活动检测。
技术介绍
语音活动检测(VAD)是用在话音处理中的检测人类话音存在或不存在的技术。VAD常常被用在各种不同的系统中，诸如例如包括话音编码、语音增强、话音识别以及回声抵消的系统。通过使用VAD，一旦确定特定内容块或信号的一部分是话音，话音识别技术就可被用来识别话音并将讲出的词语转换成文本。对于诸如在线话音识别之类的各种类型的话音识别，VAD常常是事后补记。因此，被设计成用于非VAD任务的组件常常被或多或少地修改，以执行各种VAD功能。然而，由于这些VAD组件并非是针对这些VAD功能而设计的，因此VAD可能是不准确和/或低效的。
技术实现思路
本文中描述了用于利用来自话音识别器的反馈来改进语音活动检测(VAD)的技术。在各个实施例中，VAD模块可确定媒体文件的帧包括话音还是非话音。一旦帧被分类为话音帧和/或非话音帧，话音识别器就可将话音帧和非话音帧中包括的词语和非话音分别转换成表示媒体文件的文本转录本。此外，VAD模块可利用由话音识别器提供的反馈来改进尚未被VAD模块处理的帧的VAD。在各个实施例中，VAD模块和话音识别器可异步地处理媒体文件，以使得VAD模块在话音识别器之前处理媒体文件的帧。在其他实施例中，本文中描述了用于利用超前窗以改进媒体文件的VAD的技术。更具体地，可维护第一帧是包括话音还是非话音的概率。此外，可至少部分地基于与媒体文件中在第一帧之前或之后的一个或多个附加帧相关联的概率来更新先前维护的概率。与第一帧相对应的VAD判定可被延迟，直至下游组件实际需要VAD判定。此时，当前概率可被返回，且...

【技术保护点】

【技术特征摘要】
2011.02.25 US 13/035,0441.一种方法，包括将媒体文件的多个帧分类为一个或多个话音帧和一个或多个非话音帧(402)；接收与所述一个或多个话音帧和所述一个或多个非话音帧相关联的反馈(406);以及将所述反馈用于更新将被用于所述媒体文件中尚待处理的多个帧的语音活动检测的模型(408)。2.如权利要求I所述的方法，其特征在于，还包括在接收到所述反馈之前分类所述多个帧的附加帧。3.如权利要求I所述的方法，其特征在于，所述反馈包括文本转录本，所述文本转录本表示所述一个或多个话音帧的内容，并且所述文本转录本是至少部分地基于所述分类的准确度来进行置信度计分的，所述经置信度计分的文本转录本包括媒体文件中超过预定可靠性阈值的词语或短语。4.一种方法，包括访问与媒体文件的一个或多个帧相对应的语音活动判定(502)；生成与语音活动判定相关联的反馈(504),所述与语音活动判定相关联的反馈表示所述语音活动判定的相对准确度；以及使得能使用所述反馈来指导对所述媒体文件的一个或多个后继帧的语音活动检测(VAD)o5.如权利要求4所述的方法，其特征在于所述语音活动检测是由VAD模块生成的；所述...

【专利技术属性】
技术研发人员：A·J·K·泰姆白瑞德南，朱卫武，F·T·B·西德，
申请(专利权)人：微软公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人