当前位置: 首页 > 专利查询>微软公司专利>正文

利用话音识别器反馈来进行语音活动检测制造技术

技术编号:7845767 阅读:159 留言:0更新日期:2012-10-13 03:30
本文描述了利用话音识别器反馈来进行语音活动检测。语音活动检测(VAD)模块分析诸如音频文件或视频文件之类的媒体文件,以确定该媒体文件的一个或多个帧是否包括话音。话音识别器生成与VAD确定的准确度有关的反馈。VAD模块利用该反馈来改进后继VAD确定。VAD模块还利用与媒体文件相关联的超前窗口来调节先前处理的帧的估计概率或VAD判定。

【技术实现步骤摘要】

本专利技术涉及利用话音识别器反馈来进行语音活动检测
技术介绍
语音活动检测(VAD)是用在话音处理中的检测人类话音存在或不存在的技术。VAD常常被用在各种不同的系统中,诸如例如包括话音编码、语音增强、话音识别以及回声抵消的系统。通过使用VAD,一旦确定特定内容块或信号的一部分是话音,话音识别技术就可被用来识别话音并将讲出的词语转换成文本。对于诸如在线话音识别之类的各种类型的话音识别,VAD常常是事后补记。因此,被设计成用于非VAD任务的组件常常被或多或少地修改,以执行各种VAD功能。然而,由于这些VAD组件并非是针对这些VAD功能而设计的,因此VAD可能是不准确和/或低效的。
技术实现思路
本文中描述了用于利用来自话音识别器的反馈来改进语音活动检测(VAD)的技术。在各个实施例中,VAD模块可确定媒体文件的帧包括话音还是非话音。一旦帧被分类为话音帧和/或非话音帧,话音识别器就可将话音帧和非话音帧中包括的词语和非话音分别转换成表示媒体文件的文本转录本。此外,VAD模块可利用由话音识别器提供的反馈来改进尚未被VAD模块处理的帧的VAD。在各个实施例中,VAD模块和话音识别器可异步地处理媒体文件,以使得VAD模块在话音识别器之前处理媒体文件的帧。在其他实施例中,本文中描述了用于利用超前窗以改进媒体文件的VAD的技术。更具体地,可维护第一帧是包括话音还是非话音的概率。此外,可至少部分地基于与媒体文件中在第一帧之前或之后的一个或多个附加帧相关联的概率来更新先前维护的概率。与第一帧相对应的VAD判定可被延迟,直至下游组件实际需要VAD判定。此时,当前概率可被返回,且当处理附加帧时,可更新此概率。提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。附图说明参考附图来阐明详细描述,附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在相同或不同附图中使用同一附图标记指示相似或相同的项或特征。图I图解了根据各个实施例的用于利用来自话音识别器的反馈来改进语音活动检测的系统。图2图解了根据各个实施例的使用超前窗来改进语音活动检测的系统。图3是根据各实施例的图解可以实现本文描述的语音活动检测方法的代表性计算设备的框图。图4图解了示出用于利用来自话音识别器的反馈来指导语音活动检测的示例性过程的流程图。图5图解了示出用于提供与语音活动判定相关联的反馈来指导语音活动检测的示例性过程的流程图。图6图解了示出用于利用超前窗来更新媒体文件的帧的概率的示例性过程的流程图。详细描述本文中所描述的是用于利用来自话音识别器的反馈来改进在线话音识别的语音活动检测(VAD)的系统和/或技术。VAD指的是用于基于在段中是否检测到话音来将音频或视频文件分成一个或多个段的技术。更具体地,VAD模块可确定诸如记录等音频或视频文件的哪些部分包括话音以及文件的哪些部分包括静默和/或其他类型的非话音。一旦作出该确定,VAD模块就可将文件分成包含话音的段和不包含话音的段。包括话音的段或帧 可在随后由话音识别器来处理,该话音识别器将口述词语转换成文本。接着,可以对与话音相关联的文本进行索引或不进行索引。如果对与话音相关联的文本进行索引,则文本由此变得可搜索。给定诸如音频文件或视频文件等记录,可能期望标识该记录中人们正在说话的部分以及该记录中没有话音的那些部分。如果不对文件进行分析来检测文件的哪些部分包括话音,则将话音转换成文本的话音识别器可能创建具有高差错率的转录本。例如,由于话音识别器不知晓话音何时开始和结束,因此结果得到的转录本可能包含在开始和/或结束时切断的词语部分。此类错误可导致转录本难以阅读,且还可能无法准确地表示音频或视频文件中说了些什么,这可能使转录本的读者感到失望。典型地,对VAD使用低计算信号处理办法。通过使用此办法,使用最小计算资源量,以使得VAD的结果可被嵌入到芯片上。然而,部分地由于正被使用的计算资源的限制,可能会牺牲VAD的质量。通过利用来自话音识别器的反馈来指导VAD,无需牺牲VAD的质量且可利用最小计算资源量。例如,假定诸如移动电话等相对低功率组件被通信地耦合到高功率(例如,增加的计算资源等)话音识别器。在此实施例中,包含VAD模块的低功率组件可识别音频或视频文件中的哪些部分是话音以及哪些是非话音。接着,可将文件的分解段传送给话音识别器。话音识别器可在随后将文件的分段部分转换成文本并将结果反馈给该低功率组件。由于来自话音识别器的结果可表示VAD模块在分析音频或视频文件时的准确度,因此低功率组件的VAD模块可利用此反馈来改进VAD模块的稳健性。换言之,来自话音识别器的反馈可被VAD模块用来增强VAD模块用于检测音频或视频文件中的后继帧里的话音相对非话音的能力。因此,可替代地利用来自话音识别器的反馈。在各个实施例中,反馈可与在线大词汇量连续话音识别(LVCSR)相关联。替代地利用话音识别器反馈会导致VAD模块保持更简单和紧凑。这在VAD正于诸如移动电话等低资源设备(这些低资源设备由在远程服务器上运行的话音识别器来支持)上运行时可能是重要的。如以下将更详细描述的,可利用至少两种类型的反馈(1)用反馈指导VAD模型自适应和⑵用反馈指导超前。以下参照图1-6描述VAD技术的各个示例。指导VAD模型自适应反馈图I图解了利用来自话音识别器的反馈来自适应VAD的系统100。具体地,系统100包括VAD模块102和话音识别器104。此外,系统100包括第一线程106和第二线程108。在各个实施例中,第一线程106与VAD模块102相关联,而第二线程108与话音识别器104相关联。此外,VAD模块102可被存储在诸如移动电话等移动设备中,而话音识别器104可在本地或远程服务器上运行。此外,VAD模块102和话音识别器104还可驻留在相同的设备上。第一线程106和第二线程108可表示音频文件或视频文件(在下文中称为“音频文件”或“视频文件”),其可包括人类话音和各种类型的非话音,诸如静默或其他噪声。在图I中,关于时间110示出第一线程106和第二线程108,其中时间110始于时间此夕卜,第一线程106和第二线程108可包括媒体文件的一个或多个帧,诸如帧112-120,如图I中所示的。然而,可设想任何数目的帧可被包括在媒体文件中。如图所示,与第一线程106相对应的VAD模块102以及与第二线程108相对应的话音识别器104可在任何给定时间110正各自处理和/或分析媒体文件的不同点。在一个实施例中,第一线程106和第二线程108可以是异步的,这意味着VAD模块102和话音识别器104可能分别在不同的时间110分析第一线程106和第二线程108的相同巾贞。例如,帧120可以是由VAD模块102在时间tp从第一线程106处理的,而相同的帧116可以是由话音识别器104在后继时间tn从第二线程108处理的。因此,第一线程106的帧120可由VAD模块102在第二线程108的分析之前的时间被分析。如图I中所示的,时间110包括Wptm、tn_2、tn_j> tn 和 tp。如先前所提及的,VAD模块102处理第一线程106。更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
2011.02.25 US 13/035,0441.一种方法,包括 将媒体文件的多个帧分类为一个或多个话音帧和一个或多个非话音帧(402); 接收与所述一个或多个话音帧和所述一个或多个非话音帧相关联的反馈(406);以及将所述反馈用于更新将被用于所述媒体文件中尚待处理的多个帧的语音活动检测的模型(408)。2.如权利要求I所述的方法,其特征在于,还包括在接收到所述反馈之前分类所述多个帧的附加帧。3.如权利要求I所述的方法,其特征在于,所述反馈包括文本转录本,所述文本转录本表示所述一个或多个话音帧的内容,并且所述文本转录本是至少部分地基于所述分类的准确度来进行置信度计分的,所述经置信度计分的文本转录本包括媒体文件中超过预定可靠性阈值的词语或短语。4.一种方法,包括 访问与媒体文件的一个或多个帧相对应的语音活动判定(502); 生成与语音活动判定相关联的反馈(504),所述与语音活动判定相关联的反馈表示所述语音活动判定的相对准确度;以及 使得能使用所述反馈来指导对所述媒体文件的一个或多个后继帧的语音活动检测(VAD)o5.如权利要求4所述的方法,其特征在于 所述语音活动检测是由VAD模块生成的; 所述...

【专利技术属性】
技术研发人员:A·J·K·泰姆白瑞德南朱卫武F·T·B·西德
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1