分布式语音识别系统中用于发送语音活动的系统和方法技术方案

技术编号:3046436 阅读:263 留言:0更新日期:2012-04-11 18:40
用于在一分布式话音识别系统中发送语音活动的系统和方法。所述分布式话音识别系统包括一在一用户单元中的当地的VR引擎和一在一服务器上的服务器VR引擎。所述当地的VR引擎包括一从一语音信号中抽取特征的特征抽取(FE)模块、以及一检测在一语音信号中的话音活动的话音活动检测模块(VAD)。话音活动的指示在特征之前从用户单元发送给服务器。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术总的涉及通信领域,尤其涉及分布式话音识别系统中用于发送语音活动的系统和方法。2.技术背景话音识别(VR)代表赋于机器以模拟的智能来识别使用者的话音指令并便于人与机器联系的最重要的技术之一。话音识别也代表了对人类语言理解的一种关键技术。利用技术从声音语音信号复原语言信息的系统称之为话音识别器。话音识别(通常也叫话音识别)由于安全的原因正变得日益重要。例如,话音识别可用于取代在一无线电话键盘上按下按钮时手的工作。当使用者正在开车,又要打电话时,这是特别重要的。在使用没有话音识别的汽车电话时,驾驶者必须腾出一只手离开方向盘并看着电话键盘,并按下各个按钮以拨通电话,这些动作增加了汽车事故的可能性。而一部能识别话音的汽车电话(即,一部设计用于话音识别的电话)则允许驾驶者放着电话,同时连续不断地观察路面。此外,一套不用手操作的汽车电话系统允许驾驶者在打电话时两只手保持在方向盘上。一套不用手操作的汽车电话系统示例性的用语范围包括10个数字;关键词“呼叫”、“发送”、“拨号”、“取消”、“清除”、“添加”、“删除”、“历史”、 程序”、“是”、“否”;以及预定数目通常呼叫的同事、朋友、或家庭成员的名字。一话音识别中,即一VR系统包括一声音处理器,也称之为话音识别器的前端,以及一单词译码器,也称之为话音识别器的后端。声音处理器执行特征抽取。声音处理器从进来的原语音提取一系列的为话音识别所必须的信息承载特征(矢量)。单词译码器对这一系列特征(矢量)译码,以产生有意义的和所要求的输出格式,诸如对应于输入言词的一系列语言单词。在一使用分布式系统结构的话音识别器的实例中,通常要求将单词译码工作放在一子系统上,它能在一网络服务器处恰当吸收计算和存储负载。而声音处理器应设置在尽可能靠近话源,以在用户装置处减少由信号处理和/或信道引起的误差所导致的声码器(用于在传送压缩前的语音)的影响。所以,在一分布式话音识别(DVR)系统中,声音处理器位于用户装置中,而单词译码器位于一网络上。DVR系统通过访问网络上的话音识别服务器使蜂窝电话、个人通信装置、个人数字助理(PDA)等可通过口述命令从一无线网络,诸如因特网选取信息和服务。空气界面方法降低了话音识别系统在无线应用中的准确性。这种降低可能通过从诸如用户单元之类的装置上的使用者口令命令中抽取话音识别特征(用户单元也称为用户站、移动站、移动的、远方站、远方终端、访问终端和使用方设备),并以数据通信方式发送话音识别特征而不是以话音业务方式发送口述命令来缓解。因而,在DVR系统中,前端持征可在所述装置中抽取并发送给网络。装置可以是移动的或固定的,并且可与一个或多个基站(BS)通信,基站(BS)也称为蜂窝基站、蜂窝单元基站、基站收发系统(BTS)、基站收发器、中央通信中心、访问点、访问节点、节点B、以及调制解调池收发器(MPT)。复杂的话音识别工作需要有效的计算资源。而要在具有有限CPU、存贮器和电池资源的用户单元上配备这样的系统是不现实的。DVR系统利用了网上可供使用的计算资源。在一典型的DVR系统中,单词译码器具有比话音识别器前端更多的计算和存贮要求。因而,在网络中的基于服务器的话音识别系统是用作话音识别系统的后端的,并执行单词译码。这样做具有利用网上资源执行复杂的话音识别任务的好处。在美国专利5,956,683,题为“分布式话音识别系统”中描述了DVR系统的一些例子,该专利已转让给本专利技术的受让人,并援引在此供参考。在用户单元上,除了进行特征抽取外,也可执行一些简单的话音识别任务,在这种情况下,在网络上的话音识别系统不用于简单的话音识别任务。因而,网络通信量得以减少,从而使进行语音业务的成本下降。尽管用户单元执行了简单的话音识别任务,但网络上信息量的拥挤可导致用户单元从基于服务器的话音识别系统得到较差的服务。而一分布式话音识别系统则使应用复杂的话音识别工作的丰富的用户接口特征成为可能,但要以增加网络业务和有时会延迟为代价。如果在用户单元上的本地VR引擎不能识别使用者的口述命令,则在前端处理后必须将该口述命令发送到基于服务器的VR引擎,这就增加了网络业务和网络的拥塞。当大量的网络业务要同时从用户单元发送到基于服务器的话音识别系统时便会发生网络拥塞。在口述命令通过基于网络的VR引擎判读后,必须将结果发回到用户单元,如果存在网络拥塞的话,这就会造成显著的延迟。因而,在一DVR系统中,需要一种系统和方法来减少网络拥塞和减少延迟,这种系统和方法可改进话音识别的性能。专利技术概述所述各实施例是针对用于可减少网络拥塞地发送语音活动的系统和方法。用于发送语音活动话音识别的系统和方法包括在用户单元上的一语音活动(检测(VAD)模块和一特征抽取(FE)模块。在一方案中,用户单元包括用于抽取语音信号多个特征的特征抽取模块、用于检测语音信号中的话音活动并提供检测到的话音活动的指示的话音活动检测模块、以及连至特征抽取模块和话音活动检测模块并用于在多个特征之前发送检测到的话音活动的指示的一发送器。在另一方案中,用户单元包括用于抽取一语音信号多个特征的装置、用于检测语音信号中的话音活动并提供所检测的话音活动的指示的装置、以及一连至特征抽取装置和话音活动检测装置并用于在多个特征之前发送检测的话音活动的指示的发送器。在一方案中,用户单元还包括将多个特征与所检测的话音活动的指示结合起来的装置,其中,所检测的话音活动的指示在多个特征之前。在一方案中,发送语音活动的方法包括抽取一语音信号的多个特征、检测在语音信号中的话音活动并提供所检测话音活动的指示,以及在多个特征之前发送所检测的话音活动的指示。附图简述附图说明图1示出根据一种实施例的话音识别系统,它包含一声音处理器和一单词译码器;图2示出一分布式话音识别系统的示例性实施例;图3示出在一分布式话音识别系统的示例性实施例中的延迟;图4示出根据一实施例的VAD模块的方框图5示出根据一实施例的VAD子模块的方框图;图6示出根据一实施例的FE模块的方框图;图7示出根据一实施例的VAD模块的状态图;以及图8示出根据一实施例的、在一等时线上语音事件和VAD事件的各个部分。专利技术详述图1示出根据一实施例的、包括一声音处理器4和单词译码器6的一话音识别系统2。单词译码器6包括一声音模式匹配元件8和语言建模元件10。语言建模元件10也称作语法规范元件。声音处理器4与单词译码器6的声音匹配元件8相连。声音模式匹配元件8与语言建模元件10相连。声音处理器4从输入的语音信号抽取特征并提供给单词译码器6。一般来说,单词译码器6将来自声音处理器4的声音特征转换成说话人的原始字串的一估计值。这可分两步实现声音模式匹配和语言建模。在分开的单字识别的应用中,可以取消语言建模。声音模式匹配元件8对诸如音素、音节、单词等可能的声音模式进行检测和分类。候选的模式提供给语音建模元件10,它建立确定什么样的单词顺序可在语法上正确形成并且是有意义的句法制约规则的模型。当仅靠声音信息是模棱两可时,句法信息对话音识别是一有价值的引导。基于语言建模,话音识别顺序地阐明声音特征匹配结果,并提供所估计的字串。在单词译码器6中的声音模式匹配和语言建模需要一确定型的或非确定型的数字模型来描述说话人的语音学的和声学的变本文档来自技高网...

【技术保护点】
一种用户单元,其特征在于,它包括:特征抽取模块,用于抽取一语音信号的多个特征;语音活动检测模块,用于检测语音信号中的语音活动,并提供检测到的语音活动的指示;以及发送器,它与所述特征抽取模块和语音活动检测模块耦合,用于 在多个特征之前发送检测到的语音活动的指示。

【技术特征摘要】
US 2001-5-17 60/292,043;US 2001-6-14 60/298,502;US1.一种用户单元,其特征在于,它包括特征抽取模块,用于抽取一语音信号的多个特征;语音活动检测模块,用于检测语音信号中的语音活动,并提供检测到的语音活动的指示;以及发送器,它与所述特征抽取模块和语音活动检测模块耦合,用于在多个特征之前发送检测到的语音活动的指示。2.一种用户单元,其特征在于,它包括用于抽取语音信号的多个特征的装置;用于检测语音信号的语音活动并提供检测到的语音活动的指示的装置;以及与所述特征抽取装置和话音活动检测装置耦合的发送器,并且用于在所述多个特征之前发送检测到的语音活动的指示。3.如权利要求1所述的用户单元,其特征在于,它还包括用于将所述多个特征与检测到的语音活...

【专利技术属性】
技术研发人员:H加鲁达德里MS费利普斯
申请(专利权)人:高通股份有限公司演讲作品国际股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1