用于适配语音识别声学模型的方法和系统技术方案

技术编号:10539719 阅读:124 留言:0更新日期:2014-10-15 15:55
本发明专利技术涉及用于适配语音识别声学模型的方法和系统。具体地,一种声学模型适配系统包括存储器设备和被耦合到存储器设备的模型选择器引擎。模型选择器引擎被配置成编译环境条件的信息以针对到设备上的语音识别器中的音频输入而标识当前语音环境。模型选择器引擎还被配置成将环境条件的信息与声学模型的简档相比较。每个简档与声学模型相关联。每个声学模型补偿音频输入的背景噪声或声学失真。模型选择器引擎还被配置成在不包括来自用户的音频输入的情况下,基于环境条件的信息来选择用于语音识别器的第一声学模型。

【技术实现步骤摘要】
用于适配语音识别声学模型的方法和系统
本专利技术涉及语音识别,更具体地,涉及用于适配语音识别声学模型的方法和系统。
技术介绍
语音识别系统将说话者的话语转换成数字内容或命令。语音识别系统对其音频输入敏感。背景噪声和声学失真影响语音识别系统的性能。为了克服背景噪声和声学失真而采用多个技术。许多大型词汇语音识别器要求其中用户听写一定数目的预定义句子的训练过程。此训练过程构建声学模型,来帮助系统不仅理解用户如何说话,而且理解背景噪声和声学失真。
技术实现思路
描述了系统的实施方式。在一个实施方式中,声学模型适配系统包括存储器设备和被耦合到存储设备的模型选择器引擎。模型选择器引擎被配置成编译环境条件的信息,以针对到设备上的语音识别器中的音频输入而标识当前语音环境。模型选择器引擎还被配置成将环境条件的信息与声学模型的简档(profile)相比较。每个简档与声学模型相关联。每个声学模型补偿音频输入的背景噪声或声学失真。模型选择器引擎还被配置成在不包括来自用户的音频输入的情况下基于环境条件的信息来选择用于语音识别器的第一声学模型。还描述了系统的其他实施方式以及计算机程序产品和方法的实施方式。根据结合以本原理的示例的方式举例说明的附图进行的以下详细描述,本专利技术的实施方式的其他方面和优点将变得显而易见。附图说明图1描述了用于选择用于语音识别器的声学模型的系统的一个实施方式的示意图。图2描述了图1的声学模型适配系统的一个实施方式的示意图。图3描述了图2的模型选择器引擎的一个实施方式。图4描述了用于在没有音频输入的帮助的情况下选择语音识别声学模型的方法的一个实施方式的流程图。图5描述了用于选择和适配语音识别声学模型的方法的另一实施方式的流程图。图6描述了用于编译音频输入的环境条件的信息的方法的一个实施方式的流程图。贯穿本描述,可使用类似的附图标记来标识类似的元件。具体实施方式将易于理解的是可以以多种不同的配置来布置和设计如在本文中一般地描述并在附图中图示出的实施方式的部件。因此,如在图中表示的各种实施方式的以下更详细描述并不旨在显示本公开的范围,而是仅仅表示各种实施方式。虽然在附图中呈现了实施方式的各种方面,除非具体地指明,附图不一定按比例绘出。在不脱离本专利技术的精神或本质特性的情况下可以其他特定形式来体现本专利技术。所述实施方式在所有方面仅仅被视为说明性而非限制性的。因此由所附权利要求而不是本详细描述来指示本专利技术的范围。在权利要求等价物的意义和范围内的所有变更将被涵盖在其范围内。贯穿本描述,对特征、优点或类似语言的参考并不意味着用本专利技术可实现的所有特征和优点都应在本专利技术的任何单个实施方式中。相反,应将参考特征和优点的语言理解成旨在结合实施方式所述的特定特征、优点或特性被包括在本专利技术的至少一个实施方式中。因此,贯穿本说明书的特征和优点的讨论以及类似语言可以但不一定参考同一实施方式。此外,可在一个或多个实施方式中以任何适当方式将本专利技术的所述特征、优点以及特性组合。本领域的技术人员将根据本文中的描述将认识到能够在没有特定实施方式的特定特征或优点中的一个或多个的情况下实施本专利技术。在其他情况下,在某些实施方式中可认识到可能并非在本专利技术的所有实施方式中都存在的附加特征和优点。贯穿本说明书对“一个实施方式”、“一种实施方式”或类似语言的参考旨在结合所指示实施方式所述的特定特征/结构或特性被包括在本专利技术的至少一个实施方式中。因此,贯穿本说明书的短语“在一个实施方式中”、“在一种实施方式中”以及类似语言可以但不一定全部参考同一实施方式。虽然在本文中描述了许多实施方式,但所述实施方式中的至少某些实施方式通过在没有音频输入或来自用户的输入的情况下对环境提示进行编译来促进选择有效的声学模型。声学模型补偿背景噪声和声学失真,并允许语音识别系统或语音识别器将说话者与其他噪声区别开。声学模型改变。针对较嘈杂环境所设计的声学模型在较寂静的环境中可能不会很好地表现,或者反之亦然。在某些常规系统和方法中,语音识别器通过采用其中用户坐下来并听写预定义句子的训练过程来改善声学模型的性能。在训练过程期间,语音识别器将学习用户如何说话并构建解决其中用户说话的环境的声学模型。随着用户继续使用系统,语音识别器适配声学模型。虽然进行中的适配在许多情况下可以是有益的,但如果环境过多地变化或改变,则进行中的适配可以负面地影响语音识别器的性能。用于说话的风格的变化或麦克风的变化也可负面地影响语音识别器。在许多情况下,语音识别器使用音频输入或其他用户手动输入来了解音频环境。本文所述的某些实施方式涉及到编译环境条件的信息,不包括来自用户的音频输入,以针对到设备上的语音识别器中的音频输入标识当前语音环境。环境条件可包括附近人数、附近人数的估计、设备的位置、时间、日期、附近设备的数目、附近人的可能身份、用户的身份、要使用的麦克风或音频输入设备及其他类似条件。某些实施方式允许语音识别器在接收到任何音频输入之前确定当前语音环境。某些实施方式允许语音识别器在接收到指示当前语音环境的任何手动输入之前确定当前语音环境。本文所述的某些实施方式将环境条件的信息与声学模型的简档相比较。在某些实施方式中,每个简档与声学模型相关联。在某些实施方式中,每个声学模型在补偿音频输入的背景噪声和/或声学失真时改变。某些实施方式允许语音识别器预测当前噪声环境。本文所述的某些实施方式涉及到基于环境条件的信息来选择用于语音识别器的第一声学模型,所述信息不包括来自用户的音频输入。某些实施方式允许系统在接收到音频输入之前预测噪声环境的变化。某些实施方式允许系统通过正确地选择适当声学模型而高效地操作。图1描述了用于选择用于语音识别器100的声学模型的系统的一个实施方式的示意图。用于选择用于语音识别器100的声学模型的系统包括声学模型适配系统102、网络104以及简档数据库106。某些实施方式包括位置数据库108和社交网络数据库110。在某些实施方式中,系统100编译来自网络104的环境条件的信息。在某些实施方式中,系统100编译来自位置数据库108的信息。在某些实施方式中,系统100编译来自社交网络数据库110的信息。在某些实施方式中,系统100将来自位置数据库108或社交网络数据库110的已编译信息与简档数据库106中的简档相比较。在某些实施方式中,网络104可以至少部分地是因特网。在其他实施方式中,网络104可以是私有网络或内联网。网络104可以是因特网、私有网络或内联网的组合。在某些实施方式中,可直接地将声学模型适配系统102、简档数据库106、位置数据库108以及社交网络数据库110相互链接。例如,可将声学模型适配系统102和位置数据库108连同简档数据库106直接地链接在一起。声学模型适配系统102可直接地与位置数据库108通信,或者可通过网络104进行通信。声学模型适配系统102可以是单个设备或设备的组合。声学模型适配系统102可位于移动电话、智能电话、便携式介质设备、平板计算机、膝上型计算机、台式计算机或其他设备或设备的组合上。虽然在具有某些部件和功能的情况下示出并描述了系统100,但系统100的其他实施方式可包括更少或更多部件以实现更少或更多的功能。图2描述了图1的声学模型适配系统102的一个实施方式的示意本文档来自技高网...
用于适配语音识别声学模型的方法和系统

【技术保护点】
一种用于适配语音识别声学模型的方法,所述方法包括:在不包括来自用户的音频输入的情况下,编译环境条件的信息,以针对到设备上的语音识别器中的音频输入标识当前语音环境;将所述环境条件的所述信息与声学模型的简档相比较,其中每个简档与声学模型相关联,并且其中每个声学模型补偿所述音频输入的背景噪声或声学失真;以及在不包括来自所述用户的音频输入的情况下,基于所述环境条件的所述信息来选择用于所述语音识别器的第一声学模型。

【技术特征摘要】
2013.04.05 US 13/857,5711.一种用于适配语音识别声学模型的方法,所述方法包括:在不包括来自用户的音频输入的情况下,编译环境条件的信息,以针对到设备上的语音识别器中的音频输入标识当前语音环境,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译所述设备的所述距离内的本地无线设备的数目的信息;将所述环境条件的所述信息与声学模型的简档相比较,其中每个简档与声学模型相关联,并且其中每个声学模型补偿所述音频输入的背景噪声或声学失真;以及在不包括来自所述用户的音频输入的情况下,基于所述环境条件的所述信息来选择用于所述语音识别器的第一声学模型。2.根据权利要求1所述的方法,其中所述方法还包括:响应于检测到所述音频输入的声学特性与选择的第一简档相差预定阈值,创建新声学模型和新简档。3.根据权利要求2所述的方法,其中所述方法还包括:调整所述新声学模型以匹配所述音频输入的所述声学特性。4.根据权利要求1所述的方法,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译社交网络统计的信息。5.根据权利要求1所述的方法,其中编译所述环境条件的所述信息包括:标识所述设备的位置并将所述设备的所述位置与位置数据库相比较。6.根据权利要求1所述的方法,其中编译所述环境条件的所述信息包括:检测被连接到所述设备的麦克风以确定所述设备的位置。7.一种声学模型适配系统,所述系统包括:存储器设备,以及模型选择器引擎,被耦合到存储器设备,所述模型选择器引擎被配置成:在不包括来自用户的音频输入的情况下,编译环境条件的信息,以针对到设备上的语音识别器中的音频输入标识当前语音环境,其中编译所述环境条件的所述信息包括:确定所述设备的特定距离内的人数的估计,其中确定所述估计包括编译所述设备的所述距离内的本地无线设备的数目的信息;将所述环境条件的所述信息与声学模型的简档相比较,其中每个简档与声学模型相关联,并且其中每个声学模型补偿所述音频输入的背景噪声或声学失真;以及在不包括来自所述用户的音频输入的情况下,基于所述环境条件的所述信息来选择用于所述语音识别器的第一声学模型。8.根据权利要求7所述的系统,...

【专利技术属性】
技术研发人员:D·A·贝尔L·S·德卢卡J·H·詹金斯J·A·库斯尼茨
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1