实施校正模型以减少自动语音识别错误的传播制造技术

技术编号:27659056 阅读:32 留言:0更新日期:2021-03-12 14:25
本公开涉及实施校正模型以减少自动语音识别错误的传播。本文所描述的一些技术确定对话系统的校正模型,使得所述校正模型校正所述对话系统中的自动语音识别(ASR)子系统的输出。本文所描述的方法包括:访问训练数据。所述训练数据的第一元组包括话语,其中,所述话语是语音的文本表示。所述方法进一步包括:使用对话系统的ASR子系统来将所述话语转换为输出话语。所述方法进一步包括:将所述输出话语存储在基于所述训练数据的校正训练数据中。所述方法进一步包括:基于所述校正训练数据训练校正模型,使得所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。

【技术实现步骤摘要】
实施校正模型以减少自动语音识别错误的传播相关申请的交叉引用本公开要求于2019年9月11日提交的名称为“ImplementingaCorrectiveModeltoReducePropagationofAutomaticSpeechRecognitionErrors[实施校正模型以减少自动语音识别错误的传播]”的美国临时申请序列号62/898,677以及于2020年8月13日提交的名称为“IMPLEMENTINGACORRECTIONMODELTOREDUCEPROPAGATIONOFAUTOMATICSPEECHRECOGNITIONERRORS[实施校正模型以减少自动语音识别错误的传播]”的美国申请序列号16/992291的优先权,前述美国申请通过引用以其全文结合在此。
本公开涉及对话系统,并且更具体地,涉及用于在对话系统中实施校正模型以校正自动语音识别的输出并由此减少所述对话系统中在自动语音识别期间产生的错误的传播的技术。
技术介绍
现在,越来越多的设备使得用户能够直接使用话音或口述语音与设备进行交互。例如,用户可以用自然语言对这种设备说话,并且这样做时,用户可以询问问题或进行请求执行动作的陈述。作为响应,设备执行所请求的动作或使用音频输出来对用户的问题作出响应。由于直接使用话音进行交互是人类与其周围环境进行交流的更自然且更直观的方式,因此这种基于语音的系统的普及正以天文数字的速率增长。
技术实现思路
本公开涉及用于实施校正模型以减少对话系统中在自动语音识别期间产生的错误的传播的技术。所述校正模型可以在自动语音识别(ASR)子系统与语义解析器子系统之间的工作流程中进行操作,以减少由ASR子系统输出并因此由语义解析器子系统接收到的错误,或者所述校正模型可以被集成到语义解析器子系统以使得语义解析器子系统能够将错误的ASR子系统输出映射到适当的逻辑形式。在一些实施例中,校正系统训练校正模型,所述校正模型可以但不必与校正语义解析器集成。为此,所述校正系统可以访问旨在用于训练语义解析器子系统的训练数据,其中,所述训练数据可以包括多个元组,每个元组包括原始话语和表示该原始话语的逻辑形式。对于每个这种元组,所述校正系统可以生成一组语音,其中,每个语音是音频文件或音频文件的一部分,并且其中,该组语音表示可以口述原始话语的方式的变体。对于每个这种语音,所述校正系统可以应用ASR子系统来确定输出话语,从而产生与表示原始话语的该组语音相对应的一组输出话语。在一些实施例中,所述ASR子系统是在对话系统的常规操作期间使用的同一ASR子系统。在一些实施例中,所述校正系统用多个校正元组训练校正模型,每个校正元组包括输出话语和对应的原始话语。这样,所述校正模型可以被训练用于将由ASR子系统输出的话语映射到经校正的话语。在另一实施例中,所述校正系统用多个校正元组训练校正语义解析器,每个校正元组包括输出话语和对应原始话语的逻辑形式。这样,所述校正语义解析器可以被训练用于将由ASR子系统输出的话语映射到经校正的话语的逻辑形式;因此,校正模型实际上被集成到语义解析器中。在一些实施例中,在对话系统的操作期间,校正模型在ASR子系统的输出被输入到语义解析器子系统之前对ASR子系统的输出进行校正,或者校正语义解析器在确定逻辑形式时会隐式地校正这种错误。从而,减少了ASR子系统的输出中的错误并且因此这些错误不会在整个对话系统中传播。在参考以下说明书、权利要求和附图之后,前述内容以及其他特征和实施例将变得更加显而易见。附图说明图1是根据某些实施例的对话系统的示例的图,所述对话系统结合了校正模型以减少由对话系统中的自动语音识别产生的错误的传播。图2是根据某些实施例的校正系统的示例的图,所述校正系统被配置成训练要包括在对话系统中的校正模型。图3是根据某个实施例的将校正模型结合到对话系统中的方法的图。图4是根据某些实施例的校正系统的另一示例的图,所述校正系统被配置成训练要包括在对话系统中的校正模型。图5是根据某些实施例的训练校正模型以校正自动语音识别的输出的方法的图。图6是根据本文所描述的某些实施例的对话系统的示例的图,所述对话系统利用校正语义解析器来减少由自动语音识别产生的错误的传播。图7是根据某些实施例的校正系统的示例的图,所述校正系统被配置成训练要包括在对话系统中的校正语义解析器。图8是根据某些实施例的训练校正语义解析器以在确定逻辑形式时隐式地校正自动语音识别的输出的方法的图。图9是用于实施某些实施例的分布式系统的图。图10是根据某些实施例的基于云的系统环境的图,其中,校正模型或校正语义解析器的训练或使用可以至少部分地作为云服务来提供。图11是可以用于实施某些实施例的示例计算机系统的图。具体实施方式在以下描述中,出于解释的目的,阐述了具体细节以便提供对某些实施例的透彻理解。然而,将显而易见的是,可以在没有这些具体细节的情况下实践各个实施例。附图和描述不旨在是限制性的。词语“示例性”在本文中用来意指“用作示例、实例或说明”。在本文中被描述为“示例性”或作为“示例”的任何实施例或设计不必被解释为比其他实施例或设计更优选或有利。能够经由语音输入和音频输出(也称为语音输出或话音输出)与用户进行对话的支持话音的系统可以以各种形式出现。例如,这种系统可以被提供为独立式设备、数字助理或虚拟助理、具有话音功能的服务等。在这些形式中的每一种形式中,系统能够接收语音输入、理解语音输入、生成响应或者响应于语音输入而采取动作、以及使用音频输出来输出响应。在某些实施例中,在这种支持话音的系统中的对话功能由对话系统或基础设施(“对话系统”)来提供。对话系统被配置成接收语音输入,解释语音输入,维持对话,可能基于语音输入的解释来执行一个或多个动作或使一个或多个动作被执行,准备适当的响应,并且使用音频输出将响应输出给用户。传统上,对话系统包括各种机器学习(ML)模型(即,预测模型)。用干净数据(即,不是对话系统的部件的输出的数据)训练对话系统的ML模型(如自动语音识别(ASR)子系统、语义解析器子系统和文本到语音(TTS)子系统)。结果是,这些ML模型通常学习处理干净数据,而不是已经被处理过并且很可能已经引入了错误的数据。例如,对话系统接收来自用户的语音输入。如果ASR子系统(也被称为ASR)在将该语音输入转译为话语时产生错误,则该错误将以由ASR子系统输出的不准确话语形式传递给语义解析器子系统。然后语义解析器子系统(也被称为语义解析器)产生基于不准确话语的逻辑形式。对话管理器子系统处理该逻辑形式,所述对话管理器子系统尝试对如逻辑形式所表示的原始语音输入作出响应。然而,由于在整个对话系统中传播的错误,该逻辑形式可能无法准确表示语音输入,并且因此,对话管理器子系统可能无法有效地促进与用户的对话或执行作为对话的一部分的用户请求的任务。本文所描述的实施例提供了用于校正ASR输出(即,ASR的输出)的改进技术,这些技本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n访问训练数据,所述训练数据包括多个元组,所述多个元组中的第一元组包括话语,其中,所述话语是语音的文本表示;/n利用对话系统的自动语音识别(ASR)子系统来将所述话语转换为输出话语;/n将所述输出话语存储在基于所述训练数据的校正训练数据中;以及/n基于所述校正训练数据训练校正模型,所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。/n

【技术特征摘要】
20190911 US 62/898,677;20200813 US 16/992,2911.一种方法,包括:
访问训练数据,所述训练数据包括多个元组,所述多个元组中的第一元组包括话语,其中,所述话语是语音的文本表示;
利用对话系统的自动语音识别(ASR)子系统来将所述话语转换为输出话语;
将所述输出话语存储在基于所述训练数据的校正训练数据中;以及
基于所述校正训练数据训练校正模型,所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。


2.如权利要求1所述的方法,其中,利用所述对话系统的所述ASR子系统来将所述话语转换为所述输出话语包括:
生成语音,所述语音包括所述第一元组中的所述话语的音频版本;以及
通过将所述ASR子系统应用于所述语音来确定所述输出话语。


3.如权利要求2所述的方法,进一步包括:
生成第二语音,所述第二语音包括所述第一元组中的所述话语的第二音频版本,其中,所述第二语音是所述语音的语音变型;
通过将所述ASR子系统应用于所述第二语音来确定第二输出话语;以及
将所述第二输出话语存储在所述校正训练数据的第二校正元组中,其中,所述输出话语被存储在所述校正训练数据的第一校正元组中。


4.如权利要求2所述的方法,其中,生成所述语音包括:将文本到语音子系统应用于所述第一元组中的所述话语以确定所述语音。


5.如权利要求1所述的方法,其中:
所述第一元组进一步包括与所述话语相对应的逻辑形式,其中,所述逻辑形式是根据所建立语法的所述话语的句法表达;
将所述输出话语存储在基于所述训练数据的所述校正训练数据中包括:将所述输出话语和所述逻辑形式组合成所述校正训练数据的校正元组;以及
所述校正模型与校正语义解析器集成,所述校正语义解析器被配置成将话语映射到逻辑形式。


6.如权利要求5所述的方法,进一步包括:
生成第二语音,所述第二语音包括所述第一元组中的所述话语的第二音频版本,其中,所述第二语音是所述语音的语音变型;
通过将所述ASR子系统应用于所述第二语音来确定第二输出话语;以及
将所述第二输出话语和所述第一元组的所述逻辑形式存储到所述校正训练数据的第二校正元组中。


7.如权利要求1所述的方法,其中,将所述输出话语存储在基于所述训练数据的所述校正训练数据中包括:将所述输出话语和所述话语组合成所述校正训练数据的校正元组。


8.如权利要求7所述的方法,进一步包括将所述校正模型包括在所述对话系统中介于所述对话系统的所述ASR子系统与语义解析器之间,所述ASR子系统被配置成将语音映射到话语,并且所述语义解析器被配置成将话语映射到逻辑形式。


9.如权利要求8所述的方法,进一步包括:
所述对话系统接收由所述ASR子系统输出的第一话语;
所述对话系统将来自所述ASR子系统的所述第一话语提供给所述校正模型以确定经校正的话语;以及
所述对话系统向所述语义解析器输入所述经校正的话语。


10.一种系统,包括:
数据生成子系统,所述数据生成子系统被配置成:
访问训练数据,所述训练数据包括多个元组,所述多个元组中的第一元组包括话语,其中,所述话语是语音的文本表示;
利用对话系统的自动语音识别(ASR)子系统来将所述话语转换为与所述话语相对应的多个输出话语;以及
将所述多个输出话语存储在基于所述训练数据的校正训练数据中;以及
训练子系统,所述训练子系统被配置成基于所述校正训练数据训练校正模型,所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。


11.如权利要求10所述的系统,其中,为了利用所述对话系统的所述ASR子系统来将所述话语转换为所述多个输出话语,所述数据生成子系统进一步被配置成:

【专利技术属性】
技术研发人员:T·L·杜翁M·E·约翰逊
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1