实施校正模型以减少自动语音识别错误的传播制造技术

技术编号：27659056 阅读：32 留言：0更新日期：2021-03-12 14:25

本公开涉及实施校正模型以减少自动语音识别错误的传播。本文所描述的一些技术确定对话系统的校正模型，使得所述校正模型校正所述对话系统中的自动语音识别(ASR)子系统的输出。本文所描述的方法包括：访问训练数据。所述训练数据的第一元组包括话语，其中，所述话语是语音的文本表示。所述方法进一步包括：使用对话系统的ASR子系统来将所述话语转换为输出话语。所述方法进一步包括：将所述输出话语存储在基于所述训练数据的校正训练数据中。所述方法进一步包括：基于所述校正训练数据训练校正模型，使得所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。

全部详细技术资料下载

【技术实现步骤摘要】
实施校正模型以减少自动语音识别错误的传播相关申请的交叉引用本公开要求于2019年9月11日提交的名称为“ImplementingaCorrectiveModeltoReducePropagationofAutomaticSpeechRecognitionErrors[实施校正模型以减少自动语音识别错误的传播]”的美国临时申请序列号62/898,677以及于2020年8月13日提交的名称为“IMPLEMENTINGACORRECTIONMODELTOREDUCEPROPAGATIONOFAUTOMATICSPEECHRECOGNITIONERRORS[实施校正模型以减少自动语音识别错误的传播]”的美国申请序列号16/992291的优先权，前述美国申请通过引用以其全文结合在此。
本公开涉及对话系统，并且更具体地，涉及用于在对话系统中实施校正模型以校正自动语音识别的输出并由此减少所述对话系统中在自动语音识别期间产生的错误的传播的技术。
技术介绍
现在，越来越多的设备使得用户能够直接使用话音或口述语音与设备进行交互。例如，用户可以用自然语言对这种设备说话，并且这样做时，用户可以询问问题或进行请求执行动作的陈述。作为响应，设备执行所请求的动作或使用音频输出来对用户的问题作出响应。由于直接使用话音进行交互是人类与其周围环境进行交流的更自然且更直观的方式，因此这种基于语音的系统的普及正以天文数字的速率增长。
技术实现思路
本公开涉及用于实施校正模型以减少对话系统中在自动语音识别期间产生的错误的传...

【技术保护点】
1.一种方法，包括：/n访问训练数据，所述训练数据包括多个元组，所述多个元组中的第一元组包括话语，其中，所述话语是语音的文本表示；/n利用对话系统的自动语音识别(ASR)子系统来将所述话语转换为输出话语；/n将所述输出话语存储在基于所述训练数据的校正训练数据中；以及/n基于所述校正训练数据训练校正模型，所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。/n

【技术特征摘要】
20190911 US 62/898,677;20200813 US 16/992,2911.一种方法，包括：
访问训练数据，所述训练数据包括多个元组，所述多个元组中的第一元组包括话语，其中，所述话语是语音的文本表示；
利用对话系统的自动语音识别(ASR)子系统来将所述话语转换为输出话语；
将所述输出话语存储在基于所述训练数据的校正训练数据中；以及
基于所述校正训练数据训练校正模型，所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。

2.如权利要求1所述的方法，其中，利用所述对话系统的所述ASR子系统来将所述话语转换为所述输出话语包括：
生成语音，所述语音包括所述第一元组中的所述话语的音频版本；以及
通过将所述ASR子系统应用于所述语音来确定所述输出话语。

3.如权利要求2所述的方法，进一步包括：
生成第二语音，所述第二语音包括所述第一元组中的所述话语的第二音频版本，其中，所述第二语音是所述语音的语音变型；
通过将所述ASR子系统应用于所述第二语音来确定第二输出话语；以及
将所述第二输出话语存储在所述校正训练数据的第二校正元组中，其中，所述输出话语被存储在所述校正训练数据的第一校正元组中。

4.如权利要求2所述的方法，其中，生成所述语音包括：将文本到语音子系统应用于所述第一元组中的所述话语以确定所述语音。

5.如权利要求1所述的方法，其中：
所述第一元组进一步包括与所述话语相对应的逻辑形式，其中，所述逻辑形式是根据所建立语法的所述话语的句法表达；
将所述输出话语存储在基于所述训练数据的所述校正训练数据中包括：将所述输出话语和所述逻辑形式组合成所述校正训练数据的校正元组；以及
所述校正模型与校正语义解析器集成，所述校正语义解析器被配置成将话语映射到逻辑形式。

6.如权利要求5所述的方法，进一步包括：
生成第二语音，所述第二语音包括所述第一元组中的所述话语的第二音频版本，其中，所述第二语音是所述语音的语音变型；
通过将所述ASR子系统应用于所述第二语音来确定第二输出话语；以及
将所述第二输出话语和所述第一元组的所述逻辑形式存储到所述校正训练数据的第二校正元组中。

7.如权利要求1所述的方法，其中，将所述输出话语存储在基于所述训练数据的所述校正训练数据中包括：将所述输出话语和所述话语组合成所述校正训练数据的校正元组。

8.如权利要求7所述的方法，进一步包括将所述校正模型包括在所述对话系统中介于所述对话系统的所述ASR子系统与语义解析器之间，所述ASR子系统被配置成将语音映射到话语，并且所述语义解析器被配置成将话语映射到逻辑形式。

9.如权利要求8所述的方法，进一步包括：
所述对话系统接收由所述ASR子系统输出的第一话语；
所述对话系统将来自所述ASR子系统的所述第一话语提供给所述校正模型以确定经校正的话语；以及
所述对话系统向所述语义解析器输入所述经校正的话语。

10.一种系统，包括：
数据生成子系统，所述数据生成子系统被配置成：
访问训练数据，所述训练数据包括多个元组，所述多个元组中的第一元组包括话语，其中，所述话语是语音的文本表示；
利用对话系统的自动语音识别(ASR)子系统来将所述话语转换为与所述话语相对应的多个输出话语；以及
将所述多个输出话语存储在基于所述训练数据的校正训练数据中；以及
训练子系统，所述训练子系统被配置成基于所述校正训练数据训练校正模型，所述校正模型被配置成在所述对话系统的操作期间校正所述ASR子系统的输出。

11.如权利要求10所述的系统，其中，为了利用所述对话系统的所述ASR子系统来将所述话语转换为所述多个输出话语，所述数据生成子系统进一步被配置成：

【专利技术属性】
技术研发人员：T·L·杜翁，M·E·约翰逊，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人