用于自动语音识别的方法和装置制造方法及图纸

技术编号:3045867 阅读:190 留言:0更新日期:2012-04-11 18:40
一种自动语音识别(ASR)系统,包括语音-响应应用程序和语音识别引擎。ASR系统生成用户提示以引出某些口语输入,当口语输入被识别时,语音-响应应用程序执行操作。识别引擎将输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素。对每个候选匹配音素计算识别置信度分值,置信度分值用于帮助辨识一个或者多个可能的匹配音素序列,该序列似乎匹配语音-响应应用程序的语法中的单词。根据预先定义的置信度分值标准(例如,低于“低置信度”阈值的辨识分值)评估每个音素的置信度分值,评估的结果用于影响随后的用户提示的选择。一种这样的系统使用置信度分值选择用于目标识别训练的提示-鼓励输入被识别为具有低置信度识别分值的音素。另一个系统选择提示以阻止输入不容易被识别的声音。

【技术实现步骤摘要】

本专利技术提供用于自动语音识别的方法和装置
技术介绍
自动语音识别(ASR)系统采用音频信号作为输入,并通常将输入信号与声学模型(AM)的已知声音(音素)和声音序列(轨迹)相比较,以辨识似乎匹配声音的口语序列的单词。在辨识了对应输入音频信号的一个或者多个单词后,所辨识的匹配单词的文本或者其它机器可读形式由ASR返回到诸如交互式语音应答(IVR)电话应用程序的应用程序。可随每个显然匹配的单词返回置信度分值,该置信度分值基于引入的语音片断与和ASR系统的声学模型中的音素相关联的平均概率分布的紧密度。可以返回多个可能的单词及其各自的置信度分值,用于选择或者进一步的分析。典型的自动语音识别(ASR)系统需要单个用户(与说话者有关的)或者多个用户(与说话者无关的)的相当大的训练数据,以使ASR系统的识别引擎能够学习将声音输入与语言的相应的声音(音素标签)相关联。当在实际的应用中使用时,诸如自动电话服务,ASR系统辨识的声音序列也必须匹配特定应用语法,其预先定义了所期望的单词和短语。如果ASR系统训练了足够的数据,并且如果语法覆盖所有可能的单词和短语,那么识别精度会很高。然而,特定语言中的单个声音可能很容易混淆,诸如英语中的“F”和“S”。这样的声音经常出现在应用语法的单词中。在这种情况下,识别精度会降低。在大多数自动服务中,通常的做法是使用ASR询问用户,以确认ASR结果是否正确。如果没有返回结果,则可要求呼叫者重复没有被识别的单词。例如,呼叫者可说出他们想要联系的人的名字“Stephen James”。如果合成语音响应包括不同的名字,诸如“您是说‘Peter Jones’吗?”,则呼叫者不可能注意。不得不重复他们的输入也可能使呼叫者厌烦。即使确认仅仅是“Yes”或“No”,ASR系统也可能混淆这两个单词,特别是因为诸如“您是说Stephen James吗?”的用户提示可用“yeah”、“OK”、“correct”或者“nope”、“nah”等回答。
技术实现思路
本专利技术的第一个方面提供一种用于控制自动语音识别(ASR)系统的操作的方法。在与用户对话期间,ASR系统生成用户提示,以从用户引出所需要的输入。将输入音频信号内的声音与声学模型内的音素进行比较,以辨识候选匹配音素。对各个候选匹配音素计算识别置信度分值,并评估识别置信度分值,以辨识一个或者多个具有预先定义的识别置信度特征的候选匹配音素(例如,识别具有高或者低可信度分值的候选音素)。该方法包括选择用于引出随后的用户输入的用户提示,其中所述选择取决于所辨识的一个或者多个音素的识别置信度特征。在本说明书中的典型的ASR系统包括语音识别引擎和应用程序,并可以包括如下所述的其它组件。在本说明书中的用户提示是提供给用户以引出用户输入的提示。例如,通过播放音频提示(诸如存储的音频片断或者动态生成的模拟语音消息)或者在计算机屏幕上显示文本向用户提出问题。每个用户提示都鼓励用户说话,例如以从选项菜单中进行选择或者指定用户需要的人员或者服务。在本专利技术的第一个实施例中,将被辨识为可能匹配输入声音信号的声音的音素序列与语音识别语法(诸如IVR应用的特定应用语法)中的单词进行比较,以辨识候选匹配单词。在似乎匹配应用语法中的单词的音素序列中,将各个音素的置信度分值相结合以形成用于评估最可能单词匹配的累积置信度分值。在一个实施例中,如果所匹配的单词内的任何一个音素的识别置信度分值都低于所定的阈值(低置信度),则修改随后生成的用户提示以设法解决该问题。在另一个实施例中,具有预先定义的识别置信度特征的候选匹配音素的辨识包括辨识具有高于所定的阈值的识别置信度(高置信度)的音素,提示用户输入高置信度音素以避免或者克服语音识别问题。因此,置信度分值能够用于确定ASR系统不能高置信度地识别语言的哪个领域。因为特定音素的置信度分值可与引出口语输入的提示相关联地评估和记录,所以置信度分值还可以显示哪个用户提示导致低识别置信度分值。其后,用于生成用户提示的过程考虑每个音素的置信度分值以及每个单词(即音素序列)的置信度分值,以改编其用户提示用于改进的语音识别。可以为了目标语音识别训练而选择用户提示-生成引起具有低识别置信度分值的音素的输入的提示。可选择地,可以选择用户提示以鼓励用户输入除了难于识别的单词之外的单词或者短语-试图通过引起用户输入可选择的单词避免具有低识别置信度的音素。在呼叫者和ASR系统之间的多次交互中,对于第一应用操作要求第一个用户输入,对于第二应用操作要求随后的用户输入。根据本专利技术的一个方法评估与在第一个用户输入中的声音和在ASR系统的声学模型中的音素之间的显然的匹配相关联的置信度分值,然后,响应置信度分值而控制与随后要求的用户输入相关联的用户提示的应用生成。第一和第二应用操作可以是应用程序的任何两个不同的操作,诸如从分层菜单中连续选择的步骤,其中第一个和随后的用户输入用于指示从菜单中的选择。如上所述,一个实施例选择期望鼓励输入之前被辨识为具有低识别置信度分值的音素的用户提示-对目标识别训练制作ASR系统生成的用户提示。在一般用户与ASR系统交互期间,用户提示的选择可动态地实现,无需专门的特定呼叫者的训练期间。对于在呼叫者和ASR系统之间的功能交互的每个连续的步骤,可以修改用户提示。因为允许呼叫者进行下一个连续的步骤,因此该方法可以比如果要求呼叫者重复先前的输入的情况更有效也更少地阻扰呼叫者。一种解决方案引起呼叫者输入,该输入将包括低置信度音素的单词与一个或者多个之前以高置信度识别的单词相结合。上面还提到本专利技术的一个实施例,其中ASR系统选择期望鼓励输入具有高置信度匹配分值的单词或者阻止输入具有低置信度匹配分值的单词的用户提示。例如,ASR系统中的应用程序可以通过选择用户提示响应来自ASR系统的识别引擎的低置信度识别分值,其中该用户提示作为所要求的用户输入,指明之前以低置信度识别的单词的同义词或者其它可选择的单词。例如,如果呼叫者的“Yes/No”输入难于识别(低置信度匹配分值),那么可以提示呼叫者说“Correct”代替“Yes”,而保持该用户提示的其它部分不变。可以实现用户提示的其它定制。在另一个例子中,低置信度分值可以引发用更明确的条件指令(诸如“如果<条件A>,则说‘Yes please’,如果<条件B>,则说‘No’”)代替用户提示(诸如“如果<条件A>,则说‘Yes’”或者“你需要哪种服务?”),以引起来自呼叫者的更明确的响应。上述用户提示的选择、修改和定制在这里都被称为用户提示的“选择”。在另一个实施例中,识别语法可被重构或者识别引擎可被优化以响应所评估的识别性能。应用语法的这些变化可以基于在一段时期内对多个呼叫者所评估的音素置信度分值。因此,可以实现本专利技术以获取有关实际和潜在的声音混淆的信息,并可以使用该信息修改和改编ASR系统的性能。置信度分值模式可以用于生成用于改变声学模型(通过上述目标训练)或者使用同义词词典改变应用语法的建议。本专利技术的第二个方面提供一种自动语音识别(ASR)系统,其包括应用程序和语音识别引擎,其中语音识别引擎包括用于评估与在输入声音和声学模型中的音素之本文档来自技高网
...

【技术保护点】
一种用于控制自动语音识别(ASR)系统的操作的方法,包括以下步骤:将输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素;对各个候选匹配音素计算识别置信度分值;评估所述识别置信度分值,以辨识至少一个具有预定识别置信度特征的候选匹配音素;以及选择用于引出随后的用户输入的用户提示,其中所述选择取决于所辨识的至少一个音素和所辨识的至少一个音素的识别置信度特征。

【技术特征摘要】
GB 2004-12-1 0426347.11.一种用于控制自动语音识别(ASR)系统的操作的方法,包括以下步骤将输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素;对各个候选匹配音素计算识别置信度分值;评估所述识别置信度分值,以辨识至少一个具有预定识别置信度特征的候选匹配音素;以及选择用于引出随后的用户输入的用户提示,其中所述选择取决于所辨识的至少一个音素和所辨识的至少一个音素的识别置信度特征。2.如权利要求1所述的方法,用在ASR系统中,其中对于所述ASR系统的第一操作要求第一个用户输入,对于所述ASR系统的第二操作要求随后的用户输入,所述方法包括以下步骤评估作为所述第一个用户输入中的声音的候选匹配音素的音素的识别置信度分值;以及选择所述ASR系统的第二操作所要求的随后的用户输入的用户提示,其中所述选择取决于对所述第一个用户输入中的声音的候选匹配音素评估的识别置信度分值。3.如权利要求2所述的方法,其中,所述选择步骤包括选择至少一个用户提示以鼓励输入被识别为具有低置信度识别分值的音素。4.如权利要求3所述的方法,还包括以下步骤将随后的输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素;对所述候选匹配音素计算识别置信度分值;以及更新识别置信度分值,其联系所述第一个用户输入的识别置信度分值和随后的用户输入的识别置信度分值。5.如权利要求3所述的方法,其中,所述选择步骤包括将被识别为具有低识别置信度分值的具有可选的用户提示列表的音素与所期望的与所述可选的用户提示相关联的输入音素进行比较,以选择与所期望的输入音素相关联的输入提示,其中所期望的输入音素被识别为具有相对高的与其它音素混淆的可能性...

【专利技术属性】
技术研发人员:BJ皮克林TD波尔特尼BT斯塔尼福德M惠特伯恩
申请(专利权)人:纽昂斯通讯公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利