用于自动语音识别的方法和装置制造方法及图纸

技术编号：3045867 阅读：190 留言：0更新日期：2012-04-11 18:40

一种自动语音识别（ＡＳＲ）系统，包括语音－响应应用程序和语音识别引擎。ＡＳＲ系统生成用户提示以引出某些口语输入，当口语输入被识别时，语音－响应应用程序执行操作。识别引擎将输入音频信号中的声音与声学模型中的音素进行比较，以辨识候选匹配音素。对每个候选匹配音素计算识别置信度分值，置信度分值用于帮助辨识一个或者多个可能的匹配音素序列，该序列似乎匹配语音－响应应用程序的语法中的单词。根据预先定义的置信度分值标准（例如，低于“低置信度”阈值的辨识分值）评估每个音素的置信度分值，评估的结果用于影响随后的用户提示的选择。一种这样的系统使用置信度分值选择用于目标识别训练的提示－鼓励输入被识别为具有低置信度识别分值的音素。另一个系统选择提示以阻止输入不容易被识别的声音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术提供用于自动语音识别的方法和装置。
技术介绍
自动语音识别(ASR)系统采用音频信号作为输入，并通常将输入信号与声学模型(AM)的已知声音(音素)和声音序列(轨迹)相比较，以辨识似乎匹配声音的口语序列的单词。在辨识了对应输入音频信号的一个或者多个单词后，所辨识的匹配单词的文本或者其它机器可读形式由ASR返回到诸如交互式语音应答(IVR)电话应用程序的应用程序。可随每个显然匹配的单词返回置信度分值，该置信度分值基于引入的语音片断与和ASR系统的声学模型中的音素相关联的平均概率分布的紧密度。可以返回多个可能的单词及其各自的置信度分值，用于选择或者进一步的分析。典型的自动语音识别(ASR)系统需要单个用户(与说话者有关的)或者多个用户(与说话者无关的)的相当大的训练数据，以使ASR系统的识别引擎能够学习将声音输入与语言的相应的声音(音素标签)相关联。当在实际的应用中使用时，诸如自动电话服务，ASR系统辨识的声音序列也必须匹配特定应用语法，其预先定义了所期望的单词和短语。如果ASR系统训练了足够的数据，并且如果语法覆盖所有可能的单词和短语，那么识别精度会很高。然而，特定语言中的单个声音可能很容易混淆，诸如英语中的“F”和“S”。这样的声音经常出现在应用语法的单词中。在这种情况下，识别精度会降低。在大多数自动服务中，通常的做法是使用ASR询问用户，以确认ASR结果是否正确。如果没有返回结果，则可要求呼叫者重复没有被识别的单词。例如，呼叫者可说出他们想要联系的人的名字“Stephen James”。如果合成语音响应包括不同的名字，诸如“您是说‘Peter...

【技术保护点】
一种用于控制自动语音识别（ＡＳＲ）系统的操作的方法，包括以下步骤：将输入音频信号中的声音与声学模型中的音素进行比较，以辨识候选匹配音素；对各个候选匹配音素计算识别置信度分值；评估所述识别置信度分值，以辨识至少一个具有预定识别置信度特征的候选匹配音素；以及选择用于引出随后的用户输入的用户提示，其中所述选择取决于所辨识的至少一个音素和所辨识的至少一个音素的识别置信度特征。

【技术特征摘要】
GB 2004-12-1 0426347.11.一种用于控制自动语音识别(ASR)系统的操作的方法，包括以下步骤将输入音频信号中的声音与声学模型中的音素进行比较，以辨识候选匹配音素；对各个候选匹配音素计算识别置信度分值；评估所述识别置信度分值，以辨识至少一个具有预定识别置信度特征的候选匹配音素；以及选择用于引出随后的用户输入的用户提示，其中所述选择取决于所辨识的至少一个音素和所辨识的至少一个音素的识别置信度特征。2.如权利要求1所述的方法，用在ASR系统中，其中对于所述ASR系统的第一操作要求第一个用户输入，对于所述ASR系统的第二操作要求随后的用户输入，所述方法包括以下步骤评估作为所述第一个用户输入中的声音的候选匹配音素的音素的识别置信度分值；以及选择所述ASR系统的第二操作所要求的随后的用户输入的用户提示，其中所述选择取决于对所述第一个用户输入中的声音的候选匹配音素评估的识别置信度分值。3.如权利要求2所述的方法，其中，所述选择步骤包括选择至少一个用户提示以鼓励输入被识别为具有低置信度识别分值的音素。4.如权利要求3所述的方法，还包括以下步骤将随后的输入音频信号中的声音与声学模型中的音素进行比较，以辨识候选匹配音素；对所述候选匹配音素计算识别置信度分值；以及更新识别置信度分值，其联系所述第一个用户输入的识别置信度分值和随后的用户输入的识别置信度分值。5.如权利要求3所述的方法，其中，所述选择步骤包括将被识别为具有低识别置信度分值的具有可选的用户提示列表的音素与所期望的与所述可选的用户提示相关联的输入音素进行比较，以选择与所期望的输入音素相关联的输入提示，其中所期望的输入音素被识别为具有相对高的与其它音素混淆的可能性...

【专利技术属性】
技术研发人员：BJ皮克林，TD波尔特尼，BT斯塔尼福德，M惠特伯恩，
申请(专利权)人：纽昂斯通讯公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人