产生词语确认临界值的装置、方法及系统制造方法及图纸

技术编号:5964434 阅读:238 留言:0更新日期:2012-04-11 18:40
一种产生词语确认临界值的装置、方法及系统。当处理辨识目标确定之后,即可依照预期词语确认效果得到一建议临界值,除此之外,无须额外收集语料或训练模型。首先,计算至少一个语音单元所对应的一个或多个数值数据。而后,当接收至少一语音单元序列,并接收此语音单元序列中每一语音单元所对应的该或这些数值数据,并且据以组合成语音单元序列所对应的数值分布。根据一预期语词确认效果与该数值分布,产生一建议临界值输出。

【技术实现步骤摘要】

本专利技术涉及一种语音辨识系统,且特别涉及一种适用于语音辨识系统的词语确认 临界值产生装置与方法。
技术介绍
词语确认(或称为词语验证,utterance verification)功能是语音辨识系统中 不可或缺的一部分,其能够有效的拒绝集合外词汇(Out of vocabulary)所造成的辨识误 动作产生。而现今的词语确认演算法在计算出一词语确认分数后,会与一临界值相比对,当 分数超越临界值时代表词语确认成功,反之代表确认失败。在实际的应用中,可通过额外收 集语料并针对预期的确认效果分析出最佳的临界值,而大部分的解决方案也都是针对这样 的架构试图找出最好的语词确认效果。例如图IA所示,传统的语音辨识系统包括语音辨识引擎110与语词确认器120。 在接收到语音指令输入时,例如收到电视、电影或是音乐播放的要求,或是非语音输入的指 令,例如电灯或是游戏的操作等等,语音辨识引擎110会根据辨识指令集112与语音模型 114进行判断。在此辨识指令集112是针对电视、电影或是音乐播放要求动作的指令进行判 断,而语音模型114则是提供针对这些动作的指令所建立的语音模型给语音辨识引擎110 作为判断的依据。而辨识的结果将输出到语词确认器120,经过计算后得到一个信心分数, 并且将对应语音输入的信心分数与一临界值进行比较,如130所示的判断步骤。当信心分 数大于临界值时,也就是语音输入的要求是属于辨识指令集112内的指令,则会做出对应 的反应,例如输入电视、电影或是音乐播放等等。但若是语音输入并非属于辨识指令集112 内的指令时,例如电灯或是游戏的操作,则不会做出对应的反应。而临界值的产生,请参照图IB所示,是针对辨识指令集112内的指令,收集大量的 语音数据进行分析后产生最佳的临界值,如指令集1产生最佳临界值1,而指令集2则是产 生最佳临界值2。而这些语音数据都是通过大量的人工输入方式进行,因此,当辨识词汇改 变,上述工作就必须重复进行一次。而另外,当原来设定的临界值不如预期时,另一个方式 是将此临界值让使用者自行调整,如图IC所示,可调高或是调低临界值,以便找出最满意 的设定点。上述的方式,会限制语音辨识系统的运用范围,而使其实用度大大地降低。例如, 此语音辨识系统若是运用在某些嵌入式系统当中时,例如系统单芯片(System-on-a-chip, 简称SoC),在考虑成本的问题无法设计临界值调整的方式,这样的问题就必须解决。例如图 2所示,当集成电路(IC)供应商提供具有语音辨识功能的IC给系统制造商时,系统制造商 将这些具有语音辨识功能的IC整合到嵌入式系统中。在这样的架构下,除非从IC供应商 进行临界值的调整后再重新出货给系统制造商,否则将面临无法调整临界值的问题。在许多关于词语确认系统的专利中,关于讨论临界值调整的解决方案,如以下美 国专利所述。在美国第5,675,706号专利中提出一种“VocabularyIndependentDiscriminative Utterance Verification For Non-Keyword Rejection In SubwordBased Speech Recognition”,在此专利中所公开的内容中,临界值是一个预先定 义好的数值,而此数值的改变将牵扯到两种错误,包括错误接受率(False Alarm Rate)与 错误拒绝率(False Reject Rate)的变化,系统设计者得自行调整并从中找到权衡之处。而 本申请的方法是根据至少一个辨识目标与一预期词语确认效果(如错误接受率或错误拒 绝率),接着得到对应的该确认效果的临界值,并非由使用者进行手动调整。而另一美国第5,737,489号专利中提出一种“Discriminative UtteranceVerification For Connected Digits Recognition,,,进一步提至Ij此临界值可通 过线上搜集数据的方式动态计算出来,解决当辨识环境改变时,临界值的设定问题。此文件 虽然有提到临界值的计算方式,不过此文件里线上搜集的方式是指在语音辨识与词语确认 系统运作当中,通过新环境的测试数据先经过语音辨识得到辨识结果,再对其分析后针对 先前预设的词语确认临界值进行更新的动作。综合许多在先文件的说明,发现通过额外的数据搜集与分析找到最佳的临界值, 是最常见到的作法;其次便是将临界值开放给使用者自行调整。但上述的方法都不外乎通 过新环境的测试数据先经过语音辨识得到辨识结果,再对其分析后针对先前预设的词语确 认临界值进行更新的动作。
技术实现思路
本专利技术提供一种词语确认临界值产生装置,适用于一语音辨识系统。此词语确认 临界值产生装置包括一数值计算模块、一目标分数产生器与一临界值决定器。此数值计算 模块用以计算并存储多个辨识目标所对应的多个数值数据。目标分数产生器至少接收其中 一个辨识目标所组成的一语音单元序列,并从数值计算模块中选取此语音单元序列所对应 的数值数据组成至少一数值分布。而临界值决定器,用以接收上述的数值分布,并根据一预 期语词确认效果与数值分布,产生一建议临界值输出。本专利技术提供一种词语确认临界值产生方法,适用于一语音辨识系统。在此方法中, 计算并存储多个辨识目标所对应的多个数值数据。在接收至少其中一个辨识目标所组成的 语音单元序列,并选取此语音单元序列所对应的数值数据组成数值分布。根据一预期语词 确认效果与此数值分布,产生一建议临界值输出。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详 细说明如下。附图说明图IA是说明传统语音辨识系统的系统架构示意图。图IB与IC为说明图IA的语音辨识系统中临界值的产生或调整方法示意图。图2是说明具有语音辨识功能的IC的从制造商到系统整合业者的处理流程示意 简图。图3是说明本实施例所提出自动计算词语确认临界值的方法示意图。图4A是说明本专利技术一实施例的语音辨识系统方块示意图。图4B是词语确认器针对语词所进行的假设检定方法说明示意图。图5是说明本专利技术词语确认临界值产生器的方块示意图。图6A是说明本专利技术一实施例的数值计算模块的实施范例的方块示意图,而图6B 为一产生数值的示意图。图7是说明存储在语音单元分数统计数据库内的数据如何运用在假设检定方法 的示意图。图8A 图8E图示是说明本实施例所提出自动计算词语确认临界值方法的验证图7J\ ο主要元件符号说明110语音辨识引擎120词语确认器112辨识指令集114语音模型310指令集320自动分析工具400语音辨识系统410语音辨识器420辨识目标存储单元430语词确认临界值产生器440语词确认器510辨识目标520字转音处理器530数值计算模块540目标分数产生器550临界值决定器560预期语词确认效果600数值计算模块602语音数据610切音处理器620语音单元分数产生器630切音模型640词语确认模型650语音单元分数统计数据库652语音单元“〈”的正向模型654语音单元“〈”的反向模型具体实施例方式本实施例提出一个计算词语确认临界值的方法,当辨识目标确定之后,即可依照 预期词语确认效果得到一建议临界值,除此之外,无须额外收集语料或训练模型。请参照图3,当辨识的本文档来自技高网
...

【技术保护点】
1.一种产生词语确认临界值的装置,该装置包括:一数值计算模块,用以计算产生至少一个语音单元所对应的一个或多个数值数据;一目标分数产生器,接收至少一语音单元序列,并从该数值计算模块中,取出该语音单元序列中每一语音单元所对应的该或这些数值数据,并且据以组合成该语音单元序列所对应的该或这些数值分布;以及一临界值决定器,连接到该目标分数产生器,用以接收该或这些数值分布,并根据一预期语词确认效果与该或这些数值分布,产生一建议临界值输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:林政贤张森嘉邱祺添
申请(专利权)人:财团法人工业技术研究院
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1