在语音识别中产生候选字串的方法技术

技术编号:3047159 阅读:254 留言:0更新日期:2012-04-11 18:40
一种在语音辨识中产生候选字串的方法,是以节点为基础,自词格或音节格位的复数个节点中搜寻候选字串,主要的作法是对每个节点求出会通过该节点的所有字串中所能够得到的最高字串分数,再使用排序动作将所有节点得到的最高字串分数进行排序,而能够得到候选字串,故不需要一一进行字串展开的动作,能达到既缩短运算时间又节省储存空间的目的,并且,后续模组亦可藉由此方法,控制其后续处理的时间及相对的辨识率。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术是关于一种,特别是关于一种以节点为基础而无须使用字串展开以得到候选字串的方法。按,目前的语音识别系统(speech recognition system)在为获得高度识别效果的考量下,语音识别模组往往不再只输出单一识别效果,而是提供多个可能的结果,以较丰富的资讯供后续处理模组从中挑选出一个最可能的结果做为最终的输出。因此,语音识别模组便需提供多个可能的结果供后续模组进行处理。故语音识别模组如何由一语音信号中产生出候选字串供后续模组进行处理,即成为发展语音系统的一个重要课题。美国专利USP5,241,619揭露一种候选字串的搜寻方法,其在进行语音信号与词汇的比对过程中,随时保留N条候选字串,当语音信号比对完毕,既可得到N条候选字串,此种方法必须在比对过程中,随时将上一个时间点所保留的N条候选字串做展开与修剪的动作。而假设词汇有M个,则如图6所示,一条字串的展开就可能会产生M条新字串,这些字串再配合修剪动作,由所有的展开字串中找出其中最可能的N条做为下个时间点展开的基础。因此,此种方法必须使用大量的储存空间来记录展开的字串资讯,另需随时进行排序动作,以保留最可能的N条字串。但此种方法会产生以下的缺点假设一个词汇有S个状态,则在同一个时间点就可能存在有S条内容相同但停留状态不同的字串,然而,当搜寻结束时,只有到达最后状态的字串是合法的,因此,最后得到的候选字串数目可能小于N。另一种候选字串的搜寻方法是使用两个阶段来产生候选字串,其中,第一阶段使用修正式维特比演算法(modified viterbi algorithm)自输入的语音信号中产生词格(word lattice),再于第二阶段配合堆叠结构(stack structure),籍由回溯第一阶段所产生的词格,进行候选字串的搜寻动作(参照美国专利USP5,805,772-”System,methods and architectures ofmanufacture for performing high resolution N-best string hypothesization”以及附件一F.K.Soong and E.F.Huang,”A tree-trellis based fast search forfinding the N best srntence hypotheses in continuous speech recognition”,ICASSP′91,pp.705-708,1991)。此种方法必须不断使用堆叠运算(stackoperation)的推入(push)及取出(pop)动作,以将可能的字串做展开,才能获得可能的候选字串,因此,将耗掉大量的时间在字串的展开动作上。第三种候选字串的搜寻方法是类似上述的方法,亦使用两个阶段来产生候选字串,但在第一阶段使用中文的408个基本音节(basesyllable)做为识别单位,产生音节格位(syllable lattice),而在第二阶段的回溯动作不单单只取第一名的音节节点,而是取前几名经过音框正规化后的音节节点资料,配合堆叠结构进行回溯,以产生多种候选字串的输出(参考附件二E.F.Huang and H.C.Wang,”An efficient algorithm forsyllable hypothesizaton in continuous Mandarin speech recognition”IEEEtransactions on speech and audio processing,pp.446-449,1994)。第四种候选字串的搜寻方法亦是以两个阶段动作来产生候选字串的方式,其第一阶段使用一个词图演算法来完成(参考附件三S.Ortmanns,H.Ney,and X.Aubert,“A word graph algorithm for large vocabularycontinuous speech recognition”,Computer Speech and Language,pp.43-72,1997),除了由语音信号产生词格之外,同时也得到一条最可能的字串。第二阶段再根据这条最可能的字串中的各个节点进行其他字串的搜寻。为了储存空间以及重复词汇输出上的考虑,输出的结果是记录在一个树状结构中(参考美国专利USP5,987,409“Method of and apparatus forderiving a plurality of sequences of words from a speech signal”)。上述四种候选字串的搜寻方法的不同点在于如何进行字串展开的动作上。但基本上,前述方法都是以字串展开的方式进行搜寻,然而,此种展开的动作除了需要相当大的储存空间以记录各种可能的这组合字串之外,也会花费相当长的比对运算时间,此将导致语音系统的效能不明显,故而仍有予以改进的必要。本创作人本于积极专利技术的精神,亟思一种可以解决上述问题的“在语音识别产生候选字串的方法”,几经研究实验终至完成此项新颖进步的专利技术。本专利技术的目的是在提供一种在语音识别中快速产生候选字串的方法,籍由以节点为基础而无须使用字串的展开,可快速地搜寻而得到候选字串。为达前述的目的,本专利技术的方法是用以自词格或音节格位中的复数个节点中搜寻候选字串,其首先计算通过每一节点所有的字串的最高字串分数;其次,根据该最高字串分数对所有节点进行排序,以将具有相同字串分数的节点集合成为一节点集合;最后自所产生的所有节点集合中,选取前复数个具有较高字串分数的节点集合,以在该等节点集合内依照各节点的起始、截止时间进行接续,以便产生上述候选字串。其中,于步骤(C)中,对于一个无法由各自的节点集合中的节点接续出完整字串的节点集合,则使用比该字串分数高的节点集合中的节点来进行字串的接续,以产生一候选字串。其中,于步骤(A)中,是在节点前方及后方分别设定两个虚节点,由该两个虚节点做为起点进行巡回搜寻,而将由节点的起始时间点开始搜寻至句尾所能得到的最高字串分数记录在一前向分数阵列的元素中,及将由节点的截止时间点开始搜寻至句首所能得到的最高部分字串分数记录在一后向分数阵列的元素中,以便在求取通过某一节点的字串分数时,仅需由该两阵列中查出接续该节点的起始时间点及截止时间点的最高部分字串分数既可。其中,该前向分数阵列的每一元素并记录有一用来代表所记录的部分字串分数是使用那一个节点所得到的节点索引。其中,该后向分数阵列的每一元素并记录有一用来代表所记录的部分字串分数是使用那一个节点所得到的节点索引。其中,对应无法由一个节点集合接续出完整的节点则可参考节点索引,依照索引所得到的节点进行字串的接续,以产生一候选字串。其中,每一节点包括了所对应语音信号的词汇或音节内容、起始时间点、截止时间点以及分数。其中,步骤(C)中所产生的候选字串是由一后级处理做选择性的控制。其中,前述候选字串是由词格中的复数节点所接续而成。其中,前述候选字串是由音节格位中的复数节点所接续而成。其中,每一节点包括了所对应语音信号的词汇内容、起始时间点、截止时间点以及分数。其中,每一节点包括了所对应语音信号的音节内容、起始时间点、截止时间点以及分数。本文档来自技高网...

【技术保护点】
一种在语音识别中产生至少一个候选字串的方法,其中,上述候选字串是由复数个节点所连接而成,一候选字串的字串分数是为构成该候选字串的节点的分数的总和,其特征在于,该方法包括下述步骤: (A)计算通过每一个节点所有可能的字串中的最高字串分数; (B)据该最高字串分数对所有节点进行排序,以将具有相同字串分数的节点集合成为一节点集合;以及 (C)自步骤(B)中所产生的所有节点集合中,选取前复数个具有较高字串分数的节点集合,以在该等节点集合内依照各节点的起始、截止时间进行接续,以便产生上述候选字串。

【技术特征摘要】
【国外来华专利技术】1.一种在语音识别中产生至少一个候选字串的方法,其中,上述候选字串是由复数个节点所连接而成,一候选字串的字串分数是为构成该候选字串的节点的分数的总和,其特征在于,该方法包括下述步骤(A)计算通过每一个节点所有可能的字串中的最高字串分数;(B)据该最高字串分数对所有节点进行排序,以将具有相同字串分数的节点集合成为一节点集合;以及(C)自步骤(B)中所产生的所有节点集合中,选取前复数个具有较高字串分数的节点集合,以在该等节点集合内依照各节点的起始、截止时间进行接续,以便产生上述候选字串。2.根据权利要求1所述的在语音识别中产生至少一个候选字串的方法,其特征在于,其中,于步骤(C)中,对于一个无法由各自的节点集合中的节点接续出完整字串的节点集合,则使用比该字串分数高的节点集合中的节点来进行字串的接续,以产生一候选字串。3.根据权利要求1所述的在语音识别中产生至少一个候选字串的方法,其特征在于,其中,于步骤(A)中,是在节点前方及后方分别设定两个虚节点,由该两个虚节点做为起点进行巡回搜寻,而将由节点的起始时间点开始搜寻至句尾所能得到的最高字串分数记录在一前向分数阵列的元素中,及将由节点的截止时间点开始搜寻至句首所能得到的最高部分字串分数记录在一后向分数阵列的元素中,以便在求取通过某一节点的字串分数时,仅需由该两阵列中查出接续该节点的起始时间点及截止时间点的最高部分字串分数既可。4.根据权利要求3所述的在语音识别中产生至少一个候选字串的方法,其特征在于,其中,该前向分数阵列的每一元素并记录有一...

【专利技术属性】
技术研发人员:简世杰张森嘉
申请(专利权)人:财团法人工业技术研究院
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1