【技术实现步骤摘要】
本专利技术提出一中文词音的快速识别方法。此方法为基于隐藏式马可夫模型的一种改良识别方法。随着计算机技术的进步与普及,许多用语音识别技术作为产品开发策略的主张也跟着被提出及试行。虽然经过多方面的努力,语音识别仍被认为是在人工智能及计算机科技上较难处理的问题。用语音作为输入的方式有许多好处,它提供了自然、快速、免于用手、眼,而且可不拘于场所的一种输入介面。对中文而言,语音输入提供了更具吸引力的条件,因为中文的文字输入比起拼音式的文字,譬如英文要困难得多。然而目前仍存在一些障碍,包括成本高、反应不够迅速、需要训练、在噪音环境、说话速度不定,以及音量大小变化的情况下,功能仍不够稳定,对不成文法的话语(nongrammatical speech)仍缺乏处理的能力等等。此外,中文语音中声母(相当于英文中的辅音)的混淆使得前述的问题更为严重。有好几种在识别率上表现得相当准确的语音识别方法曾被提出。这些方法包括NTT Itakura所提的非线性对齐的动态时间标准法,Carnegie-Mellon大学的DRAGON系统(将语音规律的知识化成随机模型stochasticmodelling),Carnegie-Mellon大学的HAPPY系统(结合了DRAGON及HEARSAY的优点,并用网路表示法及光束搜寻法以改善搜寻效率),BellLab的Wilpon系统,(用聚集技术建立较强健的非特定语者词音识别参考模版),Carnegie-Mellon大学的FEATURE系统(使用与语者无关的特征免用文法规则可将英文字母的识别率提升90%以上)。IBM的Tangora系统(可识别 ...
【技术保护点】
一种中文词音识别方法,包括以下的步骤: (a)取得第一组数据库,其中该第一组数据库包括一组含N个中文词的词汇集,此词汇集以W={W↓[1],W↓[2],…,W↓[N]}表示,每个词W↓[i]有个发声模型M↓[i],此模型由字音模型串接而成,字音模型的集合以{C↓[1],C↓[2],C↓[3]…}表示,每个字音模型C↓[i]是由声母模型后接一韵母模型形成,其中声母模型可能空缺,声母模型及韵母模型均以统计模型表示; (b)取得第二组数据库,其中该第二组数据库包括一组J个声母模型m↑[I]↓[j](j=1,2,…,J)及另一组K个韵母模型m↓[k]↑[F](k=1,2,…,K); (c)接收一输入语音信号A; (d)将输入语音信号切割成l个段落(segment),其中该l为一整数,而输入语音信号可以以下式表示 A=([s↓[1]↑[I]]s↓[1]↑[F])([s↓[2]↑[I]]s↓[2]↑[F])…([s↓[l]↑[I]]s↓[l]↑[F]) 其中s↓[i]↑[I](i=1,2,…,l)为声母子段落,而s↓[i]↑[F](i=1,2,…l)为韵母子段落 ...
【技术特征摘要】
1.一种中文词音识别方法,包括以下的步骤(a)取得第一组数据库,其中该第一组数据库包括一组含N个中文词的词汇集,此词汇集以W={W1,W2,...,WN}表示,每个词Wi有个发声模型Mi,此模型由字音模型串接而成,字音模型的集合以{C1,C2,C3…}表示,每个字音模型Ci是由声母模型后接一韵母模型形成,其中声母模型可能空缺,声母模型及韵母模型均以统计模型表示;(b)取得第二组数据库,其中该第二组数据库包括一组J个声母模型mjI(j=1,2,...,J)及另一组K个韵母模型mkF(k=1,2,...,K);(c)接收一输入语音信号A;(d)将输入语音信号切割成l个段落(segment),其中该l为一整数,而输入语音信号可以以下式表示A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中siI(i=1,2,...,l)为声母子段落,而siF(i=1,2,...l)为韵母子段落,[ ]表示有些声母子段落可能为空段落;(e)对词汇W中的每一个词长为l的词Wn,此词的发声模型为Mn=([mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F),由下式计算logProb(Wn),logProb(Wn)=Σr=1l(logProb(srI|mnrI)+logProb(srF|mnrF));]]>(f)在词汇W中找X个词,这些词的logProb(Wn)值在词汇W中的所有词的logProb(Wn)值中为前X个最大值,设这些X个词的集合为W’;(g)对每个在词汇W’内的词Wn,计算Prob(A|Mn)(n=1,2,…,X),即在已知Mn模型下产生A的概率;及(h)输出识别出的词Wx,其中x=argMnax(Prob(A|Mn))----n=1,2...,X.]]>2.如权利要求1所述的方法,其中声母模型与韵母模型均用隐藏式马可夫模型表示。3.如权利要求1所述的方法,其中输入语音信号采用Viterbi算法进行切割。4.如权利要求1所述的方法,其中包括用不同的词长l重复步骤(d)及(e)。5.如权利要求4所述的方法,其中所述不同的词长l分别为2,3及4。6.如权利要求1所述的方法,其中X是个等于或大于10的整数。7.如权利要求1所述的方法,其中X是个整数,且至少是N的2%。8.一种中文词音识别装置,包含(a)取得第一组数据库的装置,其中该第一组数据库包括一组含N个中文词的词汇集,此词汇集以W={W1,W2,…WN}表示,每个词Wi有个发声模型Mi,此模型由字音模型串接而成,字音模型的集合以{C1,C2,C3…}表示,每个字音模型Ci是由声母模型后接一韵母模型形成,其中声母模型可能空缺,声母模型及韵母模型均以统计模型表示;(b)取得第二组数据库的装置,其中该第二组数据库包括一组J个声母模型mjI(i=1,2,...,J)及另一组K个韵母模型mkF(k=1,2,...K);(c)接收一输入语音信号A的装置;(d)将输入语音信号切割成l个段落的装置,其中该l为一整数,而输入语音信号可以以下式表示A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中sjI(i=1,2,...,l)为声母子段落,而siF(i=1,2,...l)为韵母子段落,[ ]表示有些声母子段落可能为空段落;(e)对词汇W中的每一个词长为l的词Wn,此词的发声模型为Mn=([mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F),由下式计算logProb(Wn)的装...
【专利技术属性】
技术研发人员:彭吴忠谋,
申请(专利权)人:财团法人工业技术研究院,
类型:发明
国别省市:71[中国|台湾]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。