语音识别系统、语音识别方法以及语音识别程序技术方案

技术编号:3044923 阅读:175 留言:0更新日期:2012-04-11 18:40
通过对多路径语音识别的各路径进行并行处理,而能高速地进行语音识别。距离计算单元(111),将与语音特征量的时间序列数据相关的帧同步的所有声音模型和各帧的距离值写入到距离值缓存器(141)中。预测单元(121),从多个距离值缓存器(144~142)接收距离值,来计算各识别单位的优劣即预测值后,写入到预测值缓存器(142)中。单词串对照单元(131)从多个距离值缓存器(145)、预测值缓存器(153)~距离值缓存器(143)以及预测值缓存器(152)中接收信息,一边利用预测值适当选择取舍对照单词,一边帧同步地识别发声整体,生成识别结果。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及适用于例如高精度且高速的大语量连续的语音识别(Large Vocabulary Continuous Speech Recognition: LVCSR)的语音识别系统、语 音识别方法以及语音识别程序。10
技术介绍
如非专利文献1所述,近年来想要实现高精度且高速的LVCSR的试 验越来越盛行。在该LVCSR中,由于搜索空间非常大,因此搜索算法的 设计很重要。在该搜索算法中,广泛采用在搜索的过程中不仅考虑网格15 (trellis)上的节点的累计分数而且考虑该节点之后的累计分数(的推定值) 的预测的方法。将该技术相关的语音识别系统作为第一现有例,在图 5中表示。以下,基于该附图进行说明。第一现有例的语音识别系统700由数据处理装置710以及数据存储装 置720构成。数据存储装置720具备语音缓存器721和预测值缓存器722,20其中语音缓存器721存储有多帧的语音,预测值缓存器722保存有对存储 在语音缓存器721中的语音进行与语音相反的方向的处理后作成的语音的 预测值。数据处理装置710具备距离计算/预测单元711和距离计算/单词 串(word string)对照单元712,该距离计算/预测单元711作成上述预测 值后,将其保存到预测值缓存器722中,距离计算/单词串对照单元71225利用语音缓存器721以及预测值缓存器722的各值来进行通常的单词对照 处理。语音识别系统700按照以下那样工作。首先,距离计算/预测单元711 如下那样工作。等待直到所输入的语音特征量的时间序列数据被存储到语 音缓存器721为止,之后与时间逆序地对该语音进行处理,作成对各帧的 30预测值,将其存储到预测值缓存器722中。对语音缓存器721的处理结束后,对距离计算/单词串对照单元712通知该情况。接下来,距离计算/单词串对照单元712如下那样工作。参照语音缓存器721以及预测值缓存器 722来进行连续单词对照,并且语音缓存器721以及预测值缓冲器722内 的处理结束后,向距离计算/预测单元711通知该情况。之后,距离计算/ 5预测单元711再次等待直到语音缓存器721中存储数据为止,反复进行同 样的处理。连续单词对照结果被保持在距离计算/单词串对照单元712内, 在对所有的语音特征量进行了处理后的时刻输出结果。接下来,在图6中表示专利文献1中所记载的语音识别系统作为第二 现有例。以下,基于该附图进行说明。io 第二现有例的语音识别系统800具有由分析部801、多个单词电平处理器821 823和多个句子电平处理器861、 862所构成的三级处理部。通 过语音识别系统800,各单词电平处理器821 823以及各句子电平处理器 861、 862与输入到分析部801的语音信号同步地进行输入输出,即进行并 行处理,与所有处理由单一的处理器进行相比,能够使处理高速化。另外,15804为数据传输部,807为传输指示部,808为优先顺序变更部,831、 832、 833、 851、 852为FIFO。非专利文献1:大語彙連続音声認識Ot&0音素夕、',7〖;i基^5〈 仮説制限法O検討(用于大语量连续语音识别的基于音素图的假设限制法 的研究)情報処理学会論文誌(信息处理学会论文集vol.40) , No.4 199920年4月、堀贵明、冈直生、加藤正治、伊藤彰典、好田正纪。专利文献l:特开平4一232998号公报音声認識装置(语音识别装 置)。但是,第一现有例的问题在于,以一个处理单元逐次地进行处理,因 此面向嵌入式的低功率CPU的识别速度不足。如第二现有例那样用多个 25 处理单元进行处理,则能够期待高速化,但在第二现有例中以帧同步地进 行处理为前提。因此,在包括需要将多个帧储存在缓存器中后,与时间逆 序地进行处理的这种预测处理的第一现有例中,不能直接组合第二现有例 的技术。30
技术实现思路
在此,本专利技术的目的在于,提供一种通过实现相当于第一现有例的语 音识别系统的并行化从而可进行更高速的识别的语音识别系统等。图7表示作为本专利技术的前提的语音识别系统。以下,基于图7进行说明。该语音识别系统900由数据处理装置910以及数据存储装置920构成。 5 数据处理装置910具有距离计算单元911、只进行预测的预测单元912和 只进行单词对照的单词对照单元913。数据存储装置920具有可容纳多个 帧的距离值缓存器921以及预测值缓存器922各一个。距离计算单元911, 计算对所有声音模型的距离值,在后级的预测单元912以及单词串对照单 元913中不重新进行距离计算。但是,在这种语音识别系统900中,如图io8的时间图所示,只能同时进行一个处理。在此,本专利技术相关的语音识别系统的特征在于,具备距离计算单元, 其生成依次输入的语音特征量和各声音模型之间的距离值;预测单元,其 与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单 元已生成的距离值来生成预测值;和单词串对照单元,其与所述距离计算15单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并 行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成 的预测值来进行单词对照,生成识别结果。由此,由于三个单元能够并行 地执行处理,因此可进行高速的语音识别。例如,也可分别具备多个距离值缓存器和预测值缓存器,所述距离值20缓存器储存有由所述距离计算单元所生成的距离值,所述预测值缓存器储 存有由所述预测单元所生成的预测值,所述各距离值缓存器,由所述距离 计算单元写入所述距离值,之后由所述预测单元读出所述距离值,之后由所述单词串对照单元读出所述距离值,所述各预测值缓存器由所述预测单 元写入所述预测值,之后由所述单词串对照单元读出所述预测值,被所述25距离计算单元写入有所述距离值的所述距离值缓存器、被所述预测单元读 出所述距离值的所述距离值缓存器、以及被所述单词串对照单元读出所述 距离值的所述距离值缓存器分别不同,并且被所述预测单元写入有所述预 测值的所述预测值缓存器和被所述单词串对照单元读出所述预测值的所 述预测值缓存器分别不同。30 此外,所述距离计算单元还具备缓存器长度决定单元,其按照使所述距离计算单元、所述预测单元以及所述单词对照单元的处理量均匀的方 式,决定所述距离值缓存器或所述预测值缓存器的缓存器长度。此时,通 过缓存器长度决定单元,决定相对于速度最优的缓存器长度,因此识别速 度提高。5 进一步,可以还具备缓存器管理单元,其对所述距离计算单元、所述预测单元以及所述单词串对照单元的动作进行监视,在所述距离计算单 元,不再向所述距离值缓存器中写入所述距离值时,且所述预测单元以及 所述单词串对照单元从所述距离值缓存器读出了所有所述距离值时,并且 所述预测单元不再向所述预测值缓存器中写入所述预测值时,且所述单词10串对照单元从所述预测值缓存器读出了所有所述预测值时,将所述距离计 算单元在写入时采用的所述距离值缓存器用于所述预测单元的下一次读 出,将所述预测单元在读出时釆用的所述距离值缓存器用于所述单词串对 照单元的下一次读出,将所述单词串对照单元的读出时采用的所述距离值 缓存器用于所述距离计算单元的下一次写入,将所述预测单元在写入时采15用的所本文档来自技高网
...

【技术保护点】
一种语音识别系统,具备:    距离计算单元,其生成依次输入的语音特征量和各声音模型之间的距离值;    预测单元,其与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单元已生成的距离值来生成预测值;和    单词串对照单元,其与所述距离计算单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成的预测值来进行单词对照,生成识别结果。

【技术特征摘要】
【国外来华专利技术】JP 2005-1-17 008542/20051.一种语音识别系统,具备距离计算单元,其生成依次输入的语音特征量和各声音模型之间的距离值;预测单元,其与所述距离计算单元所进行的距离值的生成并行,采用由所述距离计算单元已生成的距离值来生成预测值;和单词串对照单元,其与所述距离计算单元所进行的距离值的生成以及所述预测单元所进行的预测值的生成并行,采用由所述距离计算单元已生成的距离值以及由所述预测单元已生成的预测值来进行单词对照,生成识别结果。2. 根据权利要求1所述的语音识别系统,其特征在于, 分别具备多个距离值缓存器和预测值缓存器,所述距离值缓存器储存15有由所述距离计算单元所生成的距离值,所述预测值缓存器储存有由所述 预测单元所生成的预测值,所述各距离值缓存器,进行写入来自所述距离计算单元的所述距离 值、将所述距离值读出到所述预测单元以及将所述距离值读出到所述单词 串对照单元的动作,20 所述各预测值缓存器,进行写入来自所述预测单元的所述预测值以及将所述预测值读出到所述单词串对照单元的动作,被写入来自所述距离计算单元的所述距离值的所述距离值缓存器、将所述距离值读出到所述预测单元的所述距离值缓存器和将所述距离值读出到所述单词串对照单元的所述距离值缓存器分别不同, 25 并且,被写入来自所述预测单元的所述预测值的所述预测值缓存器和将所述预测值读出到所述单词串对照单元的所述预测值缓存器分别不同。3. 根据权利要求2所述的语音识别系统,其特征在于,还具备缓存器长度决定单元,其按照使得所述距离计算单元、所述预 测单元以及所述单词对照单元的处理量均匀的方式,决定所述距离值缓存30器或所述预测值缓存器的缓存器长度。4. 根据权利要求2所述的语音识别系统,其特征在于, 具备缓存器管理单元, 所述缓存器管理单元具有下述功能对所述距离计算单元、所述预测单元以及所述单词串对照单元的动作 5进行监视;以所述距离计算单元,不需要再向所述距离值缓存器中写入所述距离 值,且所述预测单元以及所述单词串对照单元从所述距离值缓存器读出了 所有所述距离值,并且所述预测单元不需要再向所述预测值缓存器中写入 所述预测值,且所述单词串对照单元从所述预测值缓存器读出了所有所述10预测值作为条件,按照下述那样动作使所述距离计算单元在写入时采用 的所述距离值缓存器用于所述预测单元的下一次读出,使所述预测单元在 读出时采用的所述距离值缓存器用于所述单词串对照单元的下一次读出, 使所述单词串对照单元的读出时采用的所述距离值缓存器用于所述距离 计算单元的下一次写入,使所述预测单元在写入时采用的所述预测值缓存15器用于所述单词串对照单元的下一次读出,使所述单词串对照单元的读出 时采用的所述预测值缓存器用于所述预测单元的下一次写入。5. —种语音识别方法,具备距离计算步骤,生成依次输入的语音特征量和各声音模型之间的距离值; 预测步骤,与该距离计算步骤中的所述距离值的生成并行,采用由该距离计算步骤已生成的距离值来生成预测值;和单词串对照步骤,其与所述距离计算步骤中的所述距离值的生成以及 所述预测步骤中的所述预测值的生成并行,采用由所述距离计算步骤已生 成的距离值以及由所述预测步骤已生成的预测值来进行单词对照,生成识 别结果。6. 根据权利要求5所述的语音识别方法,其特征在于,分别采用多个距离值缓存器和预测值缓存器,所述距离值缓存器储存 有由所述距离计算步骤所生成的距离值,所述预测值缓存器储存有由所述 预测步骤所生成的预测值, 对所述距离值缓存器,并行运行所述距离计算步骤中的所述距离值的 写入、所述预测步骤中的所述距离值的读出和所述单词串对照步骤中的所 述距离值的...

【专利技术属性】
技术研发人员:石川晋也山端洁
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1