语音识别装置及语音识别方法制造方法及图纸

技术编号:3045104 阅读:136 留言:0更新日期:2012-04-11 18:40
语音识别装置、语音识别方法及存储语音识别程序的记录介质。一种语音识别装置,用于识别包含在语音中的多个连续关联的单词,该装置包括:声学模型读取部分,用于读取声学模型;字典管理部分,用于从字典数据中读取所需数据;和识别部分,用于利用所述声学模型,通过将由字典数据表示的一组单词与所输入的语音进行匹配来连续识别所述多个连续单词,其中,所述字典数据包括表示单词起始部分的起始部分字典和存储有表示结尾部分的数据的一组结尾部分字典,根据所述识别部分识别的所述单词来读取所述结尾部分字典和/或所述起始部分字典,并且当所述字典管理部分读取所述结尾部分字典和/或所述起始部分字典时,所述识别部分将后续语音与包含在所述起始部分字典内的单词起始部分进行匹配。由此,所述语音识别装置可消除由于从对存储器有所限制的设备内的辅助存储装置中读取单词字典所造成的语音识别处理中的延迟。

【技术实现步骤摘要】

本专利技术涉及用于识别用户说出的连续的多个单词的语音识别装置、语音识别方法以及语音识别程序。
技术介绍
在主存储装置(主存储器(以下称为“存储器”))内布置有语音识别装置,其中中央处理器(CPU)可直接读取或写入包含大量单词的词典数据,从而用于语音识别处理。在常规的语音识别装置中,将词典分成多个文件并记录到辅助存储装置(例如HDD、DVD或ROM)中,仅将所需文件从辅助存储装置读取到用于识别处理的存储器。这样可以削减(suppress)要用于语音识别处理的存储器的容量。但是,在将词典数据从辅助存储装置读取(加载)到存储器的过程中,识别处理不能继续进行。这会导致语音识别处理中的延迟。例如,在地址识别装置中,将辖区名字典和城市名字典分别作为文件记录到辅助存储装置中。当对其中依次说出辖区名和城市名(例如,“AICHIKEN”,“NAGOYASHI”)的语音进行识别时,地址识别装置识别出辖区名“AICHIKEN”,并且随后将对应于该辖区名的城市名字典读取到存储器。在读取该城市名字典的过程中,地址识别装置不能继续进行识别处理,直到读取完成为止。因此,在地址识别处理中会造成延迟。已经提出一种采取措施克服这种延迟的语音识别装置(参见,例如,JP2002-268673A)。在从诸如DVD的辅助存储装置中读取字典数据的过程中,语音识别装置利用提前从RAM读取的匹配数据执行匹配处理。将读取的字典数据记录到延迟匹配数据记录装置中,并在完成读取之后,执行利用该延迟匹配数据记录装置内记录的数据的匹配处理。在此之后,合并延迟匹配数据和匹配数据。但是,上述语音识别装置需要将匹配过程中的结果与具有延迟的匹配之后所得到的结果进行合并。因此,就需要一种方法,该方法用于通过与上述语音识别装置的方法不同的方法,来减少由于从辅助存储装置中读取字典数据的等待时间所造成的处理中的延迟。
技术实现思路
因此,基于上述想法,本专利技术的目的是提供一种能够减少由从辅助存储装置读取字典数据的等待时间所造成的语音识别处理中的延迟的语音识别装置,语音识别程序和语音识别方法。根据本专利技术的语音识别装置对输入的语音中所包含的多个连续关联的单词进行识别,并且输出其识别结果。该语音识别装置包括声学模型读取部分,用于将预先记录在辅存储装置内的声学模型读入主存储装置内;字典管理部分,用于将包括起始部分字典、结尾部分字典、词序数据和对应关系数据的字典数据从辅助存储装置读取到主存储装置,其中起始部分字典表示作为要识别的单词的候选项(candidate)的一组单词的起始部分,结尾部分字典表示该组单词的结尾部分,词序数据表示单词顺序,对应关系数据表示起始部分字典和结尾部分字典之间的对应关系;和识别部分,利用读入主存储装置内的声学模型和对应数据,通过将由读入主存储装置内的起始部分字典和结尾部分字典表示的该组单词与所输入的语音进行匹配,对在所输入的语音内包含的多个连续关联的单词进行依次识别。该字典数据包括至少一个起始部分字典,其存储有表示多个单词的起始部分的数据;和一组结尾部分字典,其将表示与由起始部分字典表示的一组起始部分对应的一组结尾部分的数据作为多个结尾部分字典存储进行存储。字典管理部分将词序数据和起始部分字典(其包含要作为输入语音内包含的多个单词中的至少一个单词的候选项的一组单词的起始部分)读入主存储装置内,并且在该识别部分正利用读入主存储装置内的起始部分字典对单词进行识别时,基于该词序数据读取结尾部分字典和/或起始部分字典。辅助存储装置是声学模型读取部分、字典管理部分和识别部分不能针对其进行高速读取或写入的存储设备,辅助存储装置的示例包括硬盘、DVD、MO、CD、软盘、磁带和ROM。也可以将辅助存储装置称为外部存储设备。字典管理部分或声学模型读取部分读数据的操作指的是将记录到辅助存储装置内的数据加载到主存储装置(主存储器,以下仅称为“存储器”)的操作。该存储器是声学模型读取部分、字典管理部分和识别部分能够针对其直接和快速地进行读取或写入数据的存储器。作为存储器,例如,采用利用半导体装置电式记录数据的记录介质。存储器的示例包括RAM。起始部分字典包括以逻辑组织的方式记录的表示多个单词的起始部分的数据。结尾部分字典包括以逻辑组织的方式记录的表示多个单词的结尾部分的数据。例如,一个起始部分字典或一个结尾部分字典可以由一个文件构成或者可以由数据库内的一个表构成。另选地,例如,一个文件可以包括多个起始部分字典或结尾部分字典。字典管理部分将词序数据和起始部分字典读入存储器内,其中该起始部分字典包括一组单词的起始部分,这组单词是在所输入的语音中包含的多个单词中的至少一个单词的候选项。因此,识别部分可将与在所输入的语音内包括的多个单词的起始部分对应的部分与存储器的起始部分字典进行匹配。在识别部分正对单词的起始部分进行识别时,字典管理部分可基于词序数据读取结尾部分字典或起始部分字典。这就减少了由于为了进行语音识别而从辅助存储装置中读取字典数据所造成的语音识别处理中的延迟。尤其是,在其中由于对存储器的限制而不能将用于语音识别的所有字典数据都记录到主存储装置上的语音识别装置中,可减少由于从辅助存储装置中读取字典数据所造成的语音识别处理中的延迟。在根据本专利技术的语音识别装置中,以下情况是优选的。起始部分字典存储关于一整组单词(其作为要识别的多个连续关联的单词的候选项)的起始部分。在识别部分开始识别所输入的语音之前,字典管理部分读取一组单词(其作为在所述语音中包含的多个单词中的第一个单词的候选项)的起始部分字典和结尾部分字典。当识别部分识别第N(N=1,2,3,…)个单词时,字典管理部分基于第N个单词和词序数据,从多个结尾部分字典中选择包括作为第(N+1)个单词的候选项的一组单词的结尾部分的结尾部分字典,并开始读取。在读取过程中,识别部分利用起始部分字典对第(N+1)个单词的起始部分进行识别。起始部分字典存储关于一整组单词(其作为要识别的多个连续的单词的候选项)的起始部分。因此,当字典管理部分基于第N个单词和词序数据,正进行读取包含作为第(N+1)个单词的候选项的一组单词的结尾部分字典时,识别部分可利用起始部分字典识别第(N+1)个单词。因此,字典管理部分可根据由识别部分识别的单词,在适当时机读取所需的结尾部分字典。因此,在削减存储器上的结尾部分字典内数据量的同时,可执行有效的语音识别。在根据本专利技术的语音识别装置中,优选地,在识别部分开始识别之前,字典管理部分读取结尾部分字典(其包括作为在所输入的语音中包含的多个单词中的第一个单词的候选项的一组单词的结尾部分)和起始部分字典(其包括作为第一和第二个单词的候选项的一组单词的起始部分),当识别部分识别第N(N=1,2,3,…)个单词时,字典管理部分读取包括作为第(N+1)个单词的候选项的一组单词的结尾部分的结尾部分字典和包括作为第(N+2)个单词的候选项的一组单词的起始部分的起始部分字典。根据上述结构,字典管理部分读取包括作为第一个单词的候选项的一组单词的结尾部分的结尾部分字典和包括作为第一与第二个单词的候选项的一组单词的起始部分的起始部分字典。因此,在识别部分识别第一个连续单词时,可以开始对第二个单词的识别处理。另外,当识别部分识别第N个单词时,字本文档来自技高网
...

【技术保护点】
一种语音识别装置,用于识别包含在所输入的语音中的多个连续关联的单词并输出其识别结果,所述装置包括:声学模型读取部分,用于将预先记录在辅助存储装置内的声学模型读入主存储装置内;字典管理部分,用于将字典数据从所述辅助存储装置读入主存储装置内,所述字典数据包括:起始部分字典,表示作为要识别单词的候选项的一组单词的起始部分;结尾部分字典,表示所述一组单词的结尾部分;词序数据,表示单词顺序;以及对应关系数据,表示所述起始部分字典与所述结尾部分字典之间的对应关系;以及识别部分,用于通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据,将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的所述一组单词与所述输入语音进行匹配,来连续识别包含在所述输入语音中的所述多个连续关联单词,其中所述字典数据包括:至少一个起始部分字典,所述起始部分字典存储有表示多个单词起始部分的数据;和一组结尾部分字典,所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典,并且所述字典管理部分将所述词序数据和所述起始部分字典读入主存储装置,所述起始部分字典包括作为包含在所述输入语音中的多个单词中的至少一个单词的候选项的一组单词的起始部分,并且当所述识别部分利用读入所述主存储装置内的所述起始部分字典识别单词时,所述字典管理部分基于所述词序数据,读取所述结尾部分字典和/或所述起始部分字典。...

【技术特征摘要】
JP 2006-3-30 2006-0952871.一种语音识别装置,用于识别包含在所输入的语音中的多个连续关联的单词并输出其识别结果,所述装置包括声学模型读取部分,用于将预先记录在辅助存储装置内的声学模型读入主存储装置内;字典管理部分,用于将字典数据从所述辅助存储装置读入主存储装置内,所述字典数据包括起始部分字典,表示作为要识别单词的候选项的一组单词的起始部分;结尾部分字典,表示所述一组单词的结尾部分;词序数据,表示单词顺序;以及对应关系数据,表示所述起始部分字典与所述结尾部分字典之间的对应关系;以及识别部分,用于通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据,将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的所述一组单词与所述输入语音进行匹配,来连续识别包含在所述输入语音中的所述多个连续关联单词,其中所述字典数据包括至少一个起始部分字典,所述起始部分字典存储有表示多个单词起始部分的数据;和一组结尾部分字典,所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典,并且所述字典管理部分将所述词序数据和所述起始部分字典读入主存储装置,所述起始部分字典包括作为包含在所述输入语音中的多个单词中的至少一个单词的候选项的一组单词的起始部分,并且当所述识别部分利用读入所述主存储装置内的所述起始部分字典识别单词时,所述字典管理部分基于所述词序数据,读取所述结尾部分字典和/或所述起始部分字典。2.根据权利要求1所述的语音识别装置,其中所述起始部分字典存储有针对作为要识别的多个连续关联单词的候选项的整组单词的起始部分,并且在所述识别部分开始识别所述输入语音之前,所述字典管理部分读取作为包含在所述语音中的多个单词中的第一个单词的候选项的一组单词的所述起始部分字典和所述结尾部分字典,当所述识别部分识别第N个单词时,其中N为自然数,所述字典管理部分基于所述第N个单词和所述词序数据,从所述多个结尾部分字典中选出包括作为第(N+1)个单词的候选项的一组单词的结尾部分的所述结尾部分字典,并开始读取,以及在所述读取过程中,所述识别部分利用所述起始部分字典,来识别所述第(N+1)个单词的起始部分。3.根据权利要求1所述的语音识别装置,其中在所述识别部分开始识别之前,所述字典管理部分读取包括作为包含在所述输入语音中的多个单词中的第一个单词的候选项的一组单词的结尾部分的所述结尾部分字典,和包括作为第一与第二个单词的候选项的一组单词的起始部分的所述起始部分字典,当所述识别部分识别第N个单词时,其中N为自然数,所述字典管理部分读取包括作为第(N+1)个单词的候选项的一组单词的结尾部分的所述结尾部分字典,和包括作为第(N+2)个单词的候选项的一组单词的起始部分的所述起始部分字典。4.根据权利要求1所述的语音识别装置,其中当所述识别部分利用读入所述主存储装置内的所述起始部分字典,将所述单词的所述起始部分的一部分与所述语音进行匹配时,所述字典管理部分基于所述匹配结果,开始读取所述结尾部分字典和/或所述起始部分字典。5.根据权利要求1所述的语音识别装置,其中将所述词序数据以与各个单词结尾部分相对应的方式记录到所述结尾部分字典内,作为字典识别数据,所述字典识别数据表示包括可能跟在所述单词结尾部分之后的一组单词的起始部分的起始部分字典或者包括所述一组单词的结尾部分的结尾部分字典,并且所述字典管理部分基于与由所述识别部分识别的所述单词的所述结尾部分对应的所述字典识别数据,来读取所述起始部分字典或所述结尾部分字典。6.根据权利要求5所述的语音识别装置,其中所述字典数据包括多个起始部分字典,并且基于与所述所识别单词的所述结尾部分对应的所述字典识别数据,所述识别部分从所述多个起始部分字典中选择出包括可能跟在...

【专利技术属性】
技术研发人员:原田将治
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利