语音识别装置及语音识别方法制造方法及图纸

技术编号：3045104 阅读：136 留言：0更新日期：2012-04-11 18:40

语音识别装置、语音识别方法及存储语音识别程序的记录介质。一种语音识别装置，用于识别包含在语音中的多个连续关联的单词，该装置包括：声学模型读取部分，用于读取声学模型；字典管理部分，用于从字典数据中读取所需数据；和识别部分，用于利用所述声学模型，通过将由字典数据表示的一组单词与所输入的语音进行匹配来连续识别所述多个连续单词，其中，所述字典数据包括表示单词起始部分的起始部分字典和存储有表示结尾部分的数据的一组结尾部分字典，根据所述识别部分识别的所述单词来读取所述结尾部分字典和／或所述起始部分字典，并且当所述字典管理部分读取所述结尾部分字典和／或所述起始部分字典时，所述识别部分将后续语音与包含在所述起始部分字典内的单词起始部分进行匹配。由此，所述语音识别装置可消除由于从对存储器有所限制的设备内的辅助存储装置中读取单词字典所造成的语音识别处理中的延迟。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用于识别用户说出的连续的多个单词的语音识别装置、语音识别方法以及语音识别程序。
技术介绍
在主存储装置(主存储器(以下称为“存储器”))内布置有语音识别装置，其中中央处理器(CPU)可直接读取或写入包含大量单词的词典数据，从而用于语音识别处理。在常规的语音识别装置中，将词典分成多个文件并记录到辅助存储装置(例如HDD、DVD或ROM)中，仅将所需文件从辅助存储装置读取到用于识别处理的存储器。这样可以削减(suppress)要用于语音识别处理的存储器的容量。但是，在将词典数据从辅助存储装置读取(加载)到存储器的过程中，识别处理不能继续进行。这会导致语音识别处理中的延迟。例如，在地址识别装置中，将辖区名字典和城市名字典分别作为文件记录到辅助存储装置中。当对其中依次说出辖区名和城市名(例如，“AICHIKEN”，“NAGOYASHI”)的语音进行识别时，地址识别装置识别出辖区名“AICHIKEN”，并且随后将对应于该辖区名的城市名字典读取到存储器。在读取该城市名字典的过程中，地址识别装置不能继续进行识别处理，直到读取完成为止。因此，在地址识别处理中会造成延迟。已经提出一种采取措施克服这种延迟的语音识别装置(参见，例如，JP2002-268673A)。在从诸如DVD的辅助存储装置中读取字典数据的过程中，语音识别装置利用提前从RAM读取的匹配数据执行匹配处理。将读取的字典数据记录到延迟匹配数据记录装置中，并在完成读取之后，执行利用该延迟匹配数据记录装置内记录的数据的匹配处理。在此之后，合并延迟匹配数据和匹配数据。但是，上述语音识别装置需要将匹配过程...

【技术保护点】
一种语音识别装置，用于识别包含在所输入的语音中的多个连续关联的单词并输出其识别结果，所述装置包括：声学模型读取部分，用于将预先记录在辅助存储装置内的声学模型读入主存储装置内；字典管理部分，用于将字典数据从所述辅助存储装置读入主存储装置内，所述字典数据包括：起始部分字典，表示作为要识别单词的候选项的一组单词的起始部分；结尾部分字典，表示所述一组单词的结尾部分；词序数据，表示单词顺序；以及对应关系数据，表示所述起始部分字典与所述结尾部分字典之间的对应关系；以及识别部分，用于通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据，将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的所述一组单词与所述输入语音进行匹配，来连续识别包含在所述输入语音中的所述多个连续关联单词，其中所述字典数据包括：至少一个起始部分字典，所述起始部分字典存储有表示多个单词起始部分的数据；和一组结尾部分字典，所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据，作为多个结尾部分字典，并且所述字典管理部分将所述词序数据和所述起始部分字典读入主存储装置，所述起始部分字...

【技术特征摘要】
JP 2006-3-30 2006-0952871.一种语音识别装置，用于识别包含在所输入的语音中的多个连续关联的单词并输出其识别结果，所述装置包括声学模型读取部分，用于将预先记录在辅助存储装置内的声学模型读入主存储装置内；字典管理部分，用于将字典数据从所述辅助存储装置读入主存储装置内，所述字典数据包括起始部分字典，表示作为要识别单词的候选项的一组单词的起始部分；结尾部分字典，表示所述一组单词的结尾部分；词序数据，表示单词顺序；以及对应关系数据，表示所述起始部分字典与所述结尾部分字典之间的对应关系；以及识别部分，用于通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据，将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的所述一组单词与所述输入语音进行匹配，来连续识别包含在所述输入语音中的所述多个连续关联单词，其中所述字典数据包括至少一个起始部分字典，所述起始部分字典存储有表示多个单词起始部分的数据；和一组结尾部分字典，所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据，作为多个结尾部分字典，并且所述字典管理部分将所述词序数据和所述起始部分字典读入主存储装置，所述起始部分字典包括作为包含在所述输入语音中的多个单词中的至少一个单词的候选项的一组单词的起始部分，并且当所述识别部分利用读入所述主存储装置内的所述起始部分字典识别单词时，所述字典管理部分基于所述词序数据，读取所述结尾部分字典和/或所述起始部分字典。2.根据权利要求1所述的语音识别装置，其中所述起始部分字典存储有针对作为要识别的多个连续关联单词的候选项的整组单词的起始部分，并且在所述识别部分开始识别所述输入语音之前，所述字典管理部分读取作为包含在所述语音中的多个单词中的第一个单词的候选项的一组单词的所述起始部分字典和所述结尾部分字典，当所述识别部分识别第N个单词时，其中N为自然数，所述字典管理部分基于所述第N个单词和所述词序数据，从所述多个结尾部分字典中选出包括作为第(N+1)个单词的候选项的一组单词的结尾部分的所述结尾部分字典，并开始读取，以及在所述读取过程中，所述识别部分利用所述起始部分字典，来识别所述第(N+1)个单词的起始部分。3.根据权利要求1所述的语音识别装置，其中在所述识别部分开始识别之前，所述字典管理部分读取包括作为包含在所述输入语音中的多个单词中的第一个单词的候选项的一组单词的结尾部分的所述结尾部分字典，和包括作为第一与第二个单词的候选项的一组单词的起始部分的所述起始部分字典，当所述识别部分识别第N个单词时，其中N为自然数，所述字典管理部分读取包括作为第(N+1)个单词的候选项的一组单词的结尾部分的所述结尾部分字典，和包括作为第(N+2)个单词的候选项的一组单词的起始部分的所述起始部分字典。4.根据权利要求1所述的语音识别装置，其中当所述识别部分利用读入所述主存储装置内的所述起始部分字典，将所述单词的所述起始部分的一部分与所述语音进行匹配时，所述字典管理部分基于所述匹配结果，开始读取所述结尾部分字典和/或所述起始部分字典。5.根据权利要求1所述的语音识别装置，其中将所述词序数据以与各个单词结尾部分相对应的方式记录到所述结尾部分字典内，作为字典识别数据，所述字典识别数据表示包括可能跟在所述单词结尾部分之后的一组单词的起始部分的起始部分字典或者包括所述一组单词的结尾部分的结尾部分字典，并且所述字典管理部分基于与由所述识别部分识别的所述单词的所述结尾部分对应的所述字典识别数据，来读取所述起始部分字典或所述结尾部分字典。6.根据权利要求5所述的语音识别装置，其中所述字典数据包括多个起始部分字典，并且基于与所述所识别单词的所述结尾部分对应的所述字典识别数据，所述识别部分从所述多个起始部分字典中选择出包括可能跟在...

【专利技术属性】
技术研发人员：原田将治，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人