当前位置: 首页 > 专利查询>索尼公司专利>正文

声音识别方法,信息形成方法,声音识别装置和记录介质制造方法及图纸

技术编号:3072263 阅读:208 留言:0更新日期:2012-04-11 18:40
一种声音识别方法,其中给出多个声音识别目标字,并通过使用事先对于一个未知的输入声音信号计算的参数。向声音识别目标字加分,由此,提取和识别一个相应的声音识别目标字,其特征在于,通过使用声音识别目标字之间的相关值,将声音识别目标字构造成分层结构,并通过使用构造成分层结构的声音识别目标字的字典,对未知的输入声音信号进行分数计算。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种声音识别方法、一种信息形成方法、一种声音识别装置,和一种记录介质,尤其涉及一种从有关一种输入声音信号的给定字典选择一个字或许多字的声音识别方法和装置,并涉及一种用于形成一个字典的信息形成方法和一种在其上记录有声音识别字典的记录介质。在从一种输入声音信号中抽取语言信息的声音识别领域,肯定会从一个给定字典中频繁地选择和输入相对应的字。例如,在关于地名的声音识别中,标准图形(pattem)是对用作目标候选字的地名形成的,并在由对一种输入声音信号进行分析所获得的特征量图形(pattem)和全部标准图形之间进行匹配,即进行距离计算,以选择出一个与地名最相似的图形。当概率模型用作一种隐性(hidden)马尔克夫模型(HMM)的时候,以与上述相同的方式完成这种操作。对于每一个地名都形成一个HMM而且一定会选择出对于输入声音信号产生概率最高的一种模型。在一般的声音识别中,进行距离计算以设定目标字和输入声音信号之间的匹配,或采用每个字的概率模型计算出产生的概率,由此向所有的字分别加分(score)。根据分数来选择得分最高的字。例如,在HMM(隐性马尔可夫模型)中,事先对于识别目标字形成概率模型,然后再通过由分析一个未知的输入声音信号获得的特征量来计算发生概率。根据发生的概率,向所有的字加分。选择出一个得分最高的字作为识别结果。在这种情况下,当把距离用作参数时,高分对应的是短距离,而当把发生概率作为参数时,高分对应的是高概率。在这种方式中,分数被用作相应于估计值的表示。在词汇量小的识别系统中,当如上所述计算出所有目标选择物(candidates)的分数的时候,分数计算的工作量不成为一个问题。但是,在词汇量中等或很大的情况的识别中,对于在一个目标识别字典中的所有字的分数的计算,即整个搜索会导致数学运算量的增加。其结果是导致产生响应时间延迟的问题。为解决这个问题,采用以下办法。即,在对于所有的字进行分数计算之前,采用一种简单的估算方法进行初步选择,在初步选择结果的基础上减少需精确计算分数的字的数量。这种减少目标字的数量的方法披露在例如日本专利公开出版物JP03-69120[1991.10.30]上。该申请具有以下目的。即,按照增加效率的次序划分标准图形,并按每个确定准则进行匹配,以便减少匹配次数而不减少识别率。更具体地讲,事先将大量的标准图形分类以在存贮器中形成种类,并由预定方法将以高频选择的预定数量的标准图形存贮在主和次确定区域。指定主确定区域进行输入声音图形和标准图形之间的匹配并存贮获得的结果。根据确定结果确定作为识别候选物的预定数量的上限类别(upper cattgories)。实现次确定区域识别候选类别的标准图形和输入声音图形及识别候选类别之间的匹配。存贮获得的结果。主和次匹配结果彼此结合,并确定具有最短距离的类别作为输入声音的识别结果。通过上述设计可减少匹配的次数。在目前一般的声音识别中,既使进行了精确分数计算,例如匹配或概率计算,声音识别也不易实现。如前述方法一样,当用简单的估算进行初步选择时,在减少字的数量时就会去除必须留下的字,并会降低识别率。另外,既使使用简单的估算方法,当对所有字采用这种估算方法时,这种估算方法的计算量也是不利地相当大。与此相比,在一般的搜问题上,通常采用的是称作二叉树搜索的下列方法。即把目标候选物构成一个二叉树,沿二叉树进行搜索。这种二叉树搜索方法披露在JP 04-248722号[1992.9.4]的日本待审查专利公开出版物上。该申请具有以下目的。即在采用矢量量化的数据编码方法中,对输入的数据高速编码。更具体地讲,把代码本(Code Book)含有的码矢量分成M种类别,把属于M种类别的码矢量分类成M(2)种类别。相似地,用与上述相同的方式把码矢量分成第N(Nth)级。类别的特征向量是类别所属的码向量的重心(center of gravity)向量。在编码中,通过按照树形结构计算一个输入向量与类别的特征向量之间的距离来实现搜索,由此获得一个最佳码向量。采用以上设计会提高输入数据的速度。该申请的方法是关于向量量化的二元树搜索的方法,而且必须注意,该申请是与本专利技术目的的声音识别无关。但是,在采用这样结构的方法中,根据预定的搜索树限制搜索范围,即进行局部搜索。为此,怎样构造和怎样采用这种结构进行搜索是重要的。这就要求在和全部搜索相比时尽可能不增加畸变,即在尽可能不降低识别率的情况下减少算术运算量。在这个意义上,二元树搜索很容易产生一个问题,即虽然能够显著减少算术运算量,但会增加畸变。特别是在声音识别中,降低识别率会产生一系列的问题。在采用HMM的声音识别中,事先对识别目标字形成概率模型,然后根据由分析一个未知输入声音信号获得的特征量计算产生概率。根据产生概率向所有的字加分。选择得分最高的一个字作为识别结果。在采用HMM的声音识别中,采用一种减少算术运算量的束(beam)搜索方法。在束(beam)搜索方法中,采用中途(halfway)结果去掉分枝(branches)来减少算术运算量。但是,在这种方法中,由于通过分数的中途结果减少了字的数量,则把必须留下的字去掉了。因此,畸变增加,识别率降低。不仅在声音识别中,而且在这种搜索问题上,其中提高搜索速度所需的搜索树占据的存贮容量的大小也是一个重要的问题。鉴于以上情况,本专利技术的目的在于,提供一种在阻止识别率下降的同时减少算术运算量的声音识别方法,信息形成方法,声音识别装置和记录介质。本专利技术的一个目的是,提供一种声音识别方法,一种信息形成方法,一种声音识别装置,和一种记录介质,其中对要计算分数的声音识别目标字的数量进行限制,以减少算术运算量和提高声音识别速度,所需存贮容量的增加很少,而且搜索不会增加畸变和降低识别率。本专利技术的另一个目的是,能够不使用声音数据就可以计算用于分级结构的相关值,以限制要计算分数的声音识别目标字的数量。根据本专利技术,为解决以上问题,提供一种声音识别方法,其中给出多个声音识别目标字,并对一个未知的输入声音信号通过采用事先计算的参数向声音识别目标字加分,由此抽取和识别一个相对应的声音识别目标字,其特征在于,通过使用声音识别目标字之间的相关值将声音识别目标字构成分级结构,并对于未知的输入声音信号,通过使用构成在分级结构中的声音识别目标字的字典来实现分数计算。在这种情况下,准备有关多个声音识别目标字的概率模型,对未知的输入声音信号计算概率模型的产生概率,按照产生概率抽取和识别一个相对应的声音识别目标字,根据与声音识别目标字相对应的概率模型的状态转变(transition)概率来确定一个状态转变(transition)顺序,根据与状态转变相对应的输出符号概率确定符号(symbol)顺序,有关与要计算的声音识别目标字相对应的模型计算得到的码位(symbol)顺序的产生概率,并根据产生概率采用声音识别目标字之间的相关值将声音识别目标字构成分级结构。根据本专利技术,提供一种用于图形识别方法的形成图形识别目标信息的信息形成方法,其中给出多个图形识别目标,并对于一个未知的输入信号使用事先计算的参数向图形识别目标加分,由此抽取和识别一个相对应的图形识别目标字,其特征在于,包括分组步骤根据图形识别目标之间的相关值,减少相关值的本文档来自技高网...

【技术保护点】
一种声音识别方法,其中给出多个声音识别目标字,并通过使用事先对于一个未知的输入声音信号计算的参数向声音识别目标字加分,由此提取和识别一个相应的声音识别目标字,其特征在于,通过使用声音识别目标字之间的相关值将声音识别目标字构成分层结构,并 通过使用分层结构构造声音识别目标字的字典,对于未知的输入声音信号进行分数计算。

【技术特征摘要】
JP 1995-7-19 182851/951.一种声音识别方法,其中给出多个声音识别目标字,并通过使用事先对于一个未知的输入声音信号计算的参数向声音识别目标字加分,由此提取和识别一个相应的声音识别目标字,其特征在于,通过使用声音识别目标字之间的相关值将声音识别目标字构成分层结构,并通过使用分层结构构造声音识别目标字的字典,对于未知的输入声音信号进行分数计算。2.按照权利要求1的一种声音识别方法,其特征在于,采用这样得到的位置作为声音识别目标字之间的相关值,即所有识别目标字依据通过与识别目标字相对应的声音数据计算的分数预计值为基础的数据值按照分数增加的顺序被排列。3.按照权利要求1的一种声音识别方法,其特征在于,当通过使用构造成分层结构的声音识别目标字的字典,对于一个未知声音信号进行识别处理时,对于在分层结构中的合适分层的声音识别目标字的分数计算,对于紧接在根据前面计算了分数确定的具有高分数的字所属的层下面的一个分层上的字的分数计算,对于紧接在根据前面计算了分数确定的字的分层下面的一个分层上的字的分数计算,以及字的提取和分数计算,相似地进行上述计算直到最低分层,最后从计算了其分数的字中选择至少一个具有最高分数的字。4.按照权利要求3的一种声音识别方法,其特征在于,存贮暂时计算分数的字的分数,而且当必须计算分数时,用存贮的分数来避免重复进行分数计算。5.按照权利要求3的一种声音识别方法,其特征在于,准备对于多个声音识别目标字的概率模型,对于未知的输入声音信号计算概率模型的产生概率,按照产生概率提取和识别一个相应的声音识别目标字,还有,根据与声音识别目标字相对应的概率模型的状态转变概率确定一个状态转变序列,根据与状态转变相对应的输出符号概率确定一个符号序列,对于与计算声音识别目标字相对应的模型计算获得的符号序列的产生概率,根据产生概率,通过使用声音识别目标字之间的相关值,将声音识别字构成一个分层结构。6.按照权利要求5的一种声音识别方法,其特征在于,根据与识别目标字相对应的概率模型的概率确定多个状态转变序列,根据与状态转变相对应的输出符号概率,从每一个状态转变序列中确定一个符号序列,对于与字相对应的模型计算多个获得的符号序列的产生概率,对于与字相对应的模型计算这些产生概率,按照产生概率预计值增加的顺序排列所有声音识别目标字,并把声音识别目标字的位置用作字之间的相关值。7.一种形成用于图形识别方法的图形识别目标信息的信息形成方法,其中给出多个图形识别目标,通过使用事先对于一个未知输入信号计算的参数向图形识别目标加分,由此提取和识别一个相应的图形识别目标字,其特征在于,包括分组步骤,根据在图形识别目标之间的相关值,对相关值减少的图形识别目标进行分组,选择作为组的典型目标的图形识别目标,进行分组,以形成一些每一个都具有一个典型图形识别目标和从属于该典型图形识别的一个图形识别目标集合之间关系的组;对于具有小的相关值并起任何组的典型目标作用的图形识别目标,使图形识别目标从属于典型图形识别目标组的步骤,其中,这些图形识别目标没有被选作组的典型目标;和再进行分组并向组添加由分组得到的典型图形识别目标,以及增加上述组的步骤,其中,这些步骤重复预定次数以将字构成分层结构。8.按照权利要求7的一种信息形成方法,其特征在于,当对相关值减小的图形识别目标分组时,从相关值最小的图形识别目标进行分组。9.按照权利要求7的一种信息形成方法,其特征在于,放松确定相关值是否小的条件,或者对于每一个图形识别目标,按照分组的情况使这个条件严格。10.按照权利要求7的一种信息形成方法,其特征在于,图形识别...

【专利技术属性】
技术研发人员:南野活树
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利