语音识别方法及装置制造方法及图纸

技术编号:15692529 阅读:14 留言:0更新日期:2017-06-24 06:37
本发明专利技术实施例提供一种语音识别方法及装置,所述方法包括:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。实施本发明专利技术实施例,在识别语音信号的过程中,无需再执行与被过滤掉的发音相关的识别操作,如:无需再在识别网络中搜索与被过滤掉的发音相关的路径,因此能有效降低语音识别过程耗费的时间,进而能提高语音识别效率。

Speech recognition method and apparatus

The embodiment of the invention provides a voice recognition method and device, the method comprises the following steps: feature classification results to obtain the speech signal to be recognized; the classification results include pronunciation is used to describe the characteristics of each frame of speech signal and the voice pronunciation signal frame is mapped to the probability of pronunciation; probability content classification the results on the basis of the characteristics of the filter, with the classification results of the characteristic features of pronunciation; the classification results after filtering of the speech signal recognition based on. The embodiment of the invention, in the process of speech recognition, no longer need to perform and be filtered out the pronunciation recognition operation, such as: no longer in the recognition network search and filter out the pronunciation of the path, so it can effectively reduce the speech recognition time, which can improve the speech the efficiency of recognition.

【技术实现步骤摘要】
语音识别方法及装置
本专利技术涉及计算机
,尤其涉及语音识别方法及装置。
技术介绍
随着计算机技术的发展,语音识别(AutomaticSpeechRecognition,ASR)技术在人机交互等领域的应用越来越多。目前,语音识别技术主要通过信号处理模块、特征提取模块、声学模型、语言模型(LanguageModel,LM)、字典和解码器(Decoder),将待识别的语音信号转换为文本信息,完成语音识别。在语音识别过程中,信号处理模块和特征提取模块,先将待识别的语音信号划分成多个语音信号帧,然后通过消除噪音、信道失真等处理对各语音信号帧进行增强,再将各语音信号帧从时域转化到频域,并从转换后的语音信号帧内提取合适的声学特征。而根据训练语音库的特征参数训练出的声学模型,以特征提取模块所提取的声学特征为输入,映射到能够描述语音信号帧的发音特征的发音、并计算出语音信号帧映射到各发音的概率,得到特征分类结果。语言模型含有不同的字词(如:字、词、短语)之间关联关系、及其概率(可能性),用于估计由不同字词组成的各种文本信息的可能性。解码器可以基于己经训练好的声学模型、语言模型及字典建立一个识别网络,识别网络中的各路径分别与各种文本信息、以及各文本信息的发音对应,然后针对声学模型输出的发音,在该识别网络中寻找最佳的一条路径,基于该路径能够以最大概率输出该语音信号对应的文本信息,完成语音识别。但是,语言模型一般是基于大量语料训练出来的模型,包含大量字词之间的关联关系和可能性,所以,基于语音模型建立的识别网络包含的节点较多,每个节点的分支数量也非常多。在识别网络中进行路径搜索时,各语音信号帧的发音涉及的节点数会以指数形式暴增,导致路径搜索量极大,搜索过程耗费的时间较多,进而会降低语音识别效率。
技术实现思路
有鉴于此,本专利技术提供一种语音识别方法及装置,以解决语音识别过程耗时多、识别效率低的问题。根据本专利技术的第一方面,提供一种语音识别方法,包括步骤:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。在一个实施例中,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:判断任一语音信号帧映射到对应的发音的概率是否满足预定过滤规则;如果所述对应的发音满足预定过滤规则,对所述对应的发音进行滤掉。在一个实施例中,如果任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内,则确定所述对应的发音满足预定过滤规则;如果任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率,则确定所述对应的发音满足预定过滤规则。在一个实施例中,所述预定数目为以下任一:该帧语音信号帧对应的发音中被保留在特征分类结果内的发音的数量;预定的比例阈值与该帧语音信号帧对应的发音的总数目的乘积。在一个实施例中,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:获取任一语音信号帧映射到各发音的概率的直方图分布;获取与所述直方图分布对应的束宽;将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音;将满足所述预定过滤规则的发音,从所述特征分类结果所含的发音中删除。在一个实施例中,所述将满足所述预定过滤规则的发音从所述特征分类结果所含的发音中删除,包括:如果任一语音信号帧映射到对应的发音的概率满足预定过滤规则,将该发音确定为候选发音;如果该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则,则将该候选发音从所述特征分类结果所含的发音中删除;如果该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则,则将该候选发音保留在所述特征分类结果所含的发音中。根据本专利技术的第二方面,提供一种语音识别装置,包括:分类结果获取模块,用于获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;发音过滤模块,用于基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;语音识别模块,用于基于过滤后的特征分类结果识别所述语音信号。在一个实施例中,所述发音过滤模块还包括:第一过滤模块,用于在任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内时,对所述对应的发音进行过滤;第二过滤模块,用于在任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率时,对所述对应的发音进行过滤。在一个实施例中,所述发音过滤模块包括:概率分布模块,用于获取任一语音信号帧映射到各发音的概率的直方图分布;束宽确定模块,用于获取与所述直方图分布对应的束宽;发音确定模块,用于将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音;发音删除模块,用于将满足所述预定过滤规则的发音从所述特征分类结果所含的发音中删除。在一个实施例中,所述发音过滤模块包括:候选发音模块,用于在任一语音信号帧映射到对应的发音的概率满足预定过滤规则时,将该发音确定为候选发音;候选发音删除模块,用于在该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则时,将该候选发音从所述特征分类结果所含的发音中删除;候选发音保留模块,用于在该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则时,将该候选发音保留在所述特征分类结果所含的发音中。实施本专利技术提供的实施例,在识别语音信号时,先获取该语音信号的特征分类结果,然后基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,那么在识别语音信号的过程中,无需再执行与被过滤掉的发音相关的识别操作,如无需再在识别网络中搜索与被过滤掉的发音相关的路径,因此能有效降低语音识别过程耗费的时间,进而能提高语音识别效率。附图说明图1是本专利技术一示例性实施例示出的语音识别方法的流程图;图2是本专利技术另一示例性实施例示出的语音识别方法的流程图;图3是本专利技术一示例性实施例示出的语音识别装置的逻辑框图;图4是本专利技术另一示例性实施例示出的语音识别装置的逻辑框图;图5是本专利技术一示例性实施例示出的语音识别装置的硬件结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应本文档来自技高网
...
语音识别方法及装置

【技术保护点】
一种语音识别方法,其特征在于,包括步骤:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括步骤:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。2.根据权利要求1所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:判断任一语音信号帧映射到对应的发音的概率是否满足预定过滤规则;如果所述对应的发音满足预定过滤规则,对所述对应的发音进行滤掉。3.根据权利要求2所述的方法,其特征在于:如果任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内,则确定所述对应的发音满足预定过滤规则;如果任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率,则确定所述对应的发音满足预定过滤规则。4.根据权利要求3所述的方法,其特征在于,所述预定数目为以下任一:该帧语音信号帧对应的发音中被保留在特征分类结果内的发音的数量;预定的比例阈值与该帧语音信号帧对应的发音的总数目的乘积。5.根据权利要求1所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:获取任一语音信号帧映射到各发音的概率的直方图分布;获取与所述直方图分布对应的束宽;将概率分布在所述束宽之外的发音,确定为满足预定过滤规则的发音;将满足预定过滤规则的发音,从所述特征分类结果所含的发音中删除。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:如果任一语音信号帧映射到对应的发音的概率满足预定过滤规则,将该发音确定为候选发音;如果该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则,则将该候选发音从所述特征分类结...

【专利技术属性】
技术研发人员:李忠杰
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1