一种语音识别方法和装置制造方法及图纸

技术编号:12512935 阅读:82 留言:0更新日期:2015-12-16 10:40
本发明专利技术公开了一种语音识别方法和装置。所述方法包括:对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;根据融合处理结果获取所述输入语音的识别结果。所述装置包括:似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;识别模块,用于根据融合处理结果获取所述输入语音的识别结果,增强了语音识别的鲁棒性,提高了识别准确度。

【技术实现步骤摘要】
一种语音识别方法和装置
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别方法和装置。
技术介绍
语音识别技术已逐渐普及到我们熟知的各个领域中,语音识别服务支持的场景也伴随着用户需求的增加而逐步增多,比如普通话语音识别、英文语音识别、粤语语音识别和四川话语音识别等。基于统计的声学模型在选定的实际产品方向中的建模能力非常强,比如普通话语音识别方向、英文语音识别方向和各个方言语音识别方向等。每个产品方向的声学模型可以通过累积语音数据,来进一步提高声学模型的建模能力。但是,实际的语音识别服务场景可能无法有效区分用户的语音内容,从而无法有效的把用户的语音识别请求定位到对应的声学模型上进行语音识别,比如对于普通话的语音识别服务,可能会有说粤语的用户对其进行语音识别请求,或者还可能会有带粤语口音的用户对其进行语音识别请求等。这时普通话的语音识别服务可能无法有效区分上述用户的语音内容,导致语音识别准确率的急剧下降或者识别结果完全不对,给用户的语音识别服务体验带来挫败感。现有技术中的语音识别服务在处理用户的语音识别请求时,一般都使用单个声学模型,且通常会有如下三种处理方式:1、专注于特定产品方向的语音识别请求,通过识别结果引导或者在客户端提示用户使用产品方向的语音来获得更好的用户体验。该方式专注于特定产品方向的语音识别请求,一旦用户的语音识别请求和声学模型不匹配,那么用户体验无法保证。例如普通话的语音识别服务只能提供用户的普通话语音识别请求,而无法满足四川话语音识别请求。2、部分或者全面覆盖用户可能使用的产品方向的语音,该方法通过增加声学模型训练在多个产品方向的语音数据,提高声学模型的产品覆盖能力。该方式会降低声学层面建模单元的区分度,进而导致各个产品方向识别率的普遍降低。3、为不同产品方向的用户语音识别请求分别提供独立的语音识别服务,将用户的语音识别请求尽可能定位到对应声学模型的语音识别服务中。该方式从产品的角度无法保证将用户的语音识别请求都准确定位到各自对应声学模型的语音识别服务上,而且用户说话方式的多样性也给语音识别服务对应的声学模型带来更多需要解决的问题,例如普通话的语音识别服务在响应用户带粤语口音的普通话语音识别请求时,识别率会显著下降。
技术实现思路
本专利技术提供一种语音识别方法和装置,以实现改善用户的语音识别请求的识别性能,提高语音识别准确率,提升用户体验。第一方面,本专利技术实施例提供了一种语音识别方法,包括:对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;根据融合处理结果获取所述输入语音的识别结果。第二方面,本专利技术实施例还提供了一种语音识别装置,包括:似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;识别模块,用于根据融合处理结果获取所述输入语音的识别结果。本专利技术通过对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值,然后将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理,并根据融合处理结果获取所述输入语音的识别结果,相比于现有技术,本专利技术采用多声学模型的融合处理方案,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体验。附图说明图1为本专利技术实施例一提供的一种语音识别方法的流程图;图2为本专利技术实施例一提供的一种声学模型融合示意图;图3为本专利技术实施例二提供的一种语音识别方法的流程示意图;图4为本专利技术实施例三提供的一种语音识别方法的流程示意图;图5为本专利技术实施例三提供的一种声学建模单元的似然值融合示意图;图6为本专利技术实施例四提供的一种语音识别装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种语音识别方法的流程图,该方法主要通过计算机设备中的语音识别装置来执行,所述计算机设备包括但不限于以下中的至少一个:用户设备和网络设备。用户设备包括但不限于计算机、智能手机和平板电脑等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或由大量计算机或网络服务器构成的云。具体的所述语音识别装置可以通过语音解码器的方式实现。如图1所示,所述语音合成方法具体包括如下操作:S110、对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;在该步骤之前,还可以先对输入语音进行前端处理,所述前端处理包括消除噪声、端点检测和语音增强等,使处理后的语音更能反映语音的本质特征。在对输入语音进行前端处理后,再进行声学特征提取。声学特征提取是将输入语音进行语音信息参数化,转换成机器可以识别处理的语音特征矢量。所述声学特征例如包括时域、频域和倒谱域特征等。时域特征主要反应短时平均能量、基调周期、共振峰等,频域特征主要反应傅里叶频谱特征,倒谱域特征主要基于线性预测编码倒谱的LPCC特征等。提取声学特征后,根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学模型建模单元的似然值,其中,所述声学建模单元是,具体的,HMM(HiddenMarkovModel)声学模型中三因子模型所属的每个状态,或者,DNN(DeepNeuralNetworks)声学模型中的每个输出状态。其中,所述声学建模单元的似然值是,所述提取的声学特征在声学建模单元上计算得到的状态输出概率。S120、将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;操作S110针对每个声学模型均可以得到对应的一套声学建模单元的似然值。操作S120将操作S110获得的各声学模型中声学建模单元的似然值进行融合处理,即融合为一套声学建模单元的似然值。图2为本专利技术实施例一提供的一种声学模型融合示意图,图2示例性的,选择2个声学模型,通过两套声学模型计算得到两套似然值得分;两套似然值得分通过融合处理,得到一套似然值得分,供后续语音识别使用。需要说明的是,在其他实施方式中,还可以根据实际应用场景,个性化设置声学模型的数量。S130、根据融合处理结果获取所述输入语音的识别结果。融合处理后的声学建模单元似然值,能够充分反映多个不同类型的声学模型的建模性能,因此,根据所述融合处理结果获取的输入语音的识别结果,能够保证匹配的声学模型的建模能力得到充分发挥,且可适用于不同用户的语音识别请求,用户输入的语音可以对应多个不同类型的声学模型。本实施例的技术方案,采用多个不同类型的声学模型的融合处理方案,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体本文档来自技高网
...
一种语音识别方法和装置

【技术保护点】
一种语音识别方法,其特征在于,包括:对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;根据融合处理结果获取所述输入语音的识别结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;根据多个不同类型的声学模型中各声学建模单元的似然值排序结果,以及多个不同类型的声学模型的似然值融合权重系数排序结果,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和;根据融合处理结果获取所述输入语音的识别结果。2.根据权利要求1所述的方法,其特征在于,所述多个不同类型的声学模型包括:朗读语音声学模型和自然语音声学模型。3.根据权利要求1或2所述的方法,其特征在于,所述多个不同类型的声学模型包括:多个声学模型的语种类型不同和/或方言类型不同。4.根据权利要求1所述的方法,其特征在于,当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,还包括:对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理;其中,i和k为正整数,X为大于或者等于2的正整数,T为大于X的正整数;根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和,包括:根据后向掩蔽处理结果对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。5.根据权利要求4所述的方法,其特征在于,所述对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理,包括:当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在连续T帧后的Y帧内增加所述第i个声学模型的似然值融合权重...

【专利技术属性】
技术研发人员:贺利强钱胜
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1