一种远场语音识别方法、语音识别模型训练方法和服务器技术

技术编号:23346369 阅读:21 留言:0更新日期:2020-02-15 04:54
本申请提供了一种远场语音识别方法、语音识别模型训练方法和服务器,其中,该远场语音识别方法包括:获取语音数据;确定所述语音数据是否为远场语音数据;在确定所述语音数据为远场语音数据的情况下,通过语音识别模型对所述语音数据进行识别,其中,所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息,对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。利用本申请实施例提供的技术方案,因为在对频带能量规整过程中引入了时间维度信息和频率维度信息,从而可以弱化时间和频率对语音识别准确度的影响,基于该语音识别模型进行远程语音识别,可以有效提升识别准确率,从而达到了有效提升语音识别模型的识别准确率的技术效果。

A far-field speech recognition method, speech recognition model training method and server

【技术实现步骤摘要】
一种远场语音识别方法、语音识别模型训练方法和服务器
本申请属于互联网
,尤其涉及一种远场语音识别方法、语音识别模型训练方法和服务器。
技术介绍
远场语音识别是语音交互领域的重要技术,通过远场语音识别技术可以识别出远距离的声音(例如,可以识别到1m到5m内的语音)。远场语音识别主要应用在智能家居领域,例如,可以应用在智能音箱、智能电视等设备中,也可以应用在会议转录等领域中。然而,由于在真实环境中,一般会存在大量的噪声、多径反射和混响等干扰问题,从而导致拾取的声音信号的质量下降。对于远场语音识别而言,导致识别准确率下降的主要原因就是由于距离引起的语音能量衰减。如何有效减少语音能量衰减导致的语音模型识别准确度高的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种远场语音识别方法、语音识别模型训练方法和服务器,以达到提升语音识别模型的识别准确率的目的。本申请提供一种远场语音识别方法、语音识别模型训练方法和服务器是这样实现的:一种远场语音识别方法,包括:获取语音数据;确定所述语音数据是否为远场语音数据;在确定所述语音数据为远场语音数据的情况下,通过语音识别模型对所述语音数据进行识别,其中,所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息,对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。一种语音识别模型训练方法,包括:获取滤波处理后的语音特征,其中,所述语音特征是从语音数据中提取得到的;通过所语音数据的时间维度信息和频率维度信息,对所述语音特征进行频带能量规整;根据频带能量规整后得到的语音特征,对语音识别模型进行训练。一种模型训练服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下步骤:获取滤波处理后的语音特征,其中,所述语音特征是从语音数据中提取得到的;通过所语音数据的时间维度信息和频率维度信息,对所述语音特征进行频带能量规整;根据频带能量规整后得到的语音特征,对语音识别模型进行训练。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法的步骤。本申请提供的远场语音识别方法、语音识别模型训练方法和服务器,通过语音数据的时间维度信息和频率维度信息,对滤波处理后的语音特征进行频带能量规整;并根据频带能量规整后得到的语音特征,对语音识别模型进行训练。因为在对频带能量规整过程中引入了时间维度信息和频率维度信息,从而可以弱化时间和频率对语音识别准确度的影响,基于该语音识别模型进行远程语音识别,可以有效提升识别准确率,从而达到了有效提升语音识别模型的识别准确率的技术效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是提取得到Filter-Bank语音特征的方法流程图;图2是提取得到静态PECN语音特征的方法流程图;图3是本申请提供的语音识别模型训练方法的方法流程图;图4是本申请提供的语音特征确定的场景示意图;图5是本申请提供的训练模型示意图;图6是本申请提供的模型训练服务器的架构示意图;图7是本申请提供的语音识别模型训练装置的结构框图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。考虑到除了环境噪声等因素导致远场语音识别准确率降低的问题,由于距离的变化会导致语音能量衰减,这也将导致远场语音的识别准确率降低。然而,在实际的声音场景中,不仅距离会对语音识别准确率产生影响,人声音前后时刻音量的变化,也会对语音识别准确率产生影响。然而,对于语音识别模型而言,一般需要先提取语音特征,然后将语音特征输入训练模型进行语音识别模型的训练。在实现的时候,可以采用如下的方式提取特征:获取连续的语音数据,对获取的语音数据进行预加重,对预加重的语音数据进行分帧处理,对分帧后的语音数据进行加窗处理,对加窗后的语音数据进行FFT变换,通过MEL滤波器组对语音数据进行滤波,从而得到语音特征。具体的,为了使得提取的语音特征训练得到的语音识别模型的准确度更高,可以在对语音数据进行滤波之后对语音特征进行压缩处理,例如,可以按照以下两种方式处理,以得到语音特征:1)提取得到Filter-Bank语音特征,可以如图1所示,在通过MEL滤波器组对语音数据进行滤波之后,通过Log运算将经过Mel滤波器组后的语音特征压缩到便于处理的范围。不过简单的Log运算操作对于能量较低的音频特征的分辨率比较低,会导致语音数据的信息产生损失。2)提取得到PCEN(per-channelenergynormalization,频带能量规整)语音特征,PCEN语音特征提取流程可以包括:静态提取PCEN语音特征和动态提取PCEN语音特征。其中,如图2所示,静态提取PCEN语音特征与提取filter-bank语音特征相比,是将Log运算替换为PCEN运算,其中PCEN运算的公式可以表示为:M(t,f)=(1-s)M(t-1,f)+sE(t,f)其中,E(t,f)表示每个时频块的filterbank能量,M(t,f)表示中间平滑能量,s表示平滑系数,α,δ,r,∈表示预先设定的参数,这些参数值可以通过经验确定,例如,可以设定为:s=0.025,α=0.98,δ=2,r=0.5,∈=0.000001。然而值得注意的是,上例中的参数的设定值仅是一种示例性描述,在实际实现的时候还可以采用其它数值。其中,提取得到动态PCEN语音特征,可以将PCEN设置为神经网络中的一层,通过对中PCEN运算公式中的参数的学习来达到有效提升得到的语音特征的准确率的目的。在实现的时候,可以理解为采用近似FIR滤波器的处理方式,即,计算公式中的参数是规定的,无反馈,无变换的。具体的,可以设定多组s,从而得到多组中间平滑能量Mi(t,f),然后,对这些中间平滑能量进行加权,从而得到最终的M(t,f)。具体的,PCEN运算公式可以表示为:Mk(t,f)=(1-sk)Mi(t-1,f)+skE(t,f)其中,sk可以是预先设定的参数值,zk(f)可以是学习得到的参数,其它参数可以是预先设定的,也可以是学习得到的,本申请对此不作限定。然而,对于上述提取得本文档来自技高网
...

【技术保护点】
1.一种远场语音识别方法,其特征在于,包括:/n获取滤波处理后的语音特征,其中,所述语音特征是从语音数据中提取得到的获取语音数据;/n确定所述语音数据是否为远场语音数据;/n在确定所述语音数据为远场语音数据的情况下,通过语音识别模型对所述语音数据进行识别,其中,所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息,对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。/n

【技术特征摘要】
1.一种远场语音识别方法,其特征在于,包括:
获取滤波处理后的语音特征,其中,所述语音特征是从语音数据中提取得到的获取语音数据;
确定所述语音数据是否为远场语音数据;
在确定所述语音数据为远场语音数据的情况下,通过语音识别模型对所述语音数据进行识别,其中,所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息,对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。


2.根据权利要求1所述的方法,其特征在于,还包括:
获取滤波处理后的语音特征,其中,所述语音特征是从语音数据中提取得到的;
通过所述语音数据的时间维度信息和频率维度信息,对所述语音特征进行频带能量规整;
根据频带能量规整后得到的语音特征,对语音识别模型进行训练,得到所述语音识别模型。


3.根据权利要求2所述的方法,其特征在于,通过所语音数据的时间维度信息和频率维度信息,对所述语音特征进行频带能量规整,包括:
确定时间影响参数;
通过所述时间影响参数,对前一时刻的中间平滑能量和当前时刻的时频块的能量进行加权,得到当前时刻的中间平滑能量;
根据所述当前时刻的中间平滑能量,对所述语音特征进行频带能量规整。


4.根据权利要求3所述的方法,其特征在于,确定时间影响参数,包括:
获取前一时刻的频带能量规整结果;
根据所述前一时刻的频带能量规整结果,计算得到时间影响参数。


5.根据权利要求4所述的方法,其特征在于,根据所述前一时刻的频带能量规整结果,确定时间影响参数,包括:
权重系数矩阵乘以前一时刻的频带能量规整结果,得到第一结果,其中,...

【专利技术属性】
技术研发人员:薛少飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1