语音识别模型训练方法和装置及终端制造方法及图纸

技术编号:9827355 阅读:127 留言:0更新日期:2014-04-01 16:42
本申请公开了一种语音识别模型训练方法和装置及终端。根据本申请,语音识别模型训练方法可包括:通过采集用户朗读样本的语音而获取用户语音样本;对采集的用户语音样本进行特征提取;以及根据提取的特征,创建语音识别模型。通过本申请的方法和装置,能够根据用户特点更新语音识别模型库,从而提高语音识别成功率,改善用户体验。

【技术实现步骤摘要】
语音识别模型训练方法和装置及语音识别终端
本申请涉及语音识别模型训练方法和装置及语音识别终端。
技术介绍
在现有语音识别方法中,可根据已有的声学模型进行语音识别,例如,一种方法是利用语音字典来进行语音识别的方法。该方案提供了一种语音字典形成方法,包括整理日常生活中常会组合在一起使用的文字,将所述文字的标准读音通过音节代码存储。该方案同时公开了将语音字典里的语音代码和输入语音形成的代码进行比较,实现语音识别。由于上述方法不能针对特定用户使用习惯来进行语音识别,因此特别是当用户有自己的发音特点时候,识别率可能会显著下降。
技术实现思路
为了解决上述现有语音识别方法中识别率不高的问题,本申请提出了一种语音识别模型训练方法和装置及终端。根据本申请的一个方面,提出了一种语音识别模型训练方法,包括:通过采集用户朗读样本的语音而获取用户语音样本;对采集的用户语音样本进行特征提取;以及根据提取的特征,创建语音识别模型。根据本申请的另一个方面,提出了一种语音识别模型训练装置,包括:样本接收模块,接收终端上传的用户语音样本;特征提取模块,对用户语音样本进行特征提取;以及模型训练模块,根据提取的特征对语音识别模型进行训练更新。根据本申请的又一个方面,提出了一种语音识别终端,包括:样本存储模块,存储供用户朗读的样本;样本采集模块,通过采集用户朗读样本的语音而获取用户语音样本;以及记录模块,记录用户语音识别的成功率。通过本申请的方法和装置,能够根据用户特点更新语音识别模型库,从而提高语音识别成功率,改善用户体验。附图说明图1是根据本申请一个实施方案的语音识别模型训练方法的流程图;以及图2是根据本申请一个实施方案的语音识别模型训练装置的框图;以及图3是根据本申请一个实施方案的语音识别终端的框图。具体实施方式下面参照附图,对本申请的实施方案进行详细说明。如图1所示,根据一个实施方案的语音识别模型训练方法可如下执行。首先在步骤S1002,终端可通过采集用户朗读样本的语音而获取用户语音样本。根据一个实施例,供用户朗读的样本可以是静态样本,例如汉语拼音表、英语字母表、数字表、易混淆词表等。根据另一个实施例,供用户朗读的样本还可以是动态样本,例如包含用户被错误识别的语音内容,如易混淆发音的音节、出错发音等。然后在步骤S1004,由服务器对采集的用户语音样本进行特征提取,之后在步骤S1006,根据提取的特征,创建语音识别模型。可以理解,可在例如用户注册业务首次打开终端客户端时进行上述创建模型的过程。根据一个实施方案,在进行语音识别过程中,当用户语音识别率低于预定阈值时,可对语音识别模型进行更新操作。作为一个具体实施例,可将预定阈值设定为0.75。具体地,在进行更新操作时,可通过采集用户朗读动态样本的语音而获取用户语音样本,然后,可对采集的用户语音样本进行特征提取,并根据提取的特征,对语音识别模型进行更新。根据一个实施例,对采集的用户语音样本提取的特征可包括特定音节的发音、用户连读习惯或者语音频谱等。根据一个实施例,对采集的用户语音样本进行特征提取的步骤可包括:对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征;以及为每个用户语音特征分配ID。根据一个实施例,用户语音特征可包括过零率、基音周期和/或线性预测倒谱系数等。根据一个具体实施例,对采集的用户语音样本进行特征提取的步骤可如下执行:对用户语音样本分帧。帧与帧一般可部分重替,比如对采样率为16kHz的语音信号,帧陡可取25msec,帧移可取l0msec;对用户语音样本进行滤波,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;对每帧信号进行滤波,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;对经滤波的每帧信号进行快速傅里叶变换;对经快速傅里叶变换后的信号进行不同频率段的滤波,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数,例如,a可取值2560,b可取值700;对经不同频率段的滤波的信号进行离线余弦变换;对离线余弦变换的结果进行差分计算。根据一个具体实施方案,对语音识别模型进行更新的步骤可以是对语音识别模型库进行聚类操作。根据一个实施例,语音识别模型库可包括多个模型,每个模型可包括参数集合和特征集合等,还可包括ID。对语音识别模型库进行聚类操作可如下执行:当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。接下来参照图2,描述根据本申请一个实施方案的语音识别模型训练装置。如图2所示,语音识别模型训练装置可包括样本接收模块202、特征提取模块204和模型训练模块206。样本接收模块202可接收终端上传的用户语音样本。特征提取模块204可对接收的用户语音样本进行特征提取。模型训练模块206可根据提取的特征对语音识别模型进行训练更新。具体地,特征提取模块206可进一步包括计算模块和分配模块。计算模块可对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征。分配模块可为每个用户语音特征分配ID。根据一个具体实施例,计算模块可包括:对用户语音样本分帧的单元;对用户语音样本进行滤波的单元,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;对每帧信号进行滤波的单元,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;对经滤波的每帧信号进行快速傅里叶变换的单元;对经快速傅里叶变换后的信号进行不同频率段的滤波的单元,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数;对经不同频率段的滤波的信号进行离线余弦变换的单元;以及对离线余弦变换的结果进行差分计算的单元。根据一个实施例,模型训练模块通过对语音识别模型库进行聚类操作来进行训练更新。根据一个实施例,语音识别模型库包括多个模型,每个模型包括参数集合和特征集合,聚类操作可如下执行:当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,本文档来自技高网...
语音识别模型训练方法和装置及终端

【技术保护点】
语音识别模型训练方法,包括:通过采集用户朗读样本的语音而获取用户语音样本;对采集的用户语音样本进行特征提取;以及根据提取的特征,创建语音识别模型。

【技术特征摘要】
1.语音识别模型训练方法,包括:通过采集用户朗读样本的语音而获取用户语音样本;对采集的用户语音样本进行特征提取;根据提取的特征,创建语音识别模型;在进行语音识别过程中,当用户语音识别率低于预定阈值时,通过以下步骤进行语音识别模型更新:通过采集用户朗读动态样本的语音而获取用户语音样本,其中,所述动态样本包含所述用户被错误识别的语音内容;对采集的用户语音样本进行特征提取;以及根据提取的特征,对语音识别模型库进行聚类操作,所述语音识别模型库包括多个模型,每个模型包括参数集合和特征集合,所述聚类操作包括:当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。2.如权利要求1所述的方法,其中,对采集的用户语音样本提取的特征包括:特定音节的发音、用户连读习惯或者语音频谱。3.如权利要求1所述的方法,其中,对采集的用户语音样本进行特征提取的步骤包括:对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征;为每个用户语音特征分配ID。4.如权利要求3所述的方法,其中,所述用户语音特征包括过零率、基音周期和/或线性预测倒谱系数。5.如权利要求3所述的方法,其中,对采集的用户语音样本进行特征提取的步骤包括:对用户语音样本分帧;对用户语音样本进行滤波,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;对每帧信号进行滤波,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;对经滤波的每帧信号进行快速傅里叶变换;对经快速傅里叶变换后的信号进行不同频率段的滤波,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数;对经不同频率段的滤波的信号进行离线余弦变换;以及对离线余弦变换的结果进行差分计算。6.语音识别模型训练装置,包括:样本接收模块,接收终端上传的用户语音样本;特征提取模块,对用户语音样本进行特征提取;以及模型训练模块,根据提取的特征对语音识别模型进行训练更新,其中,在进行语音识别过程中,当用户语音识别率低于预定阈值时,通过以下步骤进行语音识别模型更新:通过采集用户朗读动态样本的语音而获取用户语音样本,其中,所述动态样本包含所述用户被错误识别的语音内容;对采集的用户语音样本进行特征提取;以及根据提取的特征,对语音识别模型库进行聚...

【专利技术属性】
技术研发人员:郭勐杨蕾张俭于蓉蓉
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1