一种基于粒子群算法的说话人语音识别方法、装置和设备制造方法及图纸

技术编号:24689976 阅读:66 留言:0更新日期:2020-06-27 09:50
本申请公开了一种基于粒子群算法的说话人语音识别方法、装置和设备,包括:获取去噪后的说话人语音;对说话人语音进行语音特征提取,得到说话人语音各音素的声纹特征;根据检材语音特征设定目标函数,基于粒子群算法对说话人的语音音素进行寻优,得到最佳声纹特征;将最佳声纹特征输入预置识别模型进行语音识别。本申请中提供的基于粒子群算法的说话人语音识别方法,通过对说话人语音进行特征提取,利用粒子群算法对最佳音素进行寻优,从而得到最佳声纹特征进行语音识别,解决了现有的语音鉴定方法需要比对较多的音素,且无法得到最适合用于比对的优质音素,语音鉴定效果不理想的技术问题。

A method, device and equipment of speaker speech recognition based on particle swarm optimization

【技术实现步骤摘要】
一种基于粒子群算法的说话人语音识别方法、装置和设备
本申请涉及语音鉴定
,尤其涉及一种基于粒子群算法的说话人语音识别方法、装置和设备。
技术介绍
现有的同一人语音鉴定方式是对说话人语音进行声纹特征提取,通过BP神经网络进行声纹识别,得到声纹匹配结果,为避免语音噪声的影响,需要对语音进行去噪处理后再进行声纹特征提取,而在说话人发音的众多音素中,并不是所有音素都有利于语音识别,因此,如何找出说话人语音的优质音素是本领域技术人员亟待解决的技术问题。
技术实现思路
本申请提供了一种基于粒子群算法的说话人语音识别方法、装置和设备,用于解决现有的语音鉴定方法需要比对较多的音素,且无法得到最适合用于比对的优质音素,语音鉴定效果不理想的技术问题。有鉴于此,本申请第一方面提供了一种基于粒子群算法的说话人语音识别方法,包括:获取去噪后的说话人语音;对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征;根据检材语音特征设定目标函数,基于粒子群算法对说话人的语音音素进行寻优,得到最佳声纹特征;将所述最佳声纹特征输入预置识别模型进行语音识别。可选地,所述对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征,包括:对所述说话人语音进行MFCC语音特征提取,得到所述说话人语音各音素的声纹特征。可选地,所述对所述说话人语音进行MFCC语音特征提取,得到所述说话人语音各音素的声纹特征,包括:对所述说话人语音进行预加重处理,使所述说话人语音的频谱变得平坦;将所述说话人语音分成若干帧,并将每一帧乘以汉明窗;对各帧语音进行快速傅里叶变换,得到各帧语音的频谱,从语音的频谱获得语音的能量谱;将语音的能量谱通过一组Mel尺度的三角形滤波器组;计算每个三角形滤波器输出的对数能量,将对数能量经离散余弦变换,得到MFCC系数阶数阶的Mel-scaleCepstrum参数;提取语音的动态差分参数,得到所述说话人语音各音素的声纹特征。可选地,所述预加重参数为0.97,一帧的采样点为512个,帧与帧之间的重叠区域包含171个采样点,加窗参数为0.46,快速傅里叶变换点数为512,三角滤波器个数为26,MFCC阶数为16。本申请第二方面提供了一种基于粒子群算法的说话人语音识别装置,包括:获取单元,用于获取去噪后的说话人语音;特征提取单元,用于对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征;寻优单元,用于根据检材语音特征设定目标函数,基于粒子群算法对说话人的语音音素进行寻优,得到最佳声纹特征;识别单元,用于将所述最佳声纹特征输入预置识别模型进行语音识别。可选地,所述特征提取单元,具体用于:对所述说话人语音进行MFCC语音特征提取,得到所述说话人语音各音素的声纹特征。可选地,所述特征提取单元,具体用于:对所述说话人语音进行预加重处理,使所述说话人语音的频谱变得平坦;将所述说话人语音分成若干帧,并将每一帧乘以汉明窗;对各帧语音进行快速傅里叶变换,得到各帧语音的频谱,从语音的频谱获得语音的能量谱;将语音的能量谱通过一组Mel尺度的三角形滤波器组;计算每个三角形滤波器输出的对数能量,将对数能量经离散余弦变换,得到MFCC系数阶数阶的Mel-scaleCepstrum参数;提取语音的动态差分参数,得到所述说话人语音各音素的声纹特征。可选地,所述预加重参数为0.97,一帧的采样点为512个,帧与帧之间的重叠区域包含171个采样点,加窗参数为0.46,快速傅里叶变换点数为512,三角滤波器个数为26,MFCC阶数为16。本申请第三方面提供了一种基于粒子群算法的说话人语音识别设备,所述设备包括处理器和存储器;所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于粒子群算法的说话人语音识别方法。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的基于粒子群算法的说话人语音识别方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中提供了一种基于粒子群算法的说话人语音识别方法,包括:获取去噪后的说话人语音;对说话人语音进行语音特征提取,得到说话人语音各音素的声纹特征;根据检材语音特征设定目标函数,基于粒子群算法对说话人的语音音素进行寻优,得到最佳声纹特征;将最佳声纹特征输入预置识别模型进行语音识别。本申请中提供的基于粒子群算法的说话人语音识别方法,通过对说话人语音进行特征提取,利用粒子群算法对最佳音素进行寻优,从而得到最佳声纹特征进行语音识别,解决了现有的语音鉴定方法需要比对较多的音素,且无法得到最适合用于比对的优质音素,语音鉴定效果不理想的技术问题。附图说明图1为本申请实施例中提供的一种基于粒子群算法的说话人语音识别方法的一个流程示意图;图2为本申请实施例中提供的一种基于粒子群算法的说话人语音识别装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为了便于理解,请参阅图1,本申请提供了一种基于粒子群算法的说话人语音识别方法的一个实施例,包括:步骤101、获取去噪后的说话人语音。需要说明的是,本申请实施例中,噪声的存在会影响到语音特征的提取,在获取到说话人语音之后,需要对说话人语音进行去噪处理。步骤102、对说话人语音进行语音特征提取,得到说话人语音各音素的声纹特征。需要说明的是,去噪后对说话人语音进行语音特征提取,说话人语音的每个音素都能得到相应的声纹特征。语音特征的提取可以是MFCC特征提取,提取的具体过程可以是:(1)对说话人语音进行预加重处理,使说话人语音的频谱变得平坦;首先将说话人语音信号通过一个高通滤波器,设定预加重系数为0.97,得到预加重结果。预加重的作用在于消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,同时发出高频的共振峰。(2)将说话人语音分成若干帧,并将每一帧乘以汉明窗;预加重完成后,需要对说话人语音进行分帧处理,即将说话人语音的每512个采样点集合成一帧,帧与帧之间的重叠区域包含171个采样点,然后将分帧后的每一帧乘以汉明窗以增加帧左端到右端的连续性,加窗参数为0.46.(3)对各帧语音进行快速傅里叶变换,得到各帧语音的频谱,从语音的频谱获得语音的能量谱;本文档来自技高网
...

【技术保护点】
1.一种基于粒子群算法的说话人语音识别方法,其特征在于,包括:/n获取去噪后的说话人语音;/n对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征;/n根据检材语音特征设定目标函数,基于粒子群算法对说话人的语音音素进行寻优,得到最佳声纹特征;/n将所述最佳声纹特征输入预置识别模型进行语音识别。/n

【技术特征摘要】
1.一种基于粒子群算法的说话人语音识别方法,其特征在于,包括:
获取去噪后的说话人语音;
对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征;
根据检材语音特征设定目标函数,基于粒子群算法对说话人的语音音素进行寻优,得到最佳声纹特征;
将所述最佳声纹特征输入预置识别模型进行语音识别。


2.根据权利要求1所述的基于粒子群算法的说话人语音识别方法,其特征在于,所述对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征,包括:
对所述说话人语音进行MFCC语音特征提取,得到所述说话人语音各音素的声纹特征。


3.根据权利要求2所述的基于粒子群算法的说话人语音识别方法,其特征在于,所述对所述说话人语音进行MFCC语音特征提取,得到所述说话人语音各音素的声纹特征,包括:
对所述说话人语音进行预加重处理,使所述说话人语音的频谱变得平坦;
将所述说话人语音分成若干帧,并将每一帧乘以汉明窗;
对各帧语音进行快速傅里叶变换,得到各帧语音的频谱,从语音的频谱获得语音的能量谱;
将语音的能量谱通过一组Mel尺度的三角形滤波器组;
计算每个三角形滤波器输出的对数能量,将对数能量经离散余弦变换,得到MFCC系数阶数阶的Mel-scaleCepstrum参数;
提取语音的动态差分参数,得到所述说话人语音各音素的声纹特征。


4.根据权利要求3所述的基于粒子群算法的说话人语音识别方法,其特征在于,所述预加重参数为0.97,一帧的采样点为512个,帧与帧之间的重叠区域包含171个采样点,加窗参数为0.46,快速傅里叶变换点数为512,三角滤波器个数为26,MFCC阶数为16。


5.一种基于粒子群算法的说话人语音识别装置,其特征在于,包括:
获取单元,用于获取去噪后的说话人语音;
特征提取单元,用于对所述说话人语音进行语音特征提取,得到所述说话人语音各音素的声纹特征...

【专利技术属性】
技术研发人员:陈昊亮许敏强
申请(专利权)人:广州国音智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1