一种基于粒子群算法的说话人语音识别方法、装置和设备制造方法及图纸

技术编号：24689976 阅读：75 留言：0更新日期：2020-06-27 09:50

本申请公开了一种基于粒子群算法的说话人语音识别方法、装置和设备，包括：获取去噪后的说话人语音；对说话人语音进行语音特征提取，得到说话人语音各音素的声纹特征；根据检材语音特征设定目标函数，基于粒子群算法对说话人的语音音素进行寻优，得到最佳声纹特征；将最佳声纹特征输入预置识别模型进行语音识别。本申请中提供的基于粒子群算法的说话人语音识别方法，通过对说话人语音进行特征提取，利用粒子群算法对最佳音素进行寻优，从而得到最佳声纹特征进行语音识别，解决了现有的语音鉴定方法需要比对较多的音素，且无法得到最适合用于比对的优质音素，语音鉴定效果不理想的技术问题。

A method, device and equipment of speaker speech recognition based on particle swarm optimization

全部详细技术资料下载

【技术实现步骤摘要】
一种基于粒子群算法的说话人语音识别方法、装置和设备
本申请涉及语音鉴定
，尤其涉及一种基于粒子群算法的说话人语音识别方法、装置和设备。
技术介绍
现有的同一人语音鉴定方式是对说话人语音进行声纹特征提取，通过BP神经网络进行声纹识别，得到声纹匹配结果，为避免语音噪声的影响，需要对语音进行去噪处理后再进行声纹特征提取，而在说话人发音的众多音素中，并不是所有音素都有利于语音识别，因此，如何找出说话人语音的优质音素是本领域技术人员亟待解决的技术问题。
技术实现思路
本申请提供了一种基于粒子群算法的说话人语音识别方法、装置和设备，用于解决现有的语音鉴定方法需要比对较多的音素，且无法得到最适合用于比对的优质音素，语音鉴定效果不理想的技术问题。有鉴于此，本申请第一方面提供了一种基于粒子群算法的说话人语音识别方法，包括：获取去噪后的说话人语音；对所述说话人语音进行语音特征提取，得到所述说话人语音各音素的声纹特征；根据检材语音特征设定目标函数，基于粒子群算法对说话人的语音音素进行寻优，...

【技术保护点】
1.一种基于粒子群算法的说话人语音识别方法，其特征在于，包括：/n获取去噪后的说话人语音；/n对所述说话人语音进行语音特征提取，得到所述说话人语音各音素的声纹特征；/n根据检材语音特征设定目标函数，基于粒子群算法对说话人的语音音素进行寻优，得到最佳声纹特征；/n将所述最佳声纹特征输入预置识别模型进行语音识别。/n

【技术特征摘要】
1.一种基于粒子群算法的说话人语音识别方法，其特征在于，包括：
获取去噪后的说话人语音；
对所述说话人语音进行语音特征提取，得到所述说话人语音各音素的声纹特征；
根据检材语音特征设定目标函数，基于粒子群算法对说话人的语音音素进行寻优，得到最佳声纹特征；
将所述最佳声纹特征输入预置识别模型进行语音识别。

2.根据权利要求1所述的基于粒子群算法的说话人语音识别方法，其特征在于，所述对所述说话人语音进行语音特征提取，得到所述说话人语音各音素的声纹特征，包括：
对所述说话人语音进行MFCC语音特征提取，得到所述说话人语音各音素的声纹特征。

3.根据权利要求2所述的基于粒子群算法的说话人语音识别方法，其特征在于，所述对所述说话人语音进行MFCC语音特征提取，得到所述说话人语音各音素的声纹特征，包括：
对所述说话人语音进行预加重处理，使所述说话人语音的频谱变得平坦；
将所述说话人语音分成若干帧，并将每一帧乘以汉明窗；
对各帧语音进行快速傅里叶变换，得到各帧语音的频谱，从语音的频谱获得语音的能量谱；
将语音的能量谱通过一组Mel尺度的三角形滤波器组；
计算每个三角形滤波器输出的对数能量，将对数能量经离散余弦变换，得到MFCC系数阶数阶的Mel-scaleCepstrum参数；
提取语音的动态差分参数，得到所述说话人语音各音素的声纹特征。

4.根据权利要求3所述的基于粒子群算法的说话人语音识别方法，其特征在于，所述预加重参数为0.97，一帧的采样点为512个，帧与帧之间的重叠区域包含171个采样点，加窗参数为0.46，快速傅里叶变换点数为512，三角滤波器个数为26，MFCC阶数为16。

5.一种基于粒子群算法的说话人语音识别装置，其特征在于，包括：
获取单元，用于获取去噪后的说话人语音；
特征提取单元，用于对所述说话人语音进行语音特征提取，得到所述说话人语音各音素的声纹特征...

【专利技术属性】
技术研发人员：陈昊亮，许敏强，
申请(专利权)人：广州国音智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人