当前位置: 首页 > 专利查询>周婷婷专利>正文

一种基于BP神经网络的说话人识别方法技术

技术编号:10362865 阅读:294 留言:0更新日期:2014-08-27 18:54
本发明专利技术一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤。其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,得到语音预处理信号。采用MFCC语音参数提取法对语音预处理信号进行特征提取,然后采用PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库。语音识别阶段时,采用和语音训练阶段时一样的方法。在BP神经网络中输入上述特征参数,并由pso-BP流程算法计算输出结果,将输出的结果与数据库中的期望识别身份逐一进行比较,将识别误差最小的那个身份作为最后的识别结果。

【技术实现步骤摘要】
一种基于BP神经网络的说话人识别方法
本专利技术涉及说话人识别技术,特别是涉及一种基于BP神经网络的说话人识别方法。
技术介绍
说话人识别(Speaker Recognition, SR)又称话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人的技术。其综合了生理学、语音学、数字信号处理、模式识另O、人工智能等学科知识的一个研究课题,以独特的方便性、经济性和准确性等优势,在相关领域内发挥着重要作用,并有着广阔的市场背景。说话人识别的基本原理,是利用说话人的语音为每个说话人建立一个能够描述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对测试的语音信号进行比对,实现判别说话人身份的目的。说话人的个性特征一定程度上体现在说话人的发音声道变化上,即声道特征可以更好地对说话人进行识别。基于声道的特征主要有:(I)美尔倒谱系数(Mel-frequencyCepstralCoefficients, MFCC),是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数。它能够比较充分利用人耳这种特殊的感知特性,这种特征具有比较强的鲁棒性,得到了广泛应用。(2)线性预测倒谱系数(LinearPredictionCepstrumCoefficient, LPCC),1947年维纳首次提出了线性预测这一术语,而板仓等人在1967年首先将线性预测技术应用到了语音分析和合成中。LPCC是最早被应用到语音识别中的一种倒谱参数,其主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,计算量小,并且对元音有较好地描述能力,而且往往只需要十几个倒谱系数就能较好地描述语音的共振峰特性,因此在说话人识别中得到了良好的应用。在语音技术研究及应用领域,语音信号的识别算法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识方面的研究虽然起步较早,但由于其复杂性,现阶段没有取得很好的实用效果。模板匹配的方法有动态时间规整(DTW)、隐马尔科夫(HMM)理论、矢量量化(VQ)技术,这些算法在噪声环境下干扰能力差,不能达到良好的识别效果。人工神经网络方法具有自适应性、并进行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入-输出映射能力在语音识别中都极具吸引力。反向传播(BackPropagation, BP)网络是一种误差逆向传播算法训练的多层前馈网络,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力及原理简单、容易实现等优点。但其也存在固有的缺陷:容易陷入局部极小,收敛速度慢,网络泛化能力较弱。而遗传算法作为一种全局优化算法,可以快速的搜索出解空间中的全体,而不会出现落入局部最优解的下降陷阱,同时由于遗传算法具有分布式计算的特点,在实际求解时可以加快速度,且比传统的BP神经网络具有较强的预测精度。并且预测的均方误差也较小。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于BP神经网络的说话人识别方法。本专利技术的目的可以通过以下技术方案来实现:一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号。采用MFCC语音参数提取法对语音预处理信号进行特征提取,求得说话人的特征参数;然后采用PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库。2.语音识别时,采用和语音训练阶段时一样的方法,从待识别的语音中提取出语音特征。在BP神经网络中输入上述特征参数,然后分别调用模型库中每个人已保存好的网络权值;并由PS0-BP流程算法计算输出结果,将输出的结果与数据库中的期望识别身份逐一进行比较,将识别误差最小的那个身份作为最后的识别结果。本专利技术的有益效果是:本专利技术利用MFCC和BP神经网络相结合,本专利技术公开的说话人识别方法能够更有效的识别说话人,本专利技术以标准反向传播算法(Back Propagation) BP神经网络作为参考对象,通过使用粒子群算法来优化BP神经网络以减小异常声音的误判,比传统BP神经网络具有更强的预测精度,并且预测的均方误差也较小,具有广泛的应用前景。【附图说明】图1是本专利技术语音识别过程示意图。图2是本专利技术MFCC语音参数提取示意图。图3是本专利技术pso-BP流程算法不意图。图4是本专利技术PSO-BP神经网络示意图。【具体实施方式】下面结合附图和【具体实施方式】对本专利技术进行详细说明。根据图1、图2、图3、图4所示的一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号。即:语音信号预处理,包括:由预加重、端点检测、分帧和加窗分为四个部分。1.预加重由于语音信号的高频端呈现快衰落,频率越高的语音信号频谱相应的信号成分越小,为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带内,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重的传递函数为:H(s) =1-Us-1其中μ为预加重系数,可取为I或比I稍小的值,一般取,μ = 0.95。2.端点检测端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效地端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。端点检测技术大都是基于语音信号的时域特征来进行的,本文采用两种时域特征:短时能量和短时过零率,通过设定它们的门限来进行检测。短时能量定义为:本文档来自技高网
...

【技术保护点】
一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号;即:语音信号预处理,包括预加重、端点检测、分帧和加窗。

【技术特征摘要】
1.一种基于BP神经网络的说话人识别方法,其步骤是:分为语音训练阶段和语音识别阶段两个步骤;其特征在于:所述语音训练阶段的步骤是:首先对说话人语音进行语音训练,获取说话人语音信号,并得到语音预处理信号;即:语音信号预处理,包括预加重、端点检测、分帧和加窗。2.根据权利要求1所述一种基于BP神经网络的说话人识别方法,其特征在于:所述MFCC语音参数提取法对语音预处理信号进行特征提取,求得说话人的特征参数;即:MFCC语音参数提取示方法如下: (1)经过预处理的语音信号X(n,(Ok)的幅度将被Mel刻度滤波器组的频率响应加权。Mel刻度滤波器组的中心频率按Mel频率均匀排列,每个三角滤波器的两个底点是相邻滤波器的中心,这些滤波器的中心频率和带宽与听觉临界边带滤波器组大体一致;在系统中Mel刻度滤波器个数取值为28 ; (2)该步计算经Mel刻度滤波器频响加权后的能量值,表示第一个滤波器ν?(ω)的频率响应;时刻η的语音帧的第I个Mel刻度滤波器输出的能量为Emel (η, I),计算公式 3.根据权利要求2所述一种基于BP神经网络的说话人识别方法,其特征在于:所述PSO-BP神经网络进行模型训练,经过训练后的模型,建立和优化PSO-BP神经网络模型库;即:PS0-BP神经网络的建立和优化的模型库如下: 步骤1:初始化 初始化BP网络结构,包括设定网络的输入层、隐含层、输出...

【专利技术属性】
技术研发人员:周婷婷李燕萍
申请(专利权)人:周婷婷
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1