The invention discloses a speech model training method, a speaker recognition method, a device, a device and a medium. Speech model training methods include: general background model training based on pre-prepared training speech data to obtain general background model; adaptive processing of target speaker speech data based on the general background model to obtain corresponding target voiceprint feature model; and target voiceprint feature model based on the said target voiceprint feature model. The target voiceprint feature vectors of the target speaker's speech data are acquired, and the target voiceprint feature vectors are input into the depth neural network for training to obtain the target speaker's speech recognition model. The target speaker speech recognition model acquired by this speech model training method can get accurate recognition results.
【技术实现步骤摘要】
语音模型训练方法、说话人识别方法、装置、设备及介质
本专利技术涉及语音处理领域,尤其涉及一种语音模型训练方法、说话人识别方法、装置、设备及介质。
技术介绍
目前在进行说话人语音识别时,大多数都是根据语音特征进行识别,这些语音特征有的维度太高,包含了太多非关键信息;有的维度太低,不能充分体现说话人语音的特点,使得当前说话人识别时精确度较低,无法对说话人语音进行有效的识别,制约说话人语音识别的应用。
技术实现思路
本专利技术实施例提供一种语音模型训练方法、装置、设备及介质,以解决当前说话人识别准确度低的问题。本专利技术实施例还提供一种说话人识别方法、装置、设备及介质,以解决当前说话人识别准确度低的问题。第一方面,本专利技术实施例提供一种语音模型训练方法,包括:基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。第二方面,本专 ...
【技术保护点】
1.一种语音模型训练方法,其特征在于,包括:基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。
【技术特征摘要】
1.一种语音模型训练方法,其特征在于,包括:基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。2.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型,包括:基于所述训练语音数据,获取训练语音特征;采用所述训练语音特征进行通用背景模型训练,获取通用背景模型;其中,所述基于所述训练语音数据,获取训练语音特征,包括:对所述训练语音数据进行预处理;对预处理后的所述训练语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据所述频谱获取训练语音数据的功率谱;采用梅尔刻度滤波器组处理所述训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;在所述梅尔功率谱上进行倒谱分析,获取训练语音数据的梅尔频率倒谱系数,并将获取到的梅尔频率倒谱系数确定为所述训练语音特征。3.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型,包括:采用奇异值分解对所述通用背景模型进行特征降维处理,获取目标背景模型;采用所述目标背景模型对所述目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型。4.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量,包括:基于所述目标声纹特征模型,获取目标说话人语音数据的声纹特征向量空间;根据所述声纹特征向量空间,获取目标声纹特征向量。5.根据权利要求1所述的语音模型训练方法,其特征在于,所述将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型,包括:初始化深度神经网络模型;将所述目标声纹特征向量分组输入到所述深度神经网络模型中,根据前向传播算法获取深度神经网络模型的输出值,目标声纹特征向量的第i组样本在深度神经网络模型的当前层的输出值用公式表示为ai,l=σ(Wlai,l-1+bl),其中,a为输出值,i表示输入的目标声纹特征向量的第i组样本,l为深度神经网络模型的当前层,σ为激活函数,W为权值,l-1为深度神经网络模型的当前层的上一层,b为偏置;基于深度神经网络模型的输出值进行误差反传,更新深度神经网络模型各层的权值和偏置,获取目标说话人语音识别模型,其中,更新权值的计算公式为l为深度神经网络模型的当前层,W为权值,α为迭代步长,m为输入的目标声纹特征...
【专利技术属性】
技术研发人员:涂宏,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。