语音数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:25483486 阅读:61 留言:0更新日期:2020-09-01 23:03
本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质,所述方法包括:获取包含多个待识别用户标识对应的多帧语音帧将各个语音帧输入深度神经网络模型,通过深度神经网络模型提取各个语音帧的声纹特征将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型,通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度,根据相似度对所述语音帧进行划分,得到多组语音帧集合,通过各组语音帧集合的声纹特征,识别各组语音帧集合对应的目标用户标识。通过深度神经网络快速准确的提取语音帧的声纹特征,通过循环神经网络模型对语音段数据进行分割识别,节约系统资源,识别快速且准确。

【技术实现步骤摘要】
语音数据处理方法、装置、计算机设备和存储介质
本申请涉及语音数据处理
,尤其涉及一种语音数据处理方法、装置、计算机设备和存储介质。
技术介绍
声纹识别(Voiceprintrecognition)是生物识别技术的一种,声纹其实就是指语音中蕴含的、能表征和表示说话人的语音特征,以及基于这些特征所建立的语音模型的总称。由于人的说话过程是人体语言中枢与发声器官之间的一个复杂的生理物理过程,每个人的发声器官—舌头、牙齿、喉咙、肺和鼻腔在尺寸和形态方面的差异很大,所以每一个人的声纹都是独一无二的。因此可以使用声纹用来进行辨认和确认。声纹识别现在主要可以应用在公安司法、智能音响、智能家居、网络支付、声纹锁等等。一般的一个声纹识别系统要先对语音信号预处理,然后再提取特征训练模型,并将模型存入模型库。之后将需要识别的语音信号同样进行预处理、特征提取、训练模型,最后再将训练出来的模型后已有的模型打分判决,来判断当前需要识别的语音信号是哪个人的。一段语音中存在多个人在不同的时间点说话时,往往是采用无监督的聚类方法对语音进行分割得到各个人的说话本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,其特征在于,所述方法包括:/n获取包含多个待识别用户标识对应的多帧语音帧;/n将各个所述语音帧输入深度神经网络模型,通过所述深度神经网络模型提取各个所述语音帧的声纹特征;/n将所述深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型;/n通过所述循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度,根据所述相似度对所述语音帧进行划分,得到多组语音帧集合;/n将各组语音帧集合的声纹特征输入所述深度神经网络模型的输出层,通过所述输出层识别各组所述语音帧集合对应的目标用户标识。/n

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:
获取包含多个待识别用户标识对应的多帧语音帧;
将各个所述语音帧输入深度神经网络模型,通过所述深度神经网络模型提取各个所述语音帧的声纹特征;
将所述深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型;
通过所述循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度,根据所述相似度对所述语音帧进行划分,得到多组语音帧集合;
将各组语音帧集合的声纹特征输入所述深度神经网络模型的输出层,通过所述输出层识别各组所述语音帧集合对应的目标用户标识。


2.根据权利要求1所述的方法,其特征在于,所述获取包含多个待识别用户标识对应的多帧语音帧之前,还包括:
获取多帧训练语音帧,所述训练语音帧包含多个训练用户标识对应的声纹特征;
构建初始深度神经网络模型;
将所述训练语音帧和对应的训练用户标识输入所述初始深度神经网络模型,根据所述初始深度神经网络模型提取所述训练语音帧的训练声纹特征,通过所述训练声纹特征识别出各个所述训练用户标识对应的训练声纹特征,根据各个训练语音帧对应的训练声纹特征确定各个所述训练语音帧的识别用户标识;
计算所述识别用户标识和对应的训练用户标识的匹配度,当所述匹配度大于预设匹配度阈值时,所述初始深度神经网络模型收敛,得到所述深度神经网络模型。


3.根据权利要求1所述的方法,其特征在于,所述获取包含多个待识别用户标识对应的多帧语音帧之前,还包括:
构建初始循环神经网络模型;
将多个训练语音帧的声纹特征和对应的训练用户标签输入所述初始循环神经网络模型,通过所述初始循环神经网络模型识别各个所述训练语音帧的声纹特征是否发生变化,输出各个所述训练语音帧对应的变化状态;
根据各个所述训练语音帧对应的变化状态和对应的用户标识,判断所述初始循环神经网络模型的收敛状态,当所述初始循环神经网络模型收敛时,得到所述循环神经网络模型。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述初始循环神经网络模型未收敛时,采用反向传播算法更新所述初始循环神经网络模型的模型参数,直至根据各个所述训练语音帧对应的变化状态和对应的用户标识,判断所述初始循环神经网络模型的收敛状态为收敛时,得到所...

【专利技术属性】
技术研发人员:于永昊
申请(专利权)人:广州慧睿思通信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1