模型训练的方法、声纹识别的方法、系统、设备及介质技术方案

技术编号:24012940 阅读:48 留言:0更新日期:2020-05-02 02:22
本发明专利技术公开了一种模型训练的方法、声纹识别的方法、系统、设备及介质,其中模型训练的方法,包括以下步骤:获取多个客户的音频数据;将音频数据进行预处理转化为具有预设音频时长的待训练音频数据;从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;其中,三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数。本发明专利技术利用第一损失函数和第二损失函数对神经网络模型进行联合优化,提高了利用模型对客户来电语音的声纹识别的准确度。

Model training method, voiceprint recognition method, system, equipment and medium

【技术实现步骤摘要】
模型训练的方法、声纹识别的方法、系统、设备及介质
本专利技术涉及声纹识别
,特别涉及一种模型训练的方法、声纹识别的方法、系统、设备及介质。
技术介绍
每个人都有固定的性别且独有特点的声纹信息,声纹可以作为个人的身份证。通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量,可通过计算两段语音的身份向量之间的相似度来确定两端语音的输入者是否是同一人。在OTA(OnlineTravelAgency,在线旅游)行业中用户下完酒店订单后,存在酒店伪装用户或者用户亲属对酒店订单进行取消或者修改的行为,该行为损害了用户和OTA平台的利益,需要利用声纹识别模型解决酒店订单中假冒客户进行修改和取消订单的问题。但是由于客户与酒店客服接通电话的场景非常复杂,例如,存在环境噪声、多方沟通等因素对识别结果造成偏差,除此之外,未考虑性别因素对声纹识别带来的影响。现有模型对于客户的声纹识别准确度较低,无法确定同一订单数据所对应的客户是否相同是亟待解决的问题。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中在噪音环境下,未考虑性别因素带来的影响,常规的模型识别的准确性。会降低提供一种模型训练的方法、声纹识别的方法、系统、设备及介质。本专利技术是通过下述技术方案来解决上述技术问题:第一方面,本专利技术提供一种模型训练的方法,所述方法包括:获取多个客户的音频数据;将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;其中,所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据,所述第三音频数据为其他客户的音频数据;所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为构造三元组判断相似性的损失函数,所述第二损失函数为基于性别进行二分类的交叉熵损失函数。较佳地,所述卷积神经网络模型使用的损失函数通过以下公式获得:Lcross-triplet=λLtriplet+μLcross其中,Lcross-triplet表示所述损失函数,Ltriplet表示所述第一损失函数,Lcross表示所述第二损失函数,λ、μ表示所述损失函数的调节因子。较佳地,所述第一损失函数通过以下公式获得:其中,表示第i个所述第一音频数据与所述第二音频数据的余弦距离,表示第i个所述第一音频数据与所述第三音频数据的余弦距离,α为软间隔参数,N为整数,[x]+=Max(x,0)。较佳地,所述第二损失函数通过以下公式获得:Lcross=-[ylog(p)+(1-y)·log(1-p)]其中,y表示所述客户的性别标签,若所述客户的性别标签为男性时y取值为0,若所述客户的性别标签为女性时y取值为1,p为所述客户预测为女性时的概率。较佳地,所述将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据的步骤包括:将所述音频数据的音频长度与所述预设音频时长进行比较;若所述音频长度小于所述预设音频时长,则复制所述音频数据并添加至所述音频数据的尾部,以生成长度为所述预设音频时长的待训练音频数据;若所述音频长度大于所述预设音频时长,则根据所述预设音频时长创建滑动窗口,通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本,对所述音频样本的音频特征进行加和平均后,生成长度为所述预设音频时长的待训练音频数据;若所述音频长度等于所述预设音频时长,则直接将所述音频数据作为待训练音频数据。较佳地,获取多个客户的音频数据的步骤之前包括:对酒店客服与客户的语音通话过程进行实时录音,获取酒店客服与客户通话的音频文件;将所述音频文件进行左右声道分离,获取客户对应的客户语音音频片段;所述获取多个客户的音频数据的步骤具体包括:对所述客户语音音频片段进行静音分离,得到所述多个客户的音频数据。第二方面,本专利技术还提供一种模型训练的系统,包括:第一获取模块,用于获取多个客户的音频数据;预处理模块,用于将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;训练模块,用于从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;其中,所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据,所述第三音频数据为其他客户的音频数据;所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为构造三元组判断相似性的损失函数,所述第二损失函数为基于性别进行二分类的交叉熵损失函数。较佳地,所述预处理模块包括:比较单元,用于将所述音频数据的音频长度与所述预设音频时长进行比较;第一预处理单元,用于在所述音频长度小于所述预设音频时长时,复制所述音频数据并添加至所述音频数据的尾部,以生成长度为所述预设音频时长的待训练音频数据;第二预处理单元,用于在所述音频长度大于所述预设音频时长时,则根据所述预设音频时长创建滑动窗口,通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本,对所述音频样本的音频特征进行加和平均后,生成长度为所述预设音频时长的待训练音频数据;第三预处理单元,用于在所述音频长度等于所述预设音频时长时,则直接将所述音频数据作为待训练音频数据。较佳地,所述系统还包括:第二获取模块,用于对酒店客服与客户的语音通话过程进行实时录音,获取酒店客服与客户通话的音频文件;第三获取模块,用于将所述音频文件进行左右声道分离,获取客户对应的客户语音音频片段;所述第一获取模块具体用于对所述客户语音音频片段进行静音分离,得到所述多个客户的音频数据。第三方面,本专利技术还提供一种声纹识别的方法,包括:利用上述的方法训练出所述卷积神经网络模型;获取同一订单数据所对应的目标客户音频片段和待识别客户音频片段;将所述目标客户音频片段和所述待识别客户音频片段分别输入所述卷积神经网络模型得到相应的第一声纹特征向量与第二声纹特征向量;根据所述第一声纹特征向量与所述第二声纹特征向量计算余弦相似度;将所述余弦相似度和预设阈值进行比较,确定所述目标客户和所述待识别客户是否相同。第四方面,本专利技术还提供一种声纹识别的系统,包括:如上述的模型训练的系统,用于训练出所述卷积神经网络模型;音频获取模块,用于获取同一订单数据所对应的目标客户音频片段和待识别客户音频片段;声纹特征获取模块,用于将所述目标客户音频片段和所述待识别客户音频片段分别输入所述卷积神经网络模型得到相应的第一声纹特征向量与第二声纹特征向量;计算模块,用本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,所述方法包括:/n获取多个客户的音频数据;/n将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;/n从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;/n其中,所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据,所述第三音频数据为其他客户的音频数据;/n所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为构造三元组判断相似性的损失函数,所述第二损失函数为基于性别进行二分类的交叉熵损失函数。/n

【技术特征摘要】
1.一种模型训练的方法,其特征在于,所述方法包括:
获取多个客户的音频数据;
将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;
从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;
其中,所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据,所述第三音频数据为其他客户的音频数据;
所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为构造三元组判断相似性的损失函数,所述第二损失函数为基于性别进行二分类的交叉熵损失函数。


2.如权利要求1所述的模型训练的方法,其特征在于,所述卷积神经网络模型使用的损失函数通过以下公式获得:
Lcross-triplet=λLtriplet+μLcross
其中,Lcross-triplet表示所述损失函数,Ltriplet表示所述第一损失函数,Lcross表示所述第二损失函数,λ、μ表示所述损失函数的调节因子。


3.如权利要求2所述的模型训练的方法,其特征在于,所述第一损失函数通过以下公式获得:



其中,表示第i个所述第一音频数据与所述第二音频数据的余弦距离,表示第i个所述第一音频数据与所述第三音频数据的余弦距离,α为软间隔参数,N为整数,[x]+=Max(x,0)。


4.如权利要求2所述的模型训练的方法,其特征在于,所述第二损失函数通过以下公式获得:
Lcross=-[ylog(p)+(1-y)·log(1-p)]
其中,y表示所述客户的性别标签,若所述客户的性别标签为男性时y取值为0,若所述客户的性别标签为女性时y取值为1,p为所述客户预测为女性时的概率。


5.如权利要求1所述的模型训练的方法,其特征在于,所述将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据的步骤包括:
将所述音频数据的音频长度与所述预设音频时长进行比较;
若所述音频长度小于所述预设音频时长,则复制所述音频数据并添加至所述音频数据的尾部,以生成长度为所述预设音频时长的待训练音频数据;
若所述音频长度大于所述预设音频时长,则根据所述预设音频时长创建滑动窗口,通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本,对所述音频样本的音频特征进行加和平均后,生成长度为所述预设音频时长的待训练音频数据;
若所述音频长度等于所述预设音频时长,则直接将所述音频数据作为待训练音频数据。


6.如权利要求1所述的模型训练的方法,其特征在于,获取多个客户的音频数据的步骤之前包括:
对酒店客服与客户的语音通话过程进行实时录音,获取酒店客服与客户通话的音频文件;
将所述音频文件进行左右声道分离,获取客户对应的客户语音音频片段;
所述获取多个客户的音频数据的步骤具体包括:
对所述客户语音音频片段进行静音分离,得到所述多个客户的音频数据。


7.一种模型训练的系统,其特征在于,包括:
第一获取模块,用于获取多个客户的音频数据;
预处理模块,用于将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;
训练模块,用于从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训...

【专利技术属性】
技术研发人员:任君罗超胡泓
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1