说话对象表征提取模型训练方法和说话对象身份识别方法技术

技术编号:32135465 阅读:15 留言:0更新日期:2022-01-29 19:43
本公开关于说话对象表征提取模型训练方法和说话对象身份识别方法,所述训练方法包括:获取多个说话对象的语音信号样本;获取多个说话对象的语音信号样本的音频特征;将多个说话对象的语音信号样本的音频特征输入说话对象表征提取模型,获得估计的多条语音表征;将估计的多条语音表征输入说话对象身份判别器,获得估计的每条语音表征对应的身份预测概率;根据估计的每条语音表征对应的身份预测概率以及估计的每条语音表征对应的说话对象真实身份标签,计算损失函数的值;通过根据损失函数的值调整说话对象表征提取模型和说话对象身份判别器的参数,从而对说话对象表征提取模型进行训练。模型进行训练。模型进行训练。

【技术实现步骤摘要】
说话对象表征提取模型训练方法和说话对象身份识别方法


[0001]本公开涉及语音识别
,更具体地说,涉及说话对象表征提取模型训练方法及装置以及说话对象身份识别方法及装置。

技术介绍

[0002]随着科学技术的发展,远程会议在日常办公中越来越普遍。当多个参会对象使用同一个终端设备加入到远程会议中,远端的其他参会对象往往很难辨认当前说话对象的身份。如果终端设备的视频采集装置可用,可以通过视频采集装置所采集的视频来区分不同的说话对象。但是,视频采集装置往往面临着遮挡的问题,从而增加了基于视频辨认说话对象身份的难度。另外,有些远程会议没有视频信息可用,我们只能使用语音信息来辨认当前说话对象。然而,相关技术中通过语音识别来辨认当前说话对象的身份的方案仍存在计算负载较高的问题。

技术实现思路

[0003]本公开提供说话对象表征提取模型训练方法及装置以及说话对象身份识别方法及装置,以至少解决上述相关技术中,通过语音识别来辨认当前说话对象的身份的方案存在计算负载较高的问题。
[0004]根据本公开实施例的第一方面,提供一种说话对象表征提取模型训练方法,包括:获取多个说话对象的语音信号样本;其中,所述多个说话对象的语音信号样本包括每个说话对象的原始语音信号样本,以及所述每个说话对象的原始语音信号样本对应的模拟不同采集来源的多个模拟语音信号样本,每条所述语音信号样本具有说话对象真实身份标签;获取所述多个说话对象的语音信号样本的音频特征;将所述多个说话对象的语音信号样本的音频特征输入所述说话对象表征提取模型,获得估计的多条语音表征;将所述估计的多条语音表征输入说话对象身份判别器,获得估计的每条语音表征对应的身份预测概率;根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算损失函数的值;通过根据所述损失函数的值调整所述说话对象表征提取模型和所述说话对象身份判别器的参数,从而对所述说话对象表征提取模型进行训练。
[0005]可选地,所述获取多个说话对象的语音信号样本,包括:获取所述多个说话对象的原始语音信号样本、以及将所述多个说话对象的原始语音信号样本输入至多个均衡器所获得的多个模拟语音信号样本;其中,所述多个均衡器用于模拟不同语音采集设备的信道。
[0006]可选地,所述获取多个说话对象的语音信号样本,包括:获取所述多个说话对象的原始语音信号样本、以及所述多个说话对象的原始语音信号样本经过不同的录音设备进行录音所获得的多个模拟语音信号样本。
[0007]可选地,所述根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算损失函数的值,包括:根据所述估计的每
条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算交叉熵损失函数的值。
[0008]根据本公开实施例的第二方面,提供一种说话对象身份识别方法,包括:获取远程会议过程中被测说话对象的语音信号;获取所述被测说话对象的语音信号的音频特征;将所述音频特征输入根据本公开所述的训练方法训练出的说话对象表征提取模型,得到估计的被测说话对象的语音表征;根据所述估计的被测说话对象的语音表征与对应有说话对象身份标签的候选语音表征,确定所述被测说话对象的身份。
[0009]可选地,所述方法还包括:将候选对象预先注册的语音信号的音频特征输入到根据本公开所述的训练方法训练出的说话对象表征提取模型,获得所述候选语音表征,并基于所述候选对象的身份信息生成所述候选语音表征对应的说话对象身份标签。
[0010]可选地,所述方法还包括:确定所述远程会议的多个参会对象中每个参会对象为所述候选对象。
[0011]可选地,所述方法还包括:确定所述被测说话对象的语音信号的信号来源;确定所述远程会议的多个参会对象中与所述信号来源相关联的目标参会对象为所述候选对象。
[0012]根据本公开实施例的第三方面,提供一种说话对象表征提取模型的训练装置,包括:获取模块,被配置为获取多个说话对象的语音信号样本;其中,所述多个说话对象的语音信号样本包括每个说话对象的原始语音信号样本,以及所述每个说话对象的原始语音信号样本对应的模拟不同采集来源的多个模拟语音信号样本,每条所述语音信号样本具有说话对象真实身份标签;所述获取模块,被配置为获取所述多个说话对象的语音信号样本的音频特征;输入模块,被配置为将所述多个说话对象的语音信号样本的音频特征输入所述说话对象表征提取模型,获得估计的多条语音表征;所述输入模块,被配置为将所述估计的多条语音表征输入说话对象身份判别器,获得估计的每条语音表征对应的身份预测概率;计算模块,被配置为根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算损失函数的值;训练模块,被配置为通过根据所述损失函数的值调整所述说话对象表征提取模型和所述说话对象身份判别器的参数,从而对所述说话对象表征提取模型进行训练。
[0013]可选地,所述获取模块被配置为:获取所述多个说话对象的原始语音信号样本、以及将所述多个说话对象的原始语音信号样本输入至多个均衡器所获得的多个模拟语音信号样本,其中,所述多个均衡器用于模拟不同语音采集设备的信道。
[0014]可选地,所述获取模块被配置为:获取所述多个说话对象的原始语音信号样本、以及所述多个说话对象的原始语音信号样本经过不同的录音设备进行录音所获得的多个模拟语音信号样本。
[0015]可选地,所述计算模块被配置为:根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算交叉熵损失函数的值。
[0016]根据本公开实施例的第四方面,提供一种说话对象身份识别装置,包括:获取模块,被配置为获取远程会议过程中被测说话对象的语音信号;所述获取模块,被配置为获取所述被测说话对象的语音信号的音频特征;输入模块,被配置为将所述音频特征输入根据本公开所述的训练方法训练出的说话对象表征提取模型,得到估计的被测说话对象的语音
表征;确定模块,被配置为根据所述估计的被测说话对象的语音表征与对应有说话对象身份标签的候选语音表征,确定所述被测说话对象的身份。
[0017]可选地,所述输入模块还被配置为:将候选对象预先注册的语音信号的音频特征输入到根据本公开所述的训练方法训练出的说话对象表征提取模型,获得所述候选语音表征,并基于所述候选对象的身份信息生成所述候选语音表征对应的说话对象身份标签。
[0018]可选地,所述确定模块还被配置为:确定所述远程会议的多个参会对象中每个参会对象为所述候选对象。
[0019]可选地,所述确定模块还被配置为:确定所述被测说话对象的语音信号的信号来源;确定所述远程会议的多个参会对象中与所述信号来源相关联的目标参会对象为所述候选对象。
[0020]根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话对象表征提取模型训练方法,其特征在于,包括:获取多个说话对象的语音信号样本;其中,所述多个说话对象的语音信号样本包括每个说话对象的原始语音信号样本,以及所述每个说话对象的原始语音信号样本对应的模拟不同采集来源的多个模拟语音信号样本,每条所述语音信号样本具有说话对象真实身份标签;获取所述多个说话对象的语音信号样本的音频特征;将所述多个说话对象的语音信号样本的音频特征输入所述说话对象表征提取模型,获得估计的多条语音表征;将所述估计的多条语音表征输入说话对象身份判别器,获得估计的每条语音表征对应的身份预测概率;根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算损失函数的值;通过根据所述损失函数的值调整所述说话对象表征提取模型和所述说话对象身份判别器的参数,从而对所述说话对象表征提取模型进行训练。2.如权利要求1所述的说话对象表征提取模型训练方法,其特征在于,所述获取多个说话对象的语音信号样本,包括:获取所述多个说话对象的原始语音信号样本、以及将所述多个说话对象的原始语音信号样本输入至多个均衡器所获得的多个模拟语音信号样本;其中,所述多个均衡器用于模拟不同语音采集设备的信道。3.如权利要求1所述的说话对象表征提取模型训练方法,其特征在于,所述获取多个说话对象的语音信号样本,包括:获取所述多个说话对象的原始语音信号样本、以及所述多个说话对象的原始语音信号样本经过不同的录音设备进行录音所获得的多个模拟语音信号样本。4.如权利要求1至3中任一项所述的说话对象表征提取模型训练方法,其特征在于,所述根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算损失函数的值,包括:根据所述估计的每条语音表征对应的身份预测概率以及所述估计的每条语音表征对应的说话对象真实身份标签,计算交叉熵损失函数的值。5.一种说话对象身份识别方法,其特征在于,包括:获取远程会议过程中被测说话对象的语音信号;获取所述被测说话对象的语音信号的音频特征;将所述音频特征输入根据权利要求1至4中的任意一项所述的训练方法训练出的说话对象表征提取模型,得到估计的被测说话对象的语音表征;根据所述估计的被测说话对象的语音表征与对应有说话对象身份标签的候选语音表征,确定所述被测说话对象的身份。6....

【专利技术属性】
技术研发人员:许成林郑羲光陈联武张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1