用于多说话人的语音识别模型的训练方法及系统技术方案

技术编号:26261151 阅读:47 留言:0更新日期:2020-11-06 17:57
本发明专利技术实施例提供一种用于多说话人的语音识别模型的训练方法。该方法包括:将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得多个说话人的高维特征序列表示;基于上下文嵌入提取器,确定多说话人的单通道混合语音特征中每个说话人的上下文嵌入表示,组成上下文混合嵌入序列表示,将上下文混合嵌入序列表示分别与多个说话人的高维特征序列表示拼接,确定每个说话人的拼接高维特征序列表示;基于注意力机制的解码器对每个说话人的拼接高维特征序列表示进行解码输出每个说话人的预测说话文本。本发明专利技术实施例还提供一种用于多说话人的语音识别模型的训练系统。本发明专利技术推进鸡尾酒会场景下的语音识别问题的解决,提高语音识别效果。

【技术实现步骤摘要】
用于多说话人的语音识别模型的训练方法及系统
本专利技术涉及语音识别领域,尤其涉及一种用于多说话人的语音识别模型的训练方法及系统。
技术介绍
近年来,随着越来越多的研究集中在更真实场景下的语音处理,端到端多说话人语音识别已经成为一个热门话题。对于语音识别通常会使用端到端单通道多说话人语音识别、基于说话人嵌入表示的目标说话人语音识别。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:端到端单通道多说话人语音识别:由于同时存在多人说话的语音信号,该模型仅能利用混合语音的信息,在训练时缺少单个说话人的语音信息,较难训练出好的效果,与单说话人语音识别系统相比性能差距较大。基于说话人嵌入表示的目标说话人语音识别:虽然识别效果相比端到端单通道多说话人语音识别有提升,但只能针对事先已知混合语音中的特定说话人信息的情况,如果在测试时无法获知输入混合语音中的说话人信息,则该方法对识别没有帮助。
技术实现思路
为了至少解决现有技术中在训练时缺少对应混合语音的单个说话人的语音,没有提供额外的信息,仅能利用输入本文档来自技高网...

【技术保护点】
1.一种用于多说话人的语音识别模型的训练方法,包括:/n将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;/n基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;/n基于注意力机制的解码器对所述每个说...

【技术特征摘要】
1.一种用于多说话人的语音识别模型的训练方法,包括:
将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。


2.根据权利要求1所述的方法,其中,所述基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本包括:
基于注意力机制的解码器将所述每个说话人的拼接高维特征序列表示转换为每个说话人的预测文本序列;
将所述每个说话人的文本序列,转换成所述每个说话人的预测说话文本。


3.根据权利要求1所述的方法,其中,所述语音识别模型包括:语音特征的编码器,基于注意力机制的解码器,连接时序分类模块;
其中,所述语音特征的编码器包括:
混合语音编码器,用于单通道混合语音特征的特征采样,
说话人编码器,用于从所述单通道混合语音特征的特征采样中分别提取对应于每个说话人的中间特征,
识别编码器,用于将所述中间特征转换成每个说话人的高维特征序列表示;
所述基于注意力机制的解码器用于将所述高维特征序列表示转换为文本序列;
所述连接时序分类模块用于辅助训练所述语音特征的编码器,用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。


4.根据权利要求1所述的方法,其中,在将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接之前,所述方法还包括:
通过注意力机制确定所述上下文混合嵌入序列表示对于所述多个说话人的高维特征序列表示的权值;
基于所述多个说话人的高维特征序列表示的权值分别对所述上下文混合嵌入序列表示加权,将加权后的上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,以提高语音识别效果。


5.根据权利要求1所述的方法,其中,所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得,包括:
通过端到端语音识别编码器分别提取所述多个说话人各自的干净语音中的理想上下文特征;
将由所述多个说话人各自的干净语音生成的混合音频的滤波器组系数特征作为所述上下文嵌入提取器的输入,输出多个说话人各自的预测上下文特征;
基于所述多个说话人各自的所述理想上下文特征以及所述预测上下文特征对所述上下文嵌入...

【专利技术属性】
技术研发人员:钱彦旻张王优
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1