【技术实现步骤摘要】
语音识别模型的训练方法和语音识别方法及装置
[0001]本公开涉及人工智能
,进一步涉及语音识别领域和深度学习领域,具体涉及一种语音识别模型的训练方法和语音识别方法及装置。
技术介绍
[0002]在智能客服、多对象会话等场景中,通常会存在有至少两个说话对象的情况。针对该情况,为了高精度的识别语音,通常需要先对说话对象进行区分,得到每个说话对象的语音帧,然后对每个说话对象的语音帧进行识别。
技术实现思路
[0003]本公开提供了一种提高语音识别精度的语音识别模型的训练方法和语音识别方法、装置、设备和存储介质。
[0004]根据本公开的一个方面,提供了一种语音识别模型的训练方法,其中,语音识别模型包括对象分离网络、N个文本预测网络和语音识别网络,N为大于1的整数;该方法包括:针对涉及N个对象的语音帧序列,将当前帧的语音特征输入对象分离网络,得到分别与N个对象相对应的N个第一内容特征;语音帧序列包括针对N个对象的N个实际文本;将N个实际文本中针对N个对象、且属于当前帧的在前帧的N个目标字符输入N个文本 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别模型的训练方法,其中,所述语音识别模型包括对象分离网络、N个文本预测网络和语音识别网络,N为大于1的整数;所述方法包括:针对涉及N个对象的语音帧序列,将当前帧的语音特征输入所述对象分离网络,得到分别与所述N个对象相对应的N个第一内容特征;所述语音帧序列包括针对所述N个对象的N个实际文本;将所述N个实际文本中针对所述N个对象、且属于所述当前帧的在前帧的N个目标字符输入所述N个文本预测网络,得到N个第一文本特征;将所述N个第一内容特征和所述N个第一文本特征输入所述语音识别网络,得到针对所述当前帧的预测字符向量;基于针对所述语音帧序列中每个语音帧的预测字符向量,确定预测文本包括所述N个实际文本的概率;以及基于所述概率,训练所述语音识别模型。2.根据权利要求1所述的方法,其中,所述对象分离网络包括混合编码子网络、N个对象编码子网络和N个识别编码子网络;所述将当前帧的语音特征输入所述对象分离网络,得到分别与所述N个对象相对应的N个第一内容特征包括:将所述当前帧的语音特征输入所述混合编码子网络,得到混合内容特征;将所述混合内容特征输入所述N个对象编码子网络,得到N个中间特征;以及将所述N个中间特征分别输入所述N个识别编码子网络,得到所述N个第一内容特征。3.根据权利要求2所述的方法,其中,所述语音识别网络包括组合子网络和预测子网络;将所述N个第一内容特征和所述N个第一文本特征输入所述语音识别网络,得到针对所述当前帧的预测字符向量包括:将所述N个第一内容特征与所述N个第一文本特征输入所述组合子网络,得到由所述N个第一内容特征与所述N个第一文本特征彼此组合得到的N!个特征对组,作为所述当前帧的特征对组;以及将所述N!个特征对组依次输入所述预测子网络,得到与所述N!个特征对组相对应的N!个字符向量组,作为针对所述当前帧的预测字符向量,其中,所述N!个特征对组中的每个特征对组包括N个第一特征对,所述N个第一特征对中的N个第一内容特征分别来自所述N个识别编码子网络;所述N个第一特征对中的N个第一文本特征分别来自所述N个文本预测网络;所述N!个字符向量组中的每个字符向量组包括与所述N个第一特征对相对应的N个字符向量。4.根据权利要求3所述的方法,其中,所述确定预测文本包括所述N个实际文本的概率包括:针对所述语音帧序列中各语音帧的特征对组:确定与N!个特征对集合相对应的字符向量集合,得到N!个字符向量集合,其中,所述N!个特征对集合中的每个特征对集合由来源相同的M个特征对组成;以及基于所述每个字符向量集合,确定预测文本包括所述N个实际文本中每个实际文本的概率,得到针对所述每个字符向量集合的概率集合,其中,M为所述语音帧序列包括的帧数。5.根据权利要求4所述的方法,其中,所述基于所述每个字符向量集合,确定预测文本
包括所述N个实际文本中每个实际文本的概率包括:针对所述每个字符向量集合中的M个字符向量组:确定与来源相同的M个特征对相对应、且依据获得顺序依次排列的M个字符向量各自的目标元素,得到N个目标元素序列;以及确定所述N个目标元素序列中每个元素序列的元素的和,作为所述预测文本包括一个实际文本的概率,其中,所述每个元素序列中的元素依次对应的字符组成所述N个实际文本中的一个实际文本,不同元素序列中的元素依次对应的字符组成的实际文本不同。6.根据权利要求4所述的方法,其中,所述基于所述概率,训练所述语音识别模型包括:基于针对所述每个字符向量集合的概率集合中的N个概率,分别确定预测得到所述N个实际文本中每个实际文本的损失,得到N个损失;确定所述N个损失的和,作为针对所述每个字符向量集合的损失;以及基于针对所述N!个字符向量集合的N!个损失中的最小损失,训练所述语音识别模型。7.根据权利要求1所述的方法,还包括:确定所述当前帧的声学特征;基于所述当前帧的声学特征及所述当前帧的在后帧的声学特征,确定针对所述当前帧的差分特征;以及拼接所述当前帧的声学特征和针对所述当前帧的差分特征,获得所述当前帧的语音特征。8.根据权利要求1所述的方法,还包括:对涉及所述N个对象的语音样本进行分帧处理,得到多个语音帧;以及对所述多个语音帧基于预定采样间隔进行采样,得到所述语音帧序列,其中,所述预定采样间隔大于等于1帧。9.根据权利要求1所述的方法,其中:所述基于所述概率,训练所述语音识别模型包括:基于所述概率,训练所述对象分离网络和所述语音识别网络;所述方法还包括:基于多个文本样本,对所述N个文本预测网络进行预训练,其中,所述N个文本预测网络的网络结构相同,且所述N个文本预测网络共享网络权重。10.一种语音识别方法,包括:针对涉及N个对象的待识别语音帧序列,将待识别语音帧序列中的待识别当前帧的语音特征输入语音识别模型的对象分离网络,得到分别与所述N个对象相对应的N个第二内容特征,N为大于1的整数;将针对所述待识别当前帧的在前语音帧的N个预测字符分别输入所述语音识别模型的N个文本预测网络,得到N个第二文本特征;将所述N个第二内容特征与所述N个第二文本特征输入所述语音识别模型包括的语音识别网络,得到针对所述待识别当前帧的N个预测字符向量;以及基于针对所述待识别语音帧序列的P*N个预测字符向量,确定针对所述待识别语音帧序列的预测文本,其中,P为所述待识别语音帧序列的帧数,所述语音识别模型是采用权利要求1~9中任一项所述的方法训练得到的。
11.根据权利要求10所述的方法,其中,所述语音识别网络包括组合子网络和预测子网络;所述将所述N个第二内容特征与所述N个第二文本特征输入所述语音识别模型包括的语音识别网络,得到针对所述待识别当前帧的N个预测字符向量包括:将所述N个第二内容特征和所述N个第二文本特征输入所述组合子网络,由所述组合子网络基于预定组合方式对所述N个第二内容特征和所述N个第二文本特征彼此组合,得到N个第二特征对;以及将所述N个第二特征对输入所述预测子网络,得到与所述N个第二特征对相对应的N个预测字符向量,其中,所述预定组合方式是通过训练所述语音识别模型确定的。12.一种语音识别模型的训练装置,其中,所述语音识别模型包括对象分离网络、N个文本预测网络和语音识别网络,N为大于1的整数;所述装置包括:第一内容特征获得模块,用于针对涉及N个对象的语音帧序列,将当前帧的语音特征输入所述对象分离网络,得到分别与所述N个对象相对应的N个第一内容特征;所述语音帧序列包括针对所述N个对象的N个实际文本;第一文本特征获得模块,用于将所述N个实际文本...
【专利技术属性】
技术研发人员:赵情恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。