【技术实现步骤摘要】
语音识别模型的获取方法、装置、电子设备以及存储介质
[0001]本公开涉及人工智能
,尤其涉及自然语音理解、语音技术、智能客服、语音转写领域,具体涉及一种语音识别模型的获取方法、装置、电子设备以及存储介质。
技术介绍
[0002]相关技术中通用的语音识别方法,大多数都是先对音频说话人进行分离,然后对分离后的音频进行语音转写,得到区分后的对应的说话人的文字。
[0003]但是,现有的说话人辨识系统和语音转写系统对说话人重叠的情况,语音的分离效果和识别精度不理想,而且需要提前设置好说话人个数,来确定网络的分支数,在说话人数量变化的情况下语音识别的效果不好。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本公开提供了一种用于语音识别模型的获取方法、语音识别方法、装置、电子设备以及存储介质。
[0006]根据本公开的一方面,提供了一种语音识别模型的获取方法,包括:获取多组标签数据,其中,上述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别模型的获取方法,包括:获取多组标签数据,其中,所述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对所述音频样本数据进行特征向量提取处理得到的样本对象集合,所述音频样本数据中包含多个所述样本对象的对话内容;使用多组标签数据通过机器学习训练神经网络模型,得到语音识别模型。2.根据权利要求1所述的方法,其中,所述方法还包括:采用多层时延神经网络对所述音频样本数据进行特征向量提取处理,并经过多次训练迭代,提取得到所述样本对象的第一特征向量;选取预设数量的所述第一特征向量;依据被选取的第一特征向量生成所述样本对象集合。3.根据权利要求1所述的方法,其中,通过如下方式训练得到所述语音识别模型:采用所述神经网络模型中的对象特征编码器,提取所述音频样本数据中的多个第二特征向量;采用内容特征编码器提取所述音频样本数据中的多个第三特征向量;基于所述第二特征向量和所述第三特征向量,对所述神经网络模型进行训练得到所述语音识别模型。4.根据权利要求3所述的方法,其中,所述采用所述神经网络模型中的对象特征编码器,提取所述音频样本数据中的多个第二特征向量包括:对所述神经网络模型中的所述音频样本数据进行分帧处理,得到多个音频帧;提取多个所述音频帧中的每个音频帧的正态分布特征,其中,所述正态分布特征包括:静态特征,一阶差分特征,二阶差分特征;将多个所述音频帧的正态分布特征输入至所述对象特征编码器,得到多个所述第二特征向量。5.根据权利要求3所述的方法,其中,所述基于所述第二特征向量和所述第三特征向量,对所述神经网络模型进行训练得到所述语音识别模型,包括:采用所述神经网络模型中的注意力模块计算每个所述第二特征向量对应的第一重要性系数,以及每个所述第三特征向量对应的第二重要性系数;基于所述第二特征向量和所述第一重要性系数计算得到第四特征向量,基于所述第三特征向量以及所述第二重要性系数计算得到第五特征向量;基于所述第四特征向量和所述第五特征向量,对所述神经网络模型进行训练得到所述语音识别模型。6.根据权利要求5所述的方法,其中,所述方法还包括:采用所述神经网络模型中的目标查询模型对第一解码文本和所述第四特征向量进行处理,得到所述样本对象的第六特征向量;采用所述注意力模块计算所述第六特征向量与所述样本对象集合中多个样本对象之间的相关程度值;基于所述相关程度值确定所述样本对象集合的第七特征向量。7.根据权利要求6所述的方法,其中,所述基于所述第四特征向量和所述第五特征向量,对所述神经网络模型进行训练得到所述语音识别模型,包括:
获取所述神经网络模型中的语义解码器对第一解码文本进行处理,输出的第八特征向量;采用所述神经网络模型中的内容解码器,对所述第五特征向量、所述第七特征向量和所述第八特征向量进行解码处理,得到第二解码文本,其中,所述第二解码文本为在所述第一解码文本下一时刻的解码文本;采用最小分类误差算法计...
【专利技术属性】
技术研发人员:赵情恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。