System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音,特别是涉及一种语音识别方法、语音识别模型的训练方法和相关装置。
技术介绍
1、语音识别技术是让计算机通过识别和理解人类语音来执行命令或完成任务的一种技术。随着技术的发展,语音识别技术也得到了迅速的普及和应用,语音识别技术已经广泛应用于多个领域,如智能家居、自动驾驶、智能客服等。
2、本申请的申请人在长期的研发过程中发现,现有的语音识别方法对一条语音切分得到的各个片段独立进行识别,识别的准确性仍然不能够满足需要。有鉴于此,如何提高语音识别的准确性,成为亟待解决的问题。
技术实现思路
1、本申请主要解决的技术问题是提供一种语音识别方法、语音识别模型的训练方法和相关装置,能够提高语音识别准确性。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种语音识别方法,该方法包括:获取若干关联子段的子段表示,其中,关联子段与当前子段之间存在关联关系,且均由目标语音切分得到;将各关联子段的子段表示与当前子段的第一子段特征进行融合,得到融合结果;对融合结果进行识别,得到当前子段的识别文本。
3、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音识别模型的训练方法,包括:获取若干关联样本子段的第一样本子段表示,关联样本子段与第一样本子段具有关联关系,且均为对同一第一样本语音切分得到;利用第一语音识别模型将第一样本子段的第一样本子段特征与若干关联样本子段的第一样本子段表示进行融合,得到样本融合结果;对样本融合结果进行识别,得到第一识
4、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音识别装置,该装置包括:包括获取模块、融合模块和识别模块,获取模块用于获取若干关联子段的子段表示,其中,关联子段与当前子段之间存在关联关系,且均由目标语音切分得到;融合模块用于将各关联子段的子段表示与当前子段的第一子段特征进行融合,得到融合结果;识别模块用于对融合结果进行识别,得到当前子段的识别文本。
5、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音识别模型的训练装置,该装置包括获取模块、融合模块、识别模块和调整模块。获取模块用于获取若干关联样本子段的第一样本子段表示,关联样本子段与第一样本子段具有关联关系,且均为对同一第一样本语音切分得到;融合模块用于利用第一语音识别模型将第一样本子段的第一样本子段特征与若干关联样本子段的第一样本子段表示进行融合,得到样本融合结果;识别模块用于对样本融合结果进行识别,得到第一识别损失;调整模块用于基于第一识别损失,调整第一语音识别模型的模型参数。
6、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一语音识别方法或者语音识别模型的训练方法。
7、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一语音识别方法或者语音识别模型的训练方法。
8、上述方案,对当前子段来说,将其关联子段的子段表示与第一子段特征进行融合,融合结果中既包含当前子段的特征,也融入了各个关联子段的特征。将融合结果作为识别的对象,以得到当前子段的识别文本,能够充分利用目标语音中关联的语音信息,来对当前子段进行识别,丰富了语音识别的依据,提升语音识别准确率。
本文档来自技高网...【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取若干关联子段的子段表示包括:
3.根据权利要求2所述的方法,其特征在于,所述对目标特征进行第一编码,得到第一编码结果之前,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述第二子段特征包含所述关联子段包含的各音频帧的音频帧特征;所述第一预设特征与所述音频帧特征尺寸相同,和/或,所述第一预设特征拼接在首个所述音频帧特征之前。
5.根据权利要求2所述的方法,其特征在于,所述第二子段特征包含所述关联子段包含的各音频帧的音频帧特征,所述第二子段特征作为所述目标特征,所述第一编码结果包括各音频帧对应的第一编码特征;
6.根据权利要求5所述的方法,其特征在于,所述第一分类结果表征所述第一编码特征归属的预设类别,所述预设类别包括空白类别;所述预设要求为所述第一分类结果不为所述空白类别。
7.根据权利要求1所述的方法,其特征在于,所述将各所述关联子段的子段表示与当前子段的第一子段特征进行融合,得到融合结果包括:<
...【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取若干关联子段的子段表示包括:
3.根据权利要求2所述的方法,其特征在于,所述对目标特征进行第一编码,得到第一编码结果之前,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述第二子段特征包含所述关联子段包含的各音频帧的音频帧特征;所述第一预设特征与所述音频帧特征尺寸相同,和/或,所述第一预设特征拼接在首个所述音频帧特征之前。
5.根据权利要求2所述的方法,其特征在于,所述第二子段特征包含所述关联子段包含的各音频帧的音频帧特征,所述第二子段特征作为所述目标特征,所述第一编码结果包括各音频帧对应的第一编码特征;
6.根据权利要求5所述的方法,其特征在于,所述第一分类结果表征所述第一编码特征归属的预设类别,所述预设类别包括空白类别;所述预设要求为所述第一分类结果不为所述空白类别。
7.根据权利要求1所述的方法,其特征在于,所述将各所述关联子段的子段表示与当前子段的第一子段特征进行融合,得到融合结果包括:
8.根据权利要求1所述的方法,其特征在于,所述对所述融合结果进行识别,得到所述当前子段的识别文本包括:
9.根据权利要求8所述的方法,其特征在于,所述第二编码结果包括各所述关联子段的子段表示、所述当前子段的第一子段特征分别对应的第二编码特征;
10.根据权利要求1所述的方法,其特征在于,所述当前子段的识别文本是至少利用第一语音识别模型得到,所述方法...
【专利技术属性】
技术研发人员:胡今朝,吴重亮,李永超,吴明辉,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。