【技术实现步骤摘要】
语音识别方法、语音识别模型的训练方法及相关装置
[0001]本申请属于语音识别
,具体涉及一种语音识别方法、语音识别模型的训练方法及相关装置。
技术介绍
[0002]语音识别技术是一种对用户录入的语音信号进行识别,最终转化为文本/字符串(也即识别结果为文本)的技术,其为自然人性的人机交互提供了便利。以采用语音识别技术的移动设备为例,在语音识别技术的支持下,用户只要对着移动设备说话,经过语音识别系统识别后就会自动形成文字,大大提高了用户的输入效率。
[0003]但是,目前语音识别技术存在首字延迟的问题,即无法在期望的较短的时间内给出转录的首字。这种缺陷会导致在使用实时语音识别系统的应用时,用户需要花费更多的时间等待识别结果,很大程度上降低了用户体验。
技术实现思路
[0004]本申请提供一种语音识别方法、语音识别模型的训练方法及相关装置,以降低首字延迟的时间。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种语音识别方法,包括:获得待识别语音;将所述待识别语音输入至训练 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获得待识别语音;将所述待识别语音输入至训练后的语音识别模型中以获得输出文本;其中,训练所述语音识别模型所采用的总损失与首字延迟损失相关。2.根据权利要求1所述的语音识别方法,其特征在于,训练所述语音识别模型的过程包括:获得多个语音训练样本,且每个所述语音训练样本标注有文本标签;获得所述语音训练样本在时序上的多个频域特征;将所述多个频域特征输入至所述语音识别模型中以获得预测文本;获得所述预测文本和所述文本标签的第一损失、以及获得所述预测文本的首字延迟损失;基于所述第一损失和所述首字延迟损失获得所述总损失,并根据所述总损失调整所述语音识别模型的参数。3.根据权利要求2所述的语音识别方法,其特征在于,所述将所述多个频域特征输入至所述语音识别模型中以获得预测文本的步骤,包括:对所述多个频域特征进行编码以获得多个第一编码特征;基于所述多个第一编码特征获得多个上下文向量;对所述多个上下文向量进行解码以获得多个字,其中,所述多个字构成预测文本;所述获得所述预测文本的首字延迟损失的步骤,包括:获得所述首字在每个所述第一编码特征上的关注权重;将时序上位于期望延迟大小之后的所有关注权重设置为0;获得所述首字在每个所述第一编码特征上的关注权重的第一和值;将所述第一和值与预设值的第一差值的绝对值作为所述首字延迟损失。4.根据权利要求3所述的语音识别方法,其特征在于,所述预设值包括1。5.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述多个第一编码特征获得多个上下文向量的步骤,包括:针对每个字,获得当前字在每个所述第一编码特征上的关注权重;根据所述当前字在每个所述第一编码特征上的关注权重确定其滑动窗口;其中,所述当前字的滑动窗口包括起始位置和终止位置,所述当前字对应的起始位置与前一个字对应的终止位置相同,所述当前字对应的起始位置、终止位置、以及位于所述起始位置和所述终止位置之间的中间位置的所有关注权重的第二和值大于阈值,所述当前字对应的起始位置以及位于所述起始位置和所述终止位置之间的中间位置的所有关注权重的第三和值小于或等于所述阈值;基于所述当前字的滑动窗口获得能量值,并根据所述能量值获得当前字对应的上下文向量。6.根据权利要求3所述的语音识别方法,其特征在于,所述对所述多个频域特征进行编码以获得多个第一编码特征的步骤,包括:对所述多个频域特征进行编码以获得多个第二编码特征;其中,所述多个频域特征和所述多个第二...
【专利技术属性】
技术研发人员:张文辉,万根顺,高建清,刘聪,刘庆峰,胡国平,胡郁,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。