【技术实现步骤摘要】
流式ASR模型训练方法、语音处理方法和交互设备
[0001]本公开涉及语音处理领域,尤其涉及一种流式ASR模型训练方法、语音处理方法和交互设备。
技术介绍
[0002]在语音交互场景中,对话机器人需要能够检测用户什么时候完成了表述并开始等待回复,这个任务通常被称为“句尾检测”。句尾检测任务的挑战在于需要合适把握闭麦时机,闭麦过早会导致用户意图无法被正确识别,闭麦过晚则会使得用户在得到回复之前等待过久。
[0003]现有技术中,通常由VAD(Voice Activity Detection)模型依赖语音能量来检测用户语音的开始和结束,但VAD模型无法分辨背景语音或是噪声,从而导致过早或是过晚闭麦,降低用户的语音交互体验。
[0004]为此,需要一种改进的句尾检测方案。
技术实现思路
[0005]本公开要解决的一个技术问题是提供一种改进的句尾检测方案,该方案利用ASR(自动语音识别)模型的语音特征处理和语义建模的能力,将句尾检测任务并入ASR模型的训练过程中,从而使得在实际应用中,ASR模型能够同 ...
【技术保护点】
【技术特征摘要】
1.一种流式ASR(自动语音识别)模型训练方法,包括:对语音信号进行特征提取以构造训练样本以及标签,所述标签包括语音信号中包含的标签文本和标签句尾标识;将所述训练样本送入流式ASR模型;所述流式ASR模型根据所述训练样本输出预测文本和预测句尾标识;以及根据所述预测文本和预测句尾标识与所述标签文本和标签句尾标识的差异,调整所述流式ASR模型的参数。2.如权利要求1所述的方法,还包括:构造第一损失函数,所述第一损失函数用于在所述预测文本和所述标签文本存在差异时引入第一损失;构造第二损失函数,所述第二损失函数用于在所述预测句尾标识和所述标签句尾标识的位置不同时引入第二损失,并且根据所述预测文本和预测句尾标识与所述标签文本和标签句尾标识的差异,调整所述流式ASR模型的参数包括:根据所述第一损失和所述第二损失,基于反向传播调整所述流式ASR模型的参数。3.如权利要求2所述的方法,其中,构造第二损失函数还包括:构造第二损失函数,使得所述预测句尾标识比所述标签句尾标识的位置提前所引起的过早损失要大于所述预测句尾标识比所述标签句尾标识的位置延迟所引起的过晚损失。4.如权利要求1所述的方法,其中,所述流式ASR模型根据所述训练样本输出预测文本和预测句尾标识包括:所述流式ASR模型根据所述训练样本流式输出预测文本;以及所述流式ASR模型根据已输出预测文本判定语义完整并输出所述预测句尾标识。5.如权利要求1所述的方法,还包括:所述流式ASR模型在输出预测句尾标识后,对在前的所述预测文本整体上进行修改。6.一种语音处理方法,包括:接收来自用户的语音输入信号;将所述语音输入信号送入如权利要求1
‑
4中任一项得到的经训练的流式ASR模型;所述经训练的流式ASR模型根据所述输入语音特征输出预测文...
【专利技术属性】
技术研发人员:赵冬迪,李锦珂,朱磊,
申请(专利权)人:浙江猫精人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。