语音识别方法、装置及车辆制造方法及图纸

技术编号:37144419 阅读:28 留言:0更新日期:2023-04-06 21:54
本申请涉及一种语音识别方法、装置及车辆。该方法包括:接收车辆座舱内用户发出的语音请求;对语音请求进行检测,获取语音请求中的静音音频的静音时长;当静音时长大于第一时长阈值时,将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。本申请的方案,在语音请求中存在大于第一预设时长阈值的静音音频时,反而可以更快地获得语音识别文本并快速在车载系统的图形用户界面显示,缩短延时,提高识别效率和显示效率,改善用户体验。改善用户体验。改善用户体验。

【技术实现步骤摘要】
语音识别方法、装置及车辆


[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置及车辆。

技术介绍

[0002]传统的语音识别系统包括声学模型和解码器,解码器具有由语言模型、词典模型以及声学建模单元拓扑等合并得到的解码图。端到端语音识别系统提供了一种方式将这三种模型融合到一个神经网络模型中共同建模,从而简化了语音识别系统的构建流程,也提升了语音识别系统的性能。在端到端的语音识别系统中,例如有基于CTC(Connectionist temporal classification,连接时序分类准则)的识别技术对其中的声学模型进行训练。与传统的利用交叉熵作为损失函数进行训练的声学模型相比,采用CTC准则作为损失函数的声学模型训练,不需要预先将语音和文本做对齐处理,只需要一个输入的特征序列和一个输出的音素序列即可以训练。
[0003]在语音识别系统对一段语音进行识别的过程中,采用CTC准则的声学模型最后输出的是各音素尖峰对应的预测音素序列,即CTC准则并不关注每一个音素持续了多长时间。然而,基于CTC准则本身的处理特性,针对语音本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:接收车辆座舱内用户发出的语音请求;对所述语音请求进行检测,获取所述语音请求中的静音音频的静音时长;当所述静音时长大于第一时长阈值时,将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。2.根据权利要求1所述的方法,其特征在于,所述将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示,包括:根据预设语音识别系统输出所述语音请求对应的语音识别文本;将所述语音识别文本在车载系统的图形用户界面显示;其中,所述静音音频之前的语音识别文本的显示速度大于有效音频之前的语音识别文本的显示速度。3.根据权利要求2所述的方法,其特征在于,所述预设语音识别系统包括预先训练好的声学模型,所述声学模型的训练方法包括:将训练语音样本中的有效音频和对应的音素进行强制时间对齐,获得对齐结果;分别对各段静音音频标注对应的静音标签;根据标注好的所述训练语音样本对基于CTC准则的声学模型进行监督训练,获得训练好的声学模型。4.根据权利要求3所述的方法,其特征在于,所述分别对各段静音音频标注对应的静音标签,包括:根据所述对齐结果,获取各段静音音频对应的静音时长;根据各段静音音频对应的静音时长,分别对各段所述静音音频标注单个的静音标签。5.根据权利要求3所述的方法,其特征在于,所述分别对各段静音音频标注对应的静音标签,包括:当所述静音音频的静音时长大于或等于预设时长时,根据所述预设时长将每段静音音频划分为至少一节子静音音频;分别对每节子静音音频标注相同的...

【专利技术属性】
技术研发人员:张辽
申请(专利权)人:广州小鹏汽车科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1