【技术实现步骤摘要】
语音识别方法、装置及车辆
[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置及车辆。
技术介绍
[0002]传统的语音识别系统包括声学模型和解码器,解码器具有由语言模型、词典模型以及声学建模单元拓扑等合并得到的解码图。端到端语音识别系统提供了一种方式将这三种模型融合到一个神经网络模型中共同建模,从而简化了语音识别系统的构建流程,也提升了语音识别系统的性能。在端到端的语音识别系统中,例如有基于CTC(Connectionist temporal classification,连接时序分类准则)的识别技术对其中的声学模型进行训练。与传统的利用交叉熵作为损失函数进行训练的声学模型相比,采用CTC准则作为损失函数的声学模型训练,不需要预先将语音和文本做对齐处理,只需要一个输入的特征序列和一个输出的音素序列即可以训练。
[0003]在语音识别系统对一段语音进行识别的过程中,采用CTC准则的声学模型最后输出的是各音素尖峰对应的预测音素序列,即CTC准则并不关注每一个音素持续了多长时间。然而,基于CTC准则本身 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:接收车辆座舱内用户发出的语音请求;对所述语音请求进行检测,获取所述语音请求中的静音音频的静音时长;当所述静音时长大于第一时长阈值时,将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。2.根据权利要求1所述的方法,其特征在于,所述将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示,包括:根据预设语音识别系统输出所述语音请求对应的语音识别文本;将所述语音识别文本在车载系统的图形用户界面显示;其中,所述静音音频之前的语音识别文本的显示速度大于有效音频之前的语音识别文本的显示速度。3.根据权利要求2所述的方法,其特征在于,所述预设语音识别系统包括预先训练好的声学模型,所述声学模型的训练方法包括:将训练语音样本中的有效音频和对应的音素进行强制时间对齐,获得对齐结果;分别对各段静音音频标注对应的静音标签;根据标注好的所述训练语音样本对基于CTC准则的声学模型进行监督训练,获得训练好的声学模型。4.根据权利要求3所述的方法,其特征在于,所述分别对各段静音音频标注对应的静音标签,包括:根据所述对齐结果,获取各段静音音频对应的静音时长;根据各段静音音频对应的静音时长,分别对各段所述静音音频标注单个的静音标签。5.根据权利要求3所述的方法,其特征在于,所述分别对各段静音音频标注对应的静音标签,包括:当所述静音音频的静音时长大于或等于预设时长时,根据所述预设时长将每段静音音频划分为至少一节子静音音频;分别对每节子静音音频标注相同的...
【专利技术属性】
技术研发人员:张辽,
申请(专利权)人:广州小鹏汽车科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。