【技术实现步骤摘要】
语音识别方法、装置、系统、设备和计算机可读存储介质
本申请涉及语音处理
,特别是涉及一种语音识别方法、装置、系统、设备和计算机可读存储介质。
技术介绍
随着语音处理技术的快速发展,全双工语音交互技术因其可实时预测人类即将说出的内容、实时生成回应,并控制对话节奏等特点,被越来越多地应用于长程语音交互场景。传统技术中,涉及于全双工语音交互技术的语音识别方法,通常采用训练全双工语义抗噪模型的方式在云端识别出具体的噪音文本,进而将识别出的噪音文本进行屏蔽,以降低噪音误识别概率,但是该方法在应用于人声负责的公共场所等特殊场景时,极易将同一时刻说话的待识别用户语音与其他用户语音同时录入并错误识别,以致无法区别其中的有效音频信息。因此,目前的语音识别方法存在语音识别准确率低的技术问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高语音识别准确率的语音识别方法、装置、系统、设备和计算机可读存储介质。一种语音识别方法,所述方法包括:获取终端被唤醒时唤醒音频中的唤醒声纹特征;根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。一种语音识别方法,所述方法包括:接收用户通过唤醒音频发起的语音识别请求;响应于所述语音识别请求,确定所述唤醒音频中的唤醒词;当所述唤醒音频中的唤醒词与预设唤醒词相匹配时,将 ...
【技术保护点】
1.一种语音识别方法,所述方法包括:/n获取终端被唤醒时唤醒音频中的唤醒声纹特征;/n根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;/n将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。/n
【技术特征摘要】
1.一种语音识别方法,所述方法包括:
获取终端被唤醒时唤醒音频中的唤醒声纹特征;
根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;
将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。
2.根据权利要求1所述的方法,其特征在于,所述获取终端被唤醒时唤醒音频中的唤醒声纹特征,包括:
获取终端被预设唤醒词唤醒时接收的唤醒音频;
提取所述唤醒音频中的用户声纹特征,作为所述唤醒声纹特征。
3.根据权利要求2所述的方法,其特征在于,所述提取所述唤醒音频中的用户声纹特征,作为所述唤醒声纹特征,包括:
将所述唤醒音频进行分帧,得到至少一个唤醒音频帧;
将所述至少一个唤醒音频帧进行加窗,得到至少一个唤醒加窗音频帧;
提取所述至少一个唤醒加窗音频帧的梅尔频率倒谱系数,作为所述唤醒声纹特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据,包括:
确定所述唤醒声纹特征的唤醒声纹标识;
根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据。
5.根据权利要求4所述的方法,其特征在于,所述确定所述唤醒声纹特征的唤醒声纹标识,包括:
根据所述唤醒声纹特征,在预存的至少一个注册声纹标识中确定唤醒声纹标识;所述至少一个注册声纹标识分别具有对应的注册声纹特征;所述唤醒声纹标识为与所述唤醒声纹特征相匹配的注册声纹特征的注册声纹标识。
6.根据权利要求5所述的方法,其特征在于,所述根据所述唤醒声纹特征,在预存的至少一个注册声纹标识中确定唤醒声纹标识,包括:
确定预存的至少一个注册声纹标识;所述至少一个注册声纹标识分别具有注册声纹特征;
计算所述注册声纹特征与所述唤醒声纹特征的特征相似度;
确定所述特征相似度达到预设相似度阈值且为最大值的注册声纹特征的注册声纹标识,作为所述唤醒声纹标识。
7.根据权利要求4所述的方法,其特征在于,所述确定所述唤醒声纹特征的唤醒声纹标识,包括:
采用所述唤醒声纹特征训练声纹分类器;
获取训练后的声纹分类器的最优结构数据,作为所述唤醒声纹标识。
8.根据权利要求4所述的方法,其特征在于,所述根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据,包括:
通过预先采用所述唤醒声纹特征训练后的声纹分类器,将所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征进行匹配;
若所述唤醒声纹标识与所述对话声纹特征相匹配,则获取所述对话音频中对话文本的文本查询反馈数据,作为所述语音识别反馈数据。
9.根据权...
【专利技术属性】
技术研发人员:荣康,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。