语音识别方法、装置、系统、设备和计算机可读存储介质制造方法及图纸

技术编号:24332724 阅读:26 留言:0更新日期:2020-05-29 20:30
本申请涉及一种语音识别方法、装置、系统、设备和计算机可读存储介质。所述方法包括:获取终端被唤醒时唤醒音频中的唤醒声纹特征;根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。采用本方法,可避免非终端唤醒用户的音频误识别,进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率,从而有效提高语音识别的准确率。

Speech recognition method, device, system, equipment and computer readable storage medium

【技术实现步骤摘要】
语音识别方法、装置、系统、设备和计算机可读存储介质
本申请涉及语音处理
,特别是涉及一种语音识别方法、装置、系统、设备和计算机可读存储介质。
技术介绍
随着语音处理技术的快速发展,全双工语音交互技术因其可实时预测人类即将说出的内容、实时生成回应,并控制对话节奏等特点,被越来越多地应用于长程语音交互场景。传统技术中,涉及于全双工语音交互技术的语音识别方法,通常采用训练全双工语义抗噪模型的方式在云端识别出具体的噪音文本,进而将识别出的噪音文本进行屏蔽,以降低噪音误识别概率,但是该方法在应用于人声负责的公共场所等特殊场景时,极易将同一时刻说话的待识别用户语音与其他用户语音同时录入并错误识别,以致无法区别其中的有效音频信息。因此,目前的语音识别方法存在语音识别准确率低的技术问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高语音识别准确率的语音识别方法、装置、系统、设备和计算机可读存储介质。一种语音识别方法,所述方法包括:获取终端被唤醒时唤醒音频中的唤醒声纹特征;根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。一种语音识别方法,所述方法包括:接收用户通过唤醒音频发起的语音识别请求;响应于所述语音识别请求,确定所述唤醒音频中的唤醒词;当所述唤醒音频中的唤醒词与预设唤醒词相匹配时,将所述唤醒音频发送至服务器;接收对话音频,并将所述对话音频发送至所述服务器,供所述服务器根据所述对话音频中的对话声纹特征与所述唤醒音频中的唤醒声纹特征,获取语音识别反馈数据;接收所述服务器的语音识别反馈数据。一种语音识别装置,所述装置包括:特征获取模块,用于获取终端被唤醒时唤醒音频中的唤醒声纹特征;数据获取模块,用于根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;数据发送模块,用于将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。一种语音识别装置,所述装置包括:识别请求接收模块,用于接收用户通过唤醒音频发起的语音识别请求;识别请求响应模块,用于响应于所述语音识别请求,确定所述唤醒音频中的唤醒词;唤醒音频发送模块,用于当所述唤醒音频中的唤醒词与预设唤醒词相匹配时,将所述唤醒音频发送至服务器;对话音频发送模块,用于接收对话音频,并将所述对话音频发送至所述服务器,供所述服务器根据所述对话音频中的对话声纹特征与所述唤醒音频中的唤醒声纹特征,获取语音识别反馈数据;反馈数据接收模块,用于接收所述服务器的语音识别反馈数据。一种语音识别系统,所述系统包括:服务器和终端;所述终端,用于接收用户通过唤醒音频发起的语音识别请求后,响应于所述语音识别请求,确定所述唤醒音频中的唤醒词,进而当所述唤醒音频中的唤醒词与预设唤醒词相匹配时,将所述唤醒音频发送至所述服务器,同时接收对话音频,并将所述对话音频发送至所述服务器,以便接收所述服务器的语音识别反馈数据;所述服务器,用于获取所述终端被唤醒时唤醒音频中的唤醒声纹特征,并根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据,最后将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取终端被唤醒时唤醒音频中的唤醒声纹特征;根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取终端被唤醒时唤醒音频中的唤醒声纹特征;根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。上述语音识别方法、装置、系统、设备和计算机可读存储介质,通过获取终端被唤醒时唤醒音频中的唤醒声纹特征,可进一步根据唤醒声纹特征与终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据,以便将语音识别反馈数据发送至终端,供终端呈现语音识别反馈数据。采用本方法,可避免非终端唤醒用户的音频误识别,进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率,从而有效提高语音识别的准确率。附图说明图1为一个实施例中语音识别方法的应用环境图;图2为一个实施例中语音识别方法的流程示意图;图3为一个实施例中唤醒声纹特征获取步骤的流程示意图;图4为一个实施例中唤醒声纹特征提取步骤的流程示意图;图5为一个实施例中语音识别反馈数据获取步骤的流程示意图;图6为一个实施例中唤醒声纹标识确定步骤的流程示意图;图7为一个实施例中用户注册声纹的流程时序图;图8为另一个实施例中唤醒声纹标识确定步骤的流程示意图;图9为又一个实施例中唤醒声纹标识确定步骤的流程示意图;图10为一个实施例中分类器模型训练步骤的流程示意图;图11为另一个实施例中语音识别反馈数据获取步骤的流程示意图;图12为另一个实施例中语音识别方法的流程示意图;图13为一个具体实施例中语音识别方法的流程示意图;图14为一个实施例中多场景语音识别方法的示意图;图15为一个实施例中语音识别装置的结构框图;图16为另一个实施例中语音识别装置的结构框图;图17为一个实施例中语音识别系统的结构框图;图18为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。首先需要说明的是,本申请所运用的语音技术(SpeechTechnology),其关键技术有自动语音识别技术(ASR)、语音合成技术(TTS)以及声纹识别技术,用以让计算机能听、能看、能说、能感觉,不仅是未来人机交互的发展方向,也将成为未来最被看好的人机交互方式之一。其次需要说明的是,本申请所提供的语音识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102在持续接收用户语音的同时,可将该语音通过网络发送至服务器104,以便服务器104在持续接收终端102所传输语音的同时,能够持续针对该语音进行语音识别,进而本文档来自技高网...

【技术保护点】
1.一种语音识别方法,所述方法包括:/n获取终端被唤醒时唤醒音频中的唤醒声纹特征;/n根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;/n将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。/n

【技术特征摘要】
1.一种语音识别方法,所述方法包括:
获取终端被唤醒时唤醒音频中的唤醒声纹特征;
根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据;
将所述语音识别反馈数据发送至所述终端,供所述终端呈现所述语音识别反馈数据。


2.根据权利要求1所述的方法,其特征在于,所述获取终端被唤醒时唤醒音频中的唤醒声纹特征,包括:
获取终端被预设唤醒词唤醒时接收的唤醒音频;
提取所述唤醒音频中的用户声纹特征,作为所述唤醒声纹特征。


3.根据权利要求2所述的方法,其特征在于,所述提取所述唤醒音频中的用户声纹特征,作为所述唤醒声纹特征,包括:
将所述唤醒音频进行分帧,得到至少一个唤醒音频帧;
将所述至少一个唤醒音频帧进行加窗,得到至少一个唤醒加窗音频帧;
提取所述至少一个唤醒加窗音频帧的梅尔频率倒谱系数,作为所述唤醒声纹特征。


4.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据,包括:
确定所述唤醒声纹特征的唤醒声纹标识;
根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据。


5.根据权利要求4所述的方法,其特征在于,所述确定所述唤醒声纹特征的唤醒声纹标识,包括:
根据所述唤醒声纹特征,在预存的至少一个注册声纹标识中确定唤醒声纹标识;所述至少一个注册声纹标识分别具有对应的注册声纹特征;所述唤醒声纹标识为与所述唤醒声纹特征相匹配的注册声纹特征的注册声纹标识。


6.根据权利要求5所述的方法,其特征在于,所述根据所述唤醒声纹特征,在预存的至少一个注册声纹标识中确定唤醒声纹标识,包括:
确定预存的至少一个注册声纹标识;所述至少一个注册声纹标识分别具有注册声纹特征;
计算所述注册声纹特征与所述唤醒声纹特征的特征相似度;
确定所述特征相似度达到预设相似度阈值且为最大值的注册声纹特征的注册声纹标识,作为所述唤醒声纹标识。


7.根据权利要求4所述的方法,其特征在于,所述确定所述唤醒声纹特征的唤醒声纹标识,包括:
采用所述唤醒声纹特征训练声纹分类器;
获取训练后的声纹分类器的最优结构数据,作为所述唤醒声纹标识。


8.根据权利要求4所述的方法,其特征在于,所述根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征,获取所述对话音频的语音识别反馈数据,包括:
通过预先采用所述唤醒声纹特征训练后的声纹分类器,将所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征进行匹配;
若所述唤醒声纹标识与所述对话声纹特征相匹配,则获取所述对话音频中对话文本的文本查询反馈数据,作为所述语音识别反馈数据。


9.根据权...

【专利技术属性】
技术研发人员:荣康
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1