一种语音识别方法、装置、系统制造方法及图纸

技术编号:24614916 阅读:22 留言:0更新日期:2020-06-24 01:53
本申请实施例公开一种语音识别方法、装置、系统,方法包括:对接收到的由麦克风阵列系统发送的音频数据进行回声消除;将回声消除后得到的周围声源数据输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法对周围声源数据进行信噪比计算;对语音识别结果和信噪比计算结果进行判断,当语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时,将语音识别结果和信噪比计算结果进行加权处理;判断加权结果是否大于预设值,当大于时,进行声源定位并根据定位结果生成语音提示并将语音提示发送至耳机。本申请可以识别周围是否有他人在对耳机佩戴者讲话,从而进行提醒,提高了沟通效率。

A speech recognition method, device and system

【技术实现步骤摘要】
一种语音识别方法、装置、系统
本专利技术属于声学领域,尤其涉及一种语音识别方法、装置、系统。
技术介绍
由于耳机具有方便使用、自由沟通、提高效率等优点,已经成为许多“移动群族”日常生活中不可缺少的沟通工具。但随着日常生活的长期使用,使用耳机造成的“交流误解”变成了人们日常生活中的痛点。其具体表现在,当使用者佩戴耳机进行聊天时,容易沉浸在电话中,因此会对旁人视而不见,当周围人有意沟通时,由于使用者的主要集中在聊天内容上,无法注意到他人的话语,即他人很难“唤醒”使用者,容易造成场面尴尬、产生误会,降低沟通效率。
技术实现思路
为了解决现有技术的问题,本专利技术提出了一种语音识别方法、装置、系统,本方法通过对周围声源进行语音识别和信噪比计算,当语音识别结果和信噪比计算结果满足预设条件时,即表明周围有人在与耳机佩戴者进行沟通,从而提示耳机佩戴者,提高了沟通效率,减少沟通成本和不必要的误会,让人与人之间的交流更加和谐。本专利技术实施例提供的具体技术方案如下:第一方面,本专利技术提供一种语音识别方法,所述方法包括:对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据;将所述周围声源数据输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算;对语音识别结果和信噪比计算结果进行判断,当所述语音识别结果与预存储的常用沟通用语文本数据的至少一种相同并且信噪比计算结果大于信噪比阈值时,将所述语音识别结果和信噪比计算结果进行加权处理;判断加权结果是否大于预设值,当大于时,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息;根据所述目标声源位置信息生成语音提示并将所述语音提示发送至耳机。优选的,在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前,所述方法还包括:对所述周围声源数据进行傅里叶变换以得到周围声源数据的能量;根据预设的能量阈值,获取大于所述能量阈值的能量所对应的周围声源数据。优选的,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息具体包括:在所述周围声源数据中确定与所述加权结果相对应的目标声源数据,所述目标声源数据由安装在左、右两个耳机上的麦克风阵列系统发送得到;对所述目标声源数据进行声源定位以得到目标声源位置信息。优选的,所述语音识别模型的获取方法包括:构建样本语音库;所述样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与所述历史语音数据相对应的历史文本数据,所述历史语音数据包括常用沟通用语语音数据,所述历史文本数据包括常用沟通用语文本数据,所述常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语;根据所述样本语音库对一基础模型进行训练以得到所述语音识别模型。优选的,所述方法还包括:根据一信噪比计算方法对所述样本语音库中的每一条历史语音数据进行信噪比计算,得到历史信噪比值;根据所述历史信噪比值确定信噪比阈值。优选的,在对音频数据进行回声消除得到周围声源数据后,所述方法还包括:对所述周围声源数据进行降噪处理。第二方面,本专利技术提供一种语音识别装置,其特征在于,包括:分离模块,用于对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据;处理模块,用于将所述周围声源数据输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算;以及用于对语音识别结果和信噪比计算结果进行判断,当所述语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时,将所述语音识别结果和信噪比计算结果进行加权处理;判断模块,用于判断加权结果是否大于预设值;定位模块,用于当加权结果大于预设值时,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息;生成模块,用于根据所述目标声源位置信息生成语音提示;发送模块,用于将所述语音提示发送至耳机。优选的,所述处理模块还用于:在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前,对所述周围声源数据进行傅里叶变换以得到周围声源数据的能量;根据预设的能量阈值,获取大于所述能量阈值的能量所对应的周围声源数据。优选的,所述定位模块具体用于:在所述周围声源数据中确定与所述加权结果相对应的目标声源数据,所述目标声源数据由安装在左、右两个耳机上的麦克风阵列系统发送得到;对所述目标声源数据进行声源定位以得到目标声源位置信息。优选的,所述装置还包括:建模模块,用于构建样本语音库;所述样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与所述历史语音数据相对应的历史文本数据,所述历史语音数据包括常用沟通用语语音数据,所述历史文本数据包括常用沟通用语文本数据,所述常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语;以及根据所述样本语音库对一基础模型进行训练以得到所述语音识别模型。优选的,所述装置还包括:预处理模块,用于根据一信噪比计算方法对所述样本语音库中的每一条历史语音数据进行信噪比计算,得到历史信噪比值;以及用于根据所述历史信噪比值确定信噪比阈值。优选的,所述装置还包括:滤波模块,用于在对音频数据进行回声消除得到周围声源数据后,对所述周围声源数据进行降噪处理。第三方面,本专利技术提供一种计算机系统,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据;将所述周围声源数据输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算;对语音识别结果和信噪比计算结果进行判断,当所述语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时,将所述语音识别结果和信噪比计算结果进行加权处理;判断加权结果是否大于预设值,当大于时,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息;根据所述目标声源位置信息生成语音提示并将所述语音提示发送至耳机。本专利技术实施例具有如下有益效果:1、本专利技术对麦克风阵列系统发送的音频数据进行回声消除后得到的周围声源数据进行语音识别和信噪比计算,当语音识别结果以及信噪比计算结果满足条件时,进行声源定位,从而可以具体定位到声源方向,便于耳机佩戴者确定周围发声者的位置以实现沟通,提高了沟通效率,减少沟通成本和不必要的误会,让人与人之间的交流更加和谐;本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据;/n将所述周围声源数据输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算;/n对语音识别结果和信噪比计算结果进行判断,当所述语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时,将所述语音识别结果和信噪比计算结果进行加权处理;/n判断加权结果是否大于预设值,当大于时,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息;/n根据所述目标声源位置信息生成语音提示并将所述语音提示发送至耳机。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
对接收到的由麦克风阵列系统发送的音频数据进行回声消除以得到周围声源数据;
将所述周围声源数据输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法对所述周围声源数据进行信噪比计算;
对语音识别结果和信噪比计算结果进行判断,当所述语音识别结果与预存储的常用沟通用语文本数据中的至少一种相同并且信噪比计算结果大于信噪比阈值时,将所述语音识别结果和信噪比计算结果进行加权处理;
判断加权结果是否大于预设值,当大于时,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息;
根据所述目标声源位置信息生成语音提示并将所述语音提示发送至耳机。


2.根据权利要求1所述的方法,其特征在于,在根据一信噪比计算方法对所述周围声源数据进行信噪比计算之前,所述方法还包括:
对所述周围声源数据进行傅里叶变换以得到周围声源数据的能量;
根据预设的能量阈值,获取大于所述能量阈值的能量所对应的周围声源数据。


3.根据权利要求1所述的方法,其特征在于,获取与所述加权结果相对应的目标声源数据并根据所述目标声源数据计算目标声源位置信息具体包括:
在所述周围声源数据中确定与所述加权结果相对应的目标声源数据,所述目标声源数据由安装在左、右两个耳机上的麦克风阵列系统发送得到;
对所述目标声源数据进行声源定位以得到目标声源位置信息。


4.根据权利要求1所述的方法,其特征在于,所述语音识别模型的获取方法包括:
构建样本语音库;所述样本语音库为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与所述历史语音数据相对应的历史文本数据,所述历史语音数据包括常用沟通用语语音数据,所述历史文本数据包括常用沟通用语文本数据,所述常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语;
根据所述样本语音库对一基础模型进行训练以得到所述语音识别模型。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据一信噪比计算方法对所述样本语音库中的每一条历史语音数据进行信噪比计算,得到历史信噪比值;
根据所述历史信噪比值确定信噪比阈值。


6.根据权利要求1~5任意一项所述的方法,其特征在于,在对音频数据进行回声消除得到周围声源数据后,所述方法还包括:
对所述周围声源数据进行降噪处理。


7.一种语音识别装置,其特征在于,包括:
分离模块,用于对接收到的由麦克...

【专利技术属性】
技术研发人员:刘兵兵包飞刘淼泽樊锅旭倪合强
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1