语音识别方法和装置、存储介质制造方法及图纸

技术编号：27835153 阅读：11 留言：0更新日期：2021-03-30 11:57

本发明专利技术公开了一种语音识别方法和装置、存储介质。其中，该方法包括：获取待识别的多路音频信号，多路音频信号包括多个方向采集到的音频信号；获取多路音频信号中的每路音频信号的声纹特征；在多路音频信号中查找声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号；在多路音频信号中查找到目标路音频信号的情况下，从多路音频信号中提取出目标路音频信号。本发明专利技术解决了复杂的声音环境中语音识别准确率较低的技术问题。准确率较低的技术问题。准确率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法和装置、存储介质

[0001]本专利技术涉及计算机领域，具体而言，涉及一种语音识别方法和装置、存储介质。

技术介绍

[0002]在复杂的声音环境中降低干扰音频的干扰是音频处理中重的要研究方向。现有技术中常用于降低音频干扰的方法有音频降噪、回声消除和多音区抑制。但是现有技术只能消除本设备发出的电子音，和麦克风的环境回声，无法排除其他设备电子音的干扰和除使用者外其他个体的话语干扰，在真实用户语音交互中，极易被其他个体的声音干扰甚至执行非使用者的意图。无法区分该方向内的音源信息，会把除使用者外其他声音也送到语音助手进行语音识别和意图执行，这样依旧准确度有限，用户体验在嘈杂环境下依旧难以提升。
[0003]针对相关技术中，复杂的声音环境中语音识别准确率较低的问题，目前尚未存在有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种语音识别方法和装置、存储介质，以至少解决复杂的声音环境中语音识别准确率较低的技术问题。
[0005]根据本专利技术实施例的一个方面，提供了一种语音识别方法，包括：获取待识别的多路音频信号，其中，所述多路音频信号包括多个方向采集到的音频信号；获取所述多路音频信号中的每路音频信号的声纹特征；在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号；在所述多路音频信号中查找到所述目标路音频信号的情况下，从所述多路音频信号中提取出所述目标路音频信号。
[0006]根据本专利技术实施例的另一方面，还提供了一种语音识别...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待识别的多路音频信号，其中，所述多路音频信号包括多个方向采集到的音频信号；获取所述多路音频信号中的每路音频信号的声纹特征；在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号；在所述多路音频信号中查找到所述目标路音频信号的情况下，从所述多路音频信号中提取出所述目标路音频信号。2.根据权利要求1所述的方法，其特征在于，所述在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号，包括：在所述多路音频信号为N路音频信号的情况下，将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配，得到N个匹配结果，其中，N为大于1的自然数，每个所述匹配结果用于表示一路音频信号为所述目标路音频信号的置信度；在所述N个匹配结果中的第i个匹配结果表示的置信度大于目标预设阈值的情况下，将所述N路音频信号中与所述第i个匹配结果对应的第i路音频信号确定为所述目标路音频信号，其中，1≤i≤N。3.根据权利要求2所述的方法，其特征在于，所述将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配，得到N个匹配结果，包括：对于所述每路音频信号，执行以下操作，得到一个匹配结果，其中，所述每路音频信号在执行以下操作时被视为当前路音频信号：获取所述当前路音频信号的音频特征与目标音频特征的第一相似度；获取所述当前路音频信号的音色特征与目标音色特征的第二相似度；获取所述当前路音频信号的音调特征与目标音调特征的第三相似度；根据所述第一相似度、所述第二相似度以及所述第三相似度，确定与所述当前路音频信号对应的匹配结果；其中，所述当前路音频信号的声纹特征包括所述当前路音频信号的音频特征、音色特征和音调特征，所述目标声纹特征包括所述目标音频特征、所述目标音色特征和所述目标音调特征。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一相似度、所述第二相似度以及所述第三相似度，确定与所述当前路音频信号对应的匹配结果，包括：在所述第一相似度大于第一预设阈值、所述第二相似度大于第二预设阈值、且所述第三相似度大于第三预设阈值的情况下，将与所述当前路音频信号对应的匹配结果确定为用于表示所述当前路音频信号为所述目标路音频信号的置信度大于所述目标预设阈值。5.根据权利要求1所述的方法，其特征在于，所述方法包括：在所述多路音频信号中离线查找所述声纹特征与所述目标声纹特征匹配的第一路音频信号；在离线查找到所述第一路音频信号的情况下，对所述第一路音频信号进行离线语音识别，得到第一文字信息，并对所述第一文字信息进行离线语义识别，得到第一语义信息；根据所述多路音频信号，在线查找所述声纹特征与所述目标声纹特征匹配的第二路音
频信号；在在线查找到所述第二路音频信号的情况下，对所述第二路音频信号进行在线语音识别，得到第二文字信息，并对所述第二文字信息进行在线语义识别，得到第二语义信息。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：根据所述第一语义信息和所述第二语义信息，确定目标语义信息。7.根据权利要求6所述的方法，其特征在于，所述根据所述第一语义...

【专利技术属性】
技术研发人员：余绍鹏，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人