语音识别方法及相关设备技术

技术编号:24126397 阅读:31 留言:0更新日期:2020-05-13 04:45
本发明专利技术实施例提供了一种语音识别方法及相关设备,涉及人工智能领域,该方法包括:获取第一短时功率谱和待识别说话方的声纹特征,所述第一短时功率谱为待识别语音信号的短时功率谱;根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵,所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵,所述第二短时功率谱为待识别说话方的语音信号的短时功率谱;根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果,所述第一输出结果包括所述第二短时功率谱;根据所述第二短时功率谱识别出所述待识别说话方的语音。采用本发明专利技术实施例,能够提高语音识别的准确率。

【技术实现步骤摘要】
语音识别方法及相关设备
本专利技术涉及人工智能语音处理
,尤其涉及一种语音识别方法及相关设备。
技术介绍
人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。语音识别是人工智能领域的一种主流应用。语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。语音助手是语音识别的一种主流的实现和应用方式。移动终端的语音助手在语音识别的过程中常常遇到各种声音的干扰,例如在车载环境下使用语音助手,会遇到通过车载音响播放的广播、有声读物、导航、语音助手本身的声音等的干扰。这些声音和用户的语音混在一起,导致语音助手很难判断出哪些是目标用户的语音,哪些不是,进而导致语音助手识别错误。因此,如何减少其他声音的干扰,以提高语音识别的准确率是本领域技术人员需要解决的问题。
技术实现思路
本申请实施例公开了一种语音识别方法及相关设备,能够减少其他声音的干扰,以提高需要识别的语音的识别准确率。第一方面,本申请实施例公开了一种语音识别方法,该方法包括:获取第一短时功率谱和待识别说话方的声纹特征,所述第一短时功率谱为待识别语音信号的短时功率谱;根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵,所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵,所述第二短时功率谱为待识别说话方的语音信号的短时功率谱;根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果,所述第一输出结果包括所述第二短时功率谱;根据所述第二短时功率谱识别出所述待识别说话方的语音。本申请实施例利用第一短时功率谱和所述声纹特征来计算得到的语音分离特征拼接矩阵来实现从待识别语音中分离出待识别说话方的语音,提高了待识别说话方的语音的识别准确率。在其中一种可能的实施方式中,所述获取第一短时功率谱和待识别说话方的声纹特征之后,所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵之前,还包括:根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵,所述VAD特征拼接矩阵为用于检测所述待识别语音信号中是否包括所述待识别说话方的语音信号的矩阵;根据所述VAD特征拼接矩阵计算得到第二输出结果,所述第二输出结果指示所述待识别语音信号包括所述待识别说话方的语音信号。相比于现有技术中利用对数梅尔谱与待识别说话方的声纹特征计算得到的特征拼接矩阵来检测待识别语音中是否有待识别说话方的语音,本申请实施例利用第一短时功率谱和所述声纹特征来计算得到的VAD特征拼接矩阵来实现,从而提高了检测的准确率。在其中一种可能的实施方式中,所述根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵,包括:将所述第一短时功率谱和所述声纹特征输入VAD模型;其中,所述VAD模型包括一个或多个训练好的用于实现所述待识别语音信号中是否包括所述待识别说话方的语音信号的检测的神经网络模型;通过所述VAD模型提取所述第一短时功率谱的VAD特征;其中,所述VAD特征为T行F1列的二维矩阵,所述第一短时功率谱包括所述T个时间帧的短时功率谱,所述VAD特征包括第一特征,所述第一特征为所述T个时间帧的短时功率谱的特征,所述F1表示所述T个时间帧每个时间帧的短时功率谱的特征是由F1个元素组成的行向量;所述T和F1为大于1的整数;通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵;其中,根据第i个时间帧的短时功率谱的特征与所述声纹特征拼接得到的矩阵为第i特征拼接矩阵,所述i为1到T之间的任意一个整数;所述第i特征拼接矩阵为二维矩阵;通过所述VAD模型将所述T个特征拼接矩阵拼接得到所述VAD特征拼接矩阵,所述VAD特征拼接矩阵为三维矩阵。现有技术中对数梅尔谱属于人工设计的特征,而声纹特征使用神经网络提取,属于抽象特征,这两个特征属于不同层面的特征。本申请实施例中的所述第一短时功率谱的VAD特征和声纹特征都是通过训练好的神经网络提取的抽象特征,是同一个层面的特征,因此采用本申请实施例,能够提高检测待识别语音中是否有待识别说话方的语音的检测准确率。在其中一种可能的实施方式中,所述声纹特征为所述待识别说话方的声纹的一阶特征;所述第一特征为所述T个时间帧的短时功率谱的一阶特征;所述通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵,包括:根据所述声纹特征计算所述声纹的二阶特征,以及根据所述第一特征计算所述T个时间帧中每一个时间帧的短时功率谱的二阶特征;根据所述声纹特征和所述第一特征计算得到T个二阶联合特征;其中,根据第i个时间帧的短时功率谱的特征与所述声纹特征计算得到的二阶联合特征为第i二阶联合特征;根据所述声纹特征、所述声纹的二阶特征、所述第一特征、所述T个时间帧中每一个时间帧的短时功率谱的二阶特征以及所述T个二阶联合特征拼接得到所述T个特征拼接矩阵;其中,根据所述声纹特征、所述声纹的二阶特征、所述第i个时间帧的短时功率谱的特征、所述第i个时间帧的短时功率谱的二阶特征以及所述第i二阶联合特征拼接得到的矩阵为所述第i特征拼接矩阵。本申请实施例是介绍如何进行特征拼接的过程。在其中一种可能的实施方式中,所述根据所述VAD特征拼接矩阵计算得到第二输出结果,包括:将所述VAD特征拼接矩阵输入VAD模型包括的VAD识别神经网络;其中,所述VAD识别神经网络为训练好的根据所述VAD特征拼接矩阵识别出所述待识别语音信号中是否包括所述待识别说话方的语音信号的神经网络模型;所述VAD模型包括一个或多个训练好的用于实现所述待识别语音信号中是否包括所述待识别说话方的语音信号的检测的神经网络模型;通过所述VAD识别神经网络计算得到所述第二输出结果。本申请实施例通过VAD识别神经网络根据VAD特征拼接矩阵得到待识别语音信号包括待识别说话方的语音信号的结果,从而进一步提高了待识别说话方的语音识别准确率。此外,上述三个可能的实施例在进行从待识别语音中分离待识别说话方的语音的步骤之前先判断待识别语音中是否包括待识别说话方的语音,如果包括才继续往下执行,如果不包括则不再继续执行语音分离的步骤,且主要的计算量为语音分离步骤,因此在一定程度上能够减少计算量,减轻处理器的负担。在其中一种可能的实施方式中,所述根据所述第一短时功率谱和所述声纹特征计本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取第一短时功率谱和待识别说话方的声纹特征,所述第一短时功率谱为待识别语音信号的短时功率谱;/n根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵,所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵,所述第二短时功率谱为待识别说话方的语音信号的短时功率谱;/n根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果,所述第一输出结果包括所述第二短时功率谱;/n根据所述第二短时功率谱识别出所述待识别说话方的语音。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取第一短时功率谱和待识别说话方的声纹特征,所述第一短时功率谱为待识别语音信号的短时功率谱;
根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵,所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵,所述第二短时功率谱为待识别说话方的语音信号的短时功率谱;
根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果,所述第一输出结果包括所述第二短时功率谱;
根据所述第二短时功率谱识别出所述待识别说话方的语音。


2.根据权利要求1所述方法,其特征在于,所述获取第一短时功率谱和待识别说话方的声纹特征之后,所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵之前,还包括:
根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵,所述VAD特征拼接矩阵为用于检测所述待识别语音信号中是否包括所述待识别说话方的语音信号的矩阵;
根据所述VAD特征拼接矩阵计算得到第二输出结果,所述第二输出结果指示所述待识别语音信号包括所述待识别说话方的语音信号。


3.根据权利要求2所述方法,其特征在于,所述根据所述第一短时功率谱和所述声纹特征计算得到语音激活检测VAD特征拼接矩阵,包括:
将所述第一短时功率谱和所述声纹特征输入VAD模型;其中,所述VAD模型包括一个或多个训练好的用于实现所述待识别语音信号中是否包括所述待识别说话方的语音信号的检测的神经网络模型;
通过所述VAD模型提取所述第一短时功率谱的VAD特征;其中,所述VAD特征为T行F1列的二维矩阵,所述第一短时功率谱包括所述T个时间帧的短时功率谱,所述VAD特征包括第一特征,所述第一特征为所述T个时间帧的短时功率谱的特征,所述F1表示所述T个时间帧每个时间帧的短时功率谱的特征是由F1个元素组成的行向量;所述T和F1为大于1的整数;
通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵;其中,根据第i个时间帧的短时功率谱的特征与所述声纹特征拼接得到的矩阵为第i特征拼接矩阵,所述i为1到T之间的任意一个整数;所述第i特征拼接矩阵为二维矩阵;
通过所述VAD模型将所述T个特征拼接矩阵拼接得到所述VAD特征拼接矩阵,所述VAD特征拼接矩阵为三维矩阵。


4.根据权利要求3所述方法,其特征在于,所述声纹特征为所述待识别说话方的声纹的一阶特征;所述第一特征为所述T个时间帧的短时功率谱的一阶特征;所述通过所述VAD模型根据所述第一特征与所述声纹特征拼接得到T个特征拼接矩阵,包括:
根据所述声纹特征计算所述声纹的二阶特征,以及根据所述第一特征计算所述T个时间帧中每一个时间帧的短时功率谱的二阶特征;
根据所述声纹特征和所述第一特征计算得到T个二阶联合特征;其中,根据第i个时间帧的短时功率谱的特征与所述声纹特征计算得到的二阶联合特征为第i二阶联合特征;
根据所述声纹特征、所述声纹的二阶特征、所述第一特征、所述T个时间帧中每一个时间帧的短时功率谱的二阶特征以及所述T个二阶联合特征拼接得到所述T个特征拼接矩阵;其中,根据所述声纹特征、所述声纹的二阶特征、所述第i个时间帧的短时功率谱的特征、所述第i个时间帧的短时功率谱的二阶特征以及所述第i二阶联合特征拼接得到的矩阵为所述第i特征拼接矩阵。


5.根据权利要求2至4任一项所述方法,其特征在于,所述根据所述VAD特征拼接矩阵计算得到第二输出结果,包括:
将所述VAD特征拼接矩阵输入VAD模型包括的VAD识别神经网络;其中,所述VAD识别神经网络为训练好的根据所述VAD特征拼接矩阵识别出所述待识别语音信号中是否包括所述待识别说话方的语音信号的神经网络模型;所述VAD模型包括一个或多个训练好的用于实现所述待识别语音信号中是否包括所述待识别说话方的语音信号的检测的神经网络模型;
通过所述VAD识别神经网络计算得到所述第二输出结果。


6.根据权利要求1至5任一项所述方法,其特征在于,所述根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵,包括:
将所述第一短时功率谱和所述声纹特征输入语音分离模型,所述语音分离模型包括一个或多个训练好的用于实现第二短时功率谱从所述第一短时功率谱中分离的神经网络模型;
通过所述语音分离模型提取所述第一短时功率谱的语音分离特征;其中,所述语音分离特征为T1行F2列的二维矩阵,所述第一短时功率谱包括所述T1个时间帧的短时功率谱,所述语音分离特征包括第二特征,所述第二特征为T1个时间帧的短时功率谱的特征,所述F2表示所述T1个时间帧每个时间帧的短时功率谱的特征是由F2个元素组成的行向量;所述T1和F2为大于1的整数;
通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到T1个特征拼接矩阵;其中,根据第j个时间帧的短时功率谱的特征与所述声纹特征拼接得到的矩阵为第j特征拼接矩阵,所述j为1到T1之间的任意一个整数;所述第j特征拼接矩阵为二维矩阵;
通过所述语音分离模型将所述T1个特征拼接矩阵拼接得到所述语音分离特征拼接矩阵,所述语音分离特征拼接矩阵为三维矩阵。


7.根据权利要求6所述方法,其特征在于,所述声纹特征为所述待识别说话方的声纹的一阶特征;所述第二特征为所述T1个时间帧的短时功率谱的一阶特征;所述通过所述语音分离模型根据所述第二特征与所述声纹特征拼接得到T1个特征拼接矩阵,包括:
根据所述声纹特征计算所述声纹的二阶特征,以及根据所述第二特征计算所述T1个时间帧中每一个时间帧的短时功率谱的二阶特征;
根据所述声纹特征和所述第二特征计算得到T1个二阶联合特征;其中,根据第j个时间帧的短时功率谱的特征与所述声纹特征计算得到的二阶联合特征为第j二阶联合特征;
根据所述声纹特征、所述声纹的二阶特征、所述第二特征、所述T1个时间帧中每一个时间帧的短时功率谱的二阶特征以及所述T1个二阶联合特征拼接得到所述T1个特征拼接矩阵;其中,根据所述声纹特征、所述声纹的二阶特征、所述第j个时间帧的短时功率谱的特征、所述第j个时间帧的短时功率谱的二阶特征以及所述第j二阶联合特征拼接得到的矩阵为所述第j特征拼接矩阵。


8.根据权利要求1至7任一项所述方法,其特征在于,所述根据所述语音分离特征拼接矩阵和所述第一短时功率谱计算得到第一输出结果,包括:
将所述语音分离特征拼接矩阵输入语音分离模型包括的掩码获取神经网络;
通过所述掩码获取神经网络计算出所述第一短时功率谱的掩码矩阵,所述掩码矩阵包括所述第二短时功率谱在所述第一短时功率谱中的权重信息;
根据所述掩码矩阵和所述第一短时功率谱计算得到所述第一输出结果。


9.一种语音识别设备,其特征在于,包括:
获取单元,用于获取第一短时功率谱和待识别说话方的声纹特征,所述第一短时功率谱为待识别语音信号的短时功率谱;
计算单元,用于根据所述第一短时功率谱和所述声纹特征计算得到语音分离特征拼接矩阵,所述语音分离特征拼接矩阵为用于实现将第二短时功率谱从所述第一短时功率谱中分离的矩阵,所述第二短时功率谱为待识别说话方的语音信号的短时功率谱;
所...

【专利技术属性】
技术研发人员:王剑桥
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1