语音识别方法和装置、存储介质制造方法及图纸

技术编号:27835153 阅读:11 留言:0更新日期:2021-03-30 11:57
本发明专利技术公开了一种语音识别方法和装置、存储介质。其中,该方法包括:获取待识别的多路音频信号,多路音频信号包括多个方向采集到的音频信号;获取多路音频信号中的每路音频信号的声纹特征;在多路音频信号中查找声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在多路音频信号中查找到目标路音频信号的情况下,从多路音频信号中提取出目标路音频信号。本发明专利技术解决了复杂的声音环境中语音识别准确率较低的技术问题。准确率较低的技术问题。准确率较低的技术问题。

【技术实现步骤摘要】
语音识别方法和装置、存储介质


[0001]本专利技术涉及计算机领域,具体而言,涉及一种语音识别方法和装置、存储介质。

技术介绍

[0002]在复杂的声音环境中降低干扰音频的干扰是音频处理中重的要研究方向。现有技术中常用于降低音频干扰的方法有音频降噪、回声消除和多音区抑制。但是现有技术只能消除本设备发出的电子音,和麦克风的环境回声,无法排除其他设备电子音的干扰和除使用者外其他个体的话语干扰,在真实用户语音交互中,极易被其他个体的声音干扰甚至执行非使用者的意图。无法区分该方向内的音源信息,会把除使用者外其他声音也送到语音助手进行语音识别和意图执行,这样依旧准确度有限,用户体验在嘈杂环境下依旧难以提升。
[0003]针对相关技术中,复杂的声音环境中语音识别准确率较低的问题,目前尚未存在有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种语音识别方法和装置、存储介质,以至少解决复杂的声音环境中语音识别准确率较低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种语音识别方法,包括:获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;获取所述多路音频信号中的每路音频信号的声纹特征;在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
[0006]根据本专利技术实施例的另一方面,还提供了一种语音识别装置,包括:第一获取模块,用于获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;第二获取模块,用于获取所述多路音频信号中的每路音频信号的声纹特征;查找模块,用于在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;提取模块,用于在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
[0007]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音识别方法。
[0008]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的语音识别方法。
[0009]在本专利技术实施例中,通过获取待识别的多路音频信号,多路音频信号包括多个方向采集到的音频信号;获取多路音频信号中的每路音频信号的声纹特征;在多路音频信号
中查找声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在多路音频信号中查找到目标路音频信号的情况下,从多路音频信号中提取出所述目标路音频信号,达到了在多路音频信号中准确识别出目标路音频信号的目的,从而实现了提高语音识别准确率的技术效果,进而解决了复杂的声音环境中语音识别准确率较低的技术问题。
附图说明
[0010]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0011]图1是根据本专利技术实施例的一种可选的语音识别方法的应用环境的示意图;
[0012]图2是根据本专利技术实施例的语音识别方法的流程图;
[0013]图3是根据本专利技术实施例的一种可选的声纹识别的优化策略示意图;
[0014]图4是根据本专利技术实施例的一种可选的离线流程示意图;
[0015]图5是根据本专利技术实施例的一种可选的在线流程示意图;
[0016]图6是根据本专利技术实施例的一种可选的整体技术架构图;
[0017]图7是根据本专利技术实施例的一种可选的整体交互时序示意图;
[0018]图8是根据本专利技术实施例的一种可选的语音识别装置的结构示意图;
[0019]图9是根据本专利技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
[0020]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0021]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]根据本专利技术实施例的一个方面,提供了一种语音识别方法,可选地,作为一种可选的实施方式,上述语音识别方法可以但不限于应用于如图1所示的系统环境中,该系统环境可以包括:用户设备102、网络110和服务器112。
[0023]可选地,在本实施例中,上述用户设备可以是终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能家居设备(如智能电视、智能洗衣机、智能空调等)、车载设备(如安置在车辆上的终端设备)等。用户设备可以是配置有目标客户端,目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端、购
物客户端、导航客户端等。在本实施例中,用户设备可以但不限于:存储器104、处理器106和显示器108。存储器104可以用于存储数据,例如可以用于存储上述多路音频信号和目标对象的目标声纹特征。处理器可以用于对音频信号进行处理,例如获取多路音频信号中的每路音频信号的声纹特征。显示器108可以用于显示处理结果,例如显示每路音频信号的声纹特征。
[0024]可选地,上述网络110可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。
[0025]可选地,上述服务器112可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。服务器112可以但不限于:数据库114和处理引擎116。上述数据库114可用于存储数据,例如可以用于存储上述多路音频信号和目标对象的目标声纹特征。处理引擎用于对音频数据进行处理,例如,在多路音频信号中查找声纹特征与目标声纹特征匹配的目标路音频信号。上述仅是一种示例,本实施例中对此不作任何限定。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;获取所述多路音频信号中的每路音频信号的声纹特征;在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。2.根据权利要求1所述的方法,其特征在于,所述在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号,包括:在所述多路音频信号为N路音频信号的情况下,将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,其中,N为大于1的自然数,每个所述匹配结果用于表示一路音频信号为所述目标路音频信号的置信度;在所述N个匹配结果中的第i个匹配结果表示的置信度大于目标预设阈值的情况下,将所述N路音频信号中与所述第i个匹配结果对应的第i路音频信号确定为所述目标路音频信号,其中,1≤i≤N。3.根据权利要求2所述的方法,其特征在于,所述将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,包括:对于所述每路音频信号,执行以下操作,得到一个匹配结果,其中,所述每路音频信号在执行以下操作时被视为当前路音频信号:获取所述当前路音频信号的音频特征与目标音频特征的第一相似度;获取所述当前路音频信号的音色特征与目标音色特征的第二相似度;获取所述当前路音频信号的音调特征与目标音调特征的第三相似度;根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果;其中,所述当前路音频信号的声纹特征包括所述当前路音频信号的音频特征、音色特征和音调特征,所述目标声纹特征包括所述目标音频特征、所述目标音色特征和所述目标音调特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果,包括:在所述第一相似度大于第一预设阈值、所述第二相似度大于第二预设阈值、且所述第三相似度大于第三预设阈值的情况下,将与所述当前路音频信号对应的匹配结果确定为用于表示所述当前路音频信号为所述目标路音频信号的置信度大于所述目标预设阈值。5.根据权利要求1所述的方法,其特征在于,所述方法包括:在所述多路音频信号中离线查找所述声纹特征与所述目标声纹特征匹配的第一路音频信号;在离线查找到所述第一路音频信号的情况下,对所述第一路音频信号进行离线语音识别,得到第一文字信息,并对所述第一文字信息进行离线语义识别,得到第一语义信息;根据所述多路音频信号,在线查找所述声纹特征与所述目标声纹特征匹配的第二路音
频信号;在在线查找到所述第二路音频信号的情况下,对所述第二路音频信号进行在线语音识别,得到第二文字信息,并对所述第二文字信息进行在线语义识别,得到第二语义信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据所述第一语义信息和所述第二语义信息,确定目标语义信息。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一语义...

【专利技术属性】
技术研发人员:余绍鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1