语音数据的识别方法、装置、芯片及电子设备制造方法及图纸

技术编号:37959935 阅读:8 留言:0更新日期:2023-06-30 09:34
本申请实施例公开了一种语音数据的识别方法,包括:对原始语音数据进行说话人标识提取,得到原始语音数据的目标用户的声音标识,在目标用户的声音标识已注册至本地的情形下,将原始语音数据和目标用户的声音标识输入至预先训练好的说话人语音提取模型中,得到目标用户对应的目标语音数据,对目标语音数据进行语音识别,得到目标语音数据的识别结果。本申请实施例还同时提供了一种语音数据的识别装置、芯片及电子设备。芯片及电子设备。芯片及电子设备。

【技术实现步骤摘要】
语音数据的识别方法、装置、芯片及电子设备


[0001]本申请涉及语音数据的识别技术,尤其涉及一种语音数据的识别方法、装置、芯片及电子设备。

技术介绍

[0002]随着科技水平的提高,各种先进的技术让我们的生活更加智能化,特别是在语音唤醒的各种场景下,比如智能音箱、终端的语音助手等设备。
[0003]相关技术中,主要是对给定的语音数据中的关键词进行识别,设备在没有外界语音的情况下,处于一种低功率的监听状态,当接收到语音数据为唤醒语句时,设备被唤醒后,唤醒之后然后才能进行交互工作,然而,这些语音唤醒设备在干净的环境下,能够保持较好的唤醒率,而且要求说话人的语音足够干净。
[0004]目前,基于关键词的语音唤醒技术,对于干净稳定的环境下能够有较好的唤醒率,但对于环境存在较大噪声的情况或者多个说话人的情况下,误唤醒率大大增加,同样地,当终端设备被语音唤醒后,对于嘈杂环境下或者多个说话人的情况下,语音对话持续性不强,识别率降低;由此可以看出,现有的对语音数据的识别方法所得到的识别结果存在准确率低下的技术问题。

技术实现思路

[0005]本申请实施例提供一种语音数据的识别方法、装置、芯片及电子设备,能够提高对语音数据的识别方法所得到的识别结果的准确性。
[0006]本申请的技术方案是这样实现的:
[0007]第一方面,本申请实施例提供了一种语音数据的识别方法,包括:
[0008]对原始语音数据进行说话人标识提取,得到所述原始语音数据的目标用户的声音标识;
[0009]在所述目标用户的声音标识已注册至本地的情形下,将所述原始语音数据输入至预先训练好的说话人语音提取模型中,得到所述目标用户对应的目标语音数据;
[0010]对所述目标语音数据进行语音识别,得到所述目标语音数据的识别结果。
[0011]第二方面,本申请实施例提供一种语音数据的识别装置,包括:
[0012]第一提取模块,用于对原始语音数据进行说话人标识提取,得到所述原始语音数据的目标用户的声音标识;
[0013]第二提取模块,用于在所述目标用户的声音标识已注册至本地的情形下,将所述原始语音数据输入至预先训练好的说话人语音提取模型中,得到所述目标用户对应的目标语音数据;
[0014]识别模块,用于对所述目标语音数据进行语音识别,得到所述目标语音数据的识别结果。
[0015]第三方面,本申请实施例提供一种芯片,包括:处理器,用于从存储器中调用并运
行计算机程序,使得安装有所述芯片的设备执行如上述一个或多个实施例所述的语音数据的识别方法。
[0016]第四方面,本申请实施例提供一种电子设备,包括:
[0017]处理器以及存储有所述处理器可执行指令的存储介质,当所述指令被所述处理器执行时,使所述电子设备执行上述的一个或多个实施例所述的语音数据的识别方法。
[0018]第五方面,本申请实施例提供了一种计算机存储介质,存储有可执行指令,当所述可执行指令被一个或多个处理器执行的时候,所述处理器执行上述一个或多个实施例所述语音数据的识别方法。
[0019]本申请实施例提供了一种语音数据的识别方法、装置、芯片及电子设备,包括:对原始语音数据进行说话人标识提取,得到原始语音数据的目标用户的声音标识,在目标用户的声音标识已注册至本地的情形下,将原始语音数据和目标用户的声音标识输入至预先训练好的说话人语音提取模型中,得到目标用户对应的目标语音数据,对目标语音数据进行语音识别,得到目标语音数据的识别结果;也就是说,在本申请实施例中,针对原始语音数据,在进行语音识别之前,先对原始语音数据进行说话人提取,从而可以得到原始语音数据的目标用户的声音标识,在得到目标用户的声音标识之后,只有当目标用户的声音标识已经注册至本地的情况下,才将原始语音数据和目标用户的声音标识输入至训练好的说话人语音提取模型,从而可以得到目标用户对应的语音数据,即目标语音数据,再对目标语音数据进行语音识别,如此,通过说话人标识提取对原始语音数据进行提取,并通过训练好的说话人语音提取模型对原始语音数据中的目标用户的语音数据进行提取,从而可以得到目标语音数据,那么,针对具有环境噪音的原始语音数据或者多人说话的语音数据来说,通过本申请实施例中可以对包含已注册用户的语音数据提取出该用户的语音数据,再对该用户的语音数据进行语音识别,从而提高了识别结果的准确性。
附图说明
[0020]图1为本申请实施例提供的一种可选的语音数据的识别方法的流程示意图;
[0021]图2为相关技术中语音数据的识别方法的流程示意图;
[0022]图3为本申请实施例提供的一种可选的语音数据的识别方法的实例一的流程示意图;
[0023]图4为本申请实施例提供的一种可选的语音数据的识别方法的实例二的流程示意图;
[0024]图5为本申请实施例提供的一种可选的语音数据的识别方法的实例三的流程示意图;
[0025]图6为本申请实施例提供的一种可选的语音数据的识别装置的结构示意图;
[0026]图7为本申请实施例提供的一种可选的芯片的结构示意图;
[0027]图8为本申请实施例提供的一种可选的电子设备的结构示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0029]本申请实施例提供了一种语音数据的识别方法,图1为本申请实施例提供的一种可选的语音数据的识别方法的流程示意图,如图1所示,该语音数据的识别方法可以包括:
[0030]S101:对原始语音数据进行说话人标识提取,得到原始语音数据的目标用户的声音标识;
[0031]目前,针对电子设备来说,在采集语音数据并对语音数据进行识别中,通常采集到的语音数据并不是用户纯净的语音数据,一般地,为包含该用户的环境语音数据,和/或,包含该用户的多人语音数据,即混合语音数据,在相关技术中,在对语音数据的识别中,针对混合语音数据来说,由于环境中存在较大噪声的情况或者多个说话人的情况,导致对语音数据的识别结果的准确性较差。
[0032]为了提高语音数据的识别结果的准确性,本申请实施例提供一种语音数据的识别方法,该方法对获取到的原始语音数据进行说话人标识提取,其中,该原始语音数据可以为目标说话人的纯净语音数据,也可以为包含有目标说话人和环境噪声的语音数据,还可以为包含有目标说话人和其他说话人的语音数据,这里,本申请实施例对此不作具体限定。
[0033]这里,获取原始语音数据可以为电子设备利用自身的受话器采集到的原始语音数据,还可以为其他电子设备发送过来的原始语音数据,这里,本申请实施例对此不做具体限定。
[0034]在获取到原始语音数据之后,对原始语音数据进行说话人标识提取,可以提取出一个聚合的嵌入式向量,该向量称之为说话人标识(Speaker Identification,Speaker ID),即为本申请实施例中的声音标识,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据的识别方法,其特征在于,包括:对原始语音数据进行说话人标识提取,得到所述原始语音数据的目标用户的声音标识;在所述目标用户的声音标识已注册至本地的情形下,将所述原始语音数据和所述目标用户的声音标识输入至预先训练好的说话人语音提取模型中,得到所述目标用户对应的目标语音数据;对所述目标语音数据进行语音识别,得到所述目标语音数据的识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标用户的语音数据;对所述目标用户的语音数据进行说话人标识提取,得到所述目标用户的声音标识;将所述目标用户的声音标识注册至本地。3.根据权利要求2所述的方法,其特征在于,所述获取所述目标用户的语音数据,包括:获取所述目标用户的第一语音数据和所述目标用户的第二语音数据;对所述第一语音数据和所述第二语音数据进行加权求和,得到所述目标用户的语音数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标用户的语音数据;对所述目标用户的语音数据进行说话人标识提取,得到所述目标用户的当前声音标识;当所述目标用户的声音标识已注册至本地时,将已注册至本地的所述目标用户的声音标识删除,将所述目标用户的当前声音标识注册至本地。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:从采集到的样本数据集中获取训练数据集;其中,所述样本数据集为:混合语音的相关数据和所述混合语音的相关数据对应的用户的语音数据,所述混合语音的相关数据包括:混合语音数据和所述混合语音数据中用户的声音标识;将所述训练数据集输入至预设的说话人语音提取模型中进行训练,得到训练后的说话人语音提取模型;基于所述训练后的说话人语音提取模型,确定所述训练好的说话人语音提取模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述训练后的说话人语音提取模型,确定所述训练好的说话人语音提取模型,包括:从所述样本数据集中获取验证数据集;将所述验证数据集中的混合语音的相关数据输入至训练好的说话人语音提取模型中,得到所述混合语音的相关数据对应的用户的语音数据集;当得到的所述混合语音的相关数据对应的用户的语音数据与所述验证数据集中混合语音的相关数据对应的用户的语音数据相同时,将所述训练后的说话人语音提取模型,确定为所述训练好的说话人语音提取模型;当得到的所...

【专利技术属性】
技术研发人员:杨毅
申请(专利权)人:哲库科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1