一种声纹唤醒方法及系统技术方案

技术编号:38467185 阅读:21 留言:0更新日期:2023-08-11 14:44
本申请提供了一种声纹唤醒方法及系统,通过将说话人确认以及唤醒词确认这两大核心功能进行端到端集成,无需切出唤醒词再送入声纹模型,可以避免唤醒词切分不准确所造成的声纹提取的不准确。本方法中声纹确认以及唤醒词确认能够同时进行,从而避免了两段式声纹唤醒的时间延迟。此外,本方法对唤醒词、说话人确认的所有可能情形进行幂集编码,因此模型能够直接输出声纹确认以及说话人验证的状态,无需通过调整阈值来确认是否检测到唤醒词或者目标说话人,在落地部署时无需人工阈值调整,从而降低了部署难度。低了部署难度。低了部署难度。

【技术实现步骤摘要】
一种声纹唤醒方法及系统


[0001]本专利技术涉及声纹唤醒技术,尤其涉及一种声纹唤醒方法及系统。

技术介绍

[0002]声纹唤醒亦称特定说话人唤醒,它在语音唤醒的基础上增加了说话人确认任务,从而使得语音助手不仅能够在用户说出唤醒词后做出响应,还能够区分话者身份,从而对不同话者做出不同的人机交互策略,因此被广泛应用于手机终端、智能家居、车载导航、智能穿戴等语音交互系统中。更具体的,声纹唤醒任务就是在后台不间断地接受语音并自动检测出预定义的唤醒词,当检测到相应的唤醒词之后还需要鉴别该唤醒词是否是特定说话人所发出的,这样能够保证只有特定说话人喊出唤醒词才能唤醒设备,并使设备进入特定的工作状态。
[0003]传统的声纹唤醒是两段式的:在唤醒模型之后级联声纹模型,在唤醒模型被激活之后,将话者的语音片段送入声纹模型做身份确认。其具体流程如图1所示:唤醒词模型用于检测音频序列中是否包含唤醒词,一旦检测到唤醒词之后利用后验概率确认唤醒词边界并将音频切出,随后将切出的唤醒词送入声纹模型提取唤醒词声纹(一般而言,这里的声纹模型是内容相关的),最后计算唤醒词声纹与目标说话人声纹之间的余弦相似度,当余弦相似度大于阈值后确认为目标说话人说唤醒词。
[0004]上述传统的声纹唤醒有四点弊端:
[0005]1.唤醒词难完整切出:声纹唤醒系统所使用的声纹模型一般是内容相关的,也就是说声纹模型仅能够识别唤醒词对应的声纹,若送入的语音不是唤醒词或者是不完整的唤醒词,声纹的性能会急剧下降。利用唤醒模型输出的后验概率无法获取准确的唤醒词片段的时间边界,从而无法准确而完整地将唤醒词片段送入声纹模型,这很大程度上影响说话人确认的准确性。
[0006]2.高时延:第二段中的声纹模型仅在唤醒模型被激活后再开始工作,这会进一步增加声纹唤醒系统的时延。若时延过高会极大影响用户体验,因此两段式中的唤醒模型必须在计算量和性能之间折中:声纹模型尺寸越大性能越好,但这又会增加系统时延;小尺寸声纹模型延时较小但对环境鲁棒性较差。
[0007]3.部署难度高:声纹模型的输出是一高维向量(声纹),通过计算目标说话人的声纹与语音片段中提取的声纹间的余弦相似度来确认是否为同一人,因此需要对余弦相似度设置合理的阈值来判定两段声纹是否为同一人,若阈值过高会带来高误拒率,阈值过小则会带来高误接受率。此外,在不同使用场景中的合理的阈值波动较大,这极大增加了声纹唤醒的部署难度。
[0008]4.声纹唤醒系统中的声纹模型是唤醒词相关的,可以利用唤醒词的内容表征帮助声纹模型生成唤醒词相关的声纹表征。显然,两段式声纹唤醒中,唤醒模型与声纹模型均孤立级联,无法将内容表征融合声纹表征中去。

技术实现思路

[0009]本专利技术的目的在于提供一种声纹唤醒方法及系统,通过将说话人确认以及唤醒词确认这两大核心功能进行端到端集成,并将输出投影为幂集编码,使得声纹唤醒的时延更低、准确度更高并且部署难度更低。
[0010]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0011]根据本专利技术的第一方面,提供了一种声纹唤醒方法,包括以下步骤:
[0012]S01,接收语音序列x;
[0013]S02,提取语音序列x的声学特征fea;
[0014]S03,将声学特征fea送入声纹模型,提取帧级别的说话人表征emb;
[0015]S04,计算帧级别说话人表征emb与预先存储的目标说话人声纹emb
tar
之间的余弦相似度Sim;
[0016]S05,将余弦相似度Sim与声学表征fea拼接后得到Rep;
[0017]S06,将Rep送入唤醒词检测模型,输出包含了说话人表征以及唤醒词表征的高维向量bott_neck;
[0018]S07,使用线性层Linear将bott_neck投影至幂集编码表,输出声纹唤醒状态logit,在所述幂集编码表中每种声纹唤醒状态具有唯一的编号,每个编号对应线性层Linear的一个输出节点;
[0019]S08,将logit归一化至总和为1的概率分布律prob,概率分布律prob代表声纹唤醒状态的后验概率,以后验概率最大的节点编号作为当前帧的声纹唤醒状态state的值。
[0020]在一实施例中,所述幂集编码表包括:
[0021]第一编号,对应语音序列包含唤醒词且说话者为目标说话人的情况;
[0022]第二编号,对应语音序列包含唤醒词且说话者不为目标说话人的情况;
[0023]第三编号,对应语音序列不包含唤醒词且说话者为目标说话人的情况;
[0024]第四编号,对应语音序列不包含唤醒词且说话者不为目标说话人的情况。
[0025]在一实施例中,所述步骤S08还包括:如果当前帧的声纹唤醒状态state的值为第一编号,则认为是目标说话人在说唤醒词,执行唤醒操作。
[0026]在一实施例中,所述声纹模型以RepVGG网络作为骨干网络,在训练时采用多支路结构,在推理时对支路进行合并。
[0027]在一实施例中,所述声纹模型所使用的RepVGG网络各卷积层均使用因果卷积。
[0028]在一实施例中,所述声纹模型使用预训练模型做初始化,随后参与声纹唤醒网络的反向传播并更新。
[0029]在一实施例中,所述唤醒词检测模型采用时序卷积网络作为骨干网络。
[0030]在一实施例中,所述时序卷积网络采用因果卷积。
[0031]根据本专利技术的第二方面,提供了一种声纹唤醒方法,包括以下步骤:
[0032]输入待检测音频序列;
[0033]计算待检测音频序列与预先存储的目标说话人的音色相似度;
[0034]将音色相似度信息和待检测音频序列的声学特征进行拼接,输入唤醒词检测模型,输出声纹唤醒状态所有可能情形对应的幂集编码;
[0035]根据各种情形对应幂集编码的后验概率,确定是否进行唤醒。
[0036]根据本专利技术的第三方面,提供了一种声纹唤醒系统,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如第一方面或第二方面所述的声纹唤醒方法。
[0037]本专利技术实施例的有益效果是:
[0038]不同于传统的两段式声纹唤醒,本专利技术声纹唤醒方法将说话人确认以及唤醒词确认这两大核心功能进行端到端集成,仅需输入目标说话人的声纹作为说话人确认的参照、输入音频序列用于唤醒词的检测,其输出为声纹唤醒所有可能出现的组合。由于模型能够直接输出声纹确认以及说话人验证的状态,无需通过调整阈值来确认是否检测到唤醒词或者目标说话人,在落地部署时无需人工阈值调整,从而降低了部署难度。
[0039]相较于两段式声纹唤醒模型中先切出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹唤醒方法,其特征在于,包括以下步骤:S01,接收语音序列x;S02,提取语音序列x的声学特征fea;S03,将声学特征fea送入声纹模型,提取帧级别的说话人表征emb;S04,计算帧级别说话人表征emb与预先存储的目标说话人声纹emb
tar
之间的余弦相似度Sim;S05,将余弦相似度Sim与声学表征fea拼接后得到Rep;S06,将Rep送入唤醒词检测模型,输出包含说话人表征以及唤醒词表征的高维向量bott_neck;S07,使用线性层Linear将bott_neck投影至幂集编码表,输出声纹唤醒状态logit,在所述幂集编码表中每种声纹唤醒状态具有唯一的编号,每个编号对应线性层Linear的一个输出节点;S08,将logit归一化至总和为1的概率分布律prob,概率分布律prob代表声纹唤醒状态的后验概率,以后验概率最大的节点编号作为当前帧的声纹唤醒状态state的值。2.根据权利要求1所述的声纹唤醒方法,其特征在于,所述幂集编码表包括:第一编号,对应语音序列包含唤醒词且说话者为目标说话人的状态;第二编号,对应语音序列包含唤醒词且说话者不为目标说话人的状态;第三编号,对应语音序列不包含唤醒词且说话者为目标说话人的状态;第四编号,对应语音序列不包含唤醒词且说话者不为目标说话人的状态。3.根据权利要求2所述的声纹唤醒方法...

【专利技术属性】
技术研发人员:王飞吴天昕王欢良
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1