一种声纹唤醒方法及系统技术方案

技术编号：38467185 阅读：21 留言：0更新日期：2023-08-11 14:44

本申请提供了一种声纹唤醒方法及系统，通过将说话人确认以及唤醒词确认这两大核心功能进行端到端集成，无需切出唤醒词再送入声纹模型，可以避免唤醒词切分不准确所造成的声纹提取的不准确。本方法中声纹确认以及唤醒词确认能够同时进行，从而避免了两段式声纹唤醒的时间延迟。此外，本方法对唤醒词、说话人确认的所有可能情形进行幂集编码，因此模型能够直接输出声纹确认以及说话人验证的状态，无需通过调整阈值来确认是否检测到唤醒词或者目标说话人，在落地部署时无需人工阈值调整，从而降低了部署难度。低了部署难度。低了部署难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种声纹唤醒方法及系统

[0001]本专利技术涉及声纹唤醒技术，尤其涉及一种声纹唤醒方法及系统。

技术介绍

[0002]声纹唤醒亦称特定说话人唤醒，它在语音唤醒的基础上增加了说话人确认任务，从而使得语音助手不仅能够在用户说出唤醒词后做出响应，还能够区分话者身份，从而对不同话者做出不同的人机交互策略，因此被广泛应用于手机终端、智能家居、车载导航、智能穿戴等语音交互系统中。更具体的，声纹唤醒任务就是在后台不间断地接受语音并自动检测出预定义的唤醒词，当检测到相应的唤醒词之后还需要鉴别该唤醒词是否是特定说话人所发出的，这样能够保证只有特定说话人喊出唤醒词才能唤醒设备，并使设备进入特定的工作状态。
[0003]传统的声纹唤醒是两段式的：在唤醒模型之后级联声纹模型，在唤醒模型被激活之后，将话者的语音片段送入声纹模型做身份确认。其具体流程如图1所示：唤醒词模型用于检测音频序列中是否包含唤醒词，一旦检测到唤醒词之后利用后验概率确认唤醒词边界并将音频切出，随后将切出的唤醒词送入声纹模型提取唤醒词声纹(一般而言，这里的声纹模型是内容相关的)，最后计算唤醒词声纹与目标说话人声纹之间的余弦相似度，当余弦相似度大于阈值后确认为目标说话人说唤醒词。
[0004]上述传统的声纹唤醒有四点弊端：
[0005]1.唤醒词难完整切出：声纹唤醒系统所使用的声纹模型一般是内容相关的，也就是说声纹模型仅能够识别唤醒词对应的声纹，若送入的语音不是唤醒词或者是不完整的唤醒词，声纹的性能会急剧下降。利用唤醒模型输出的后验概率无法获取准确的唤...

【技术保护点】

【技术特征摘要】
1.一种声纹唤醒方法，其特征在于，包括以下步骤：S01，接收语音序列x；S02，提取语音序列x的声学特征fea；S03，将声学特征fea送入声纹模型，提取帧级别的说话人表征emb；S04，计算帧级别说话人表征emb与预先存储的目标说话人声纹emb
tar
之间的余弦相似度Sim；S05，将余弦相似度Sim与声学表征fea拼接后得到Rep；S06，将Rep送入唤醒词检测模型，输出包含说话人表征以及唤醒词表征的高维向量bott_neck；S07，使用线性层Linear将bott_neck投影至幂集编码表，输出声纹唤醒状态logit，在所述幂集编码表中每种声纹唤醒状态具有唯一的编号，每个编号对应线性层Linear的一个输出节点；S08，将logit归一化至总和为1的概率分布律prob，概率分布律prob代表声纹唤醒状态的后验概率，以后验概率最大的节点编号作为当前帧的声纹唤醒状态state的值。2.根据权利要求1所述的声纹唤醒方法，其特征在于，所述幂集编码表包括：第一编号，对应语音序列包含唤醒词且说话者为目标说话人的状态；第二编号，对应语音序列包含唤醒词且说话者不为目标说话人的状态；第三编号，对应语音序列不包含唤醒词且说话者为目标说话人的状态；第四编号，对应语音序列不包含唤醒词且说话者不为目标说话人的状态。3.根据权利要求2所述的声纹唤醒方法...

【专利技术属性】
技术研发人员：王飞，吴天昕，王欢良，
申请(专利权)人：苏州奇梦者科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人