声纹识别模型训练及相关识别方法、电子设备和存储介质技术

技术编号：36189033 阅读：15 留言：0更新日期：2022-12-31 21:00

本申请实施例提供了一种声纹识别模型训练及相关识别方法、电子设备和存储介质，声纹识别方法包括：提取待识别语音片段的声学特征；提取所述待识别语音片段的隐藏特征，其中，所述隐藏特征用于指示所述待识别语音片段对应的说话内容；对所述待识别语音片段的声学特征和隐藏特征进行拼接，获得所述待识别语音片段的拼接特征；将所述待识别语音片段的拼接特征输入声纹识别模型，对所述待识别语音片段进行声纹识别，获得声纹识别结果。本方案能够提高声纹识别的准确率。高声纹识别的准确率。高声纹识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
声纹识别模型训练及相关识别方法、电子设备和存储介质

[0001]本申请实施例涉及人工智能
，尤其涉及一种声纹识别模型训练及相关识别方法、电子设备和存储介质。

技术介绍

[0002]声纹识别(Voiceprint Recognition,VPR)也被为说话人识别(Speaker Recognition)，属于生物识别技术的一种，具体实现时通过声纹识别模型识别不同说话人的声音特征，以实现说话人辨认或说话人确认。
[0003]目前，声纹识别模型从语音数据中提取用于指示说话人声音特征的声学特征，进而基于提取到的声学特征来区分不同说话人的语音信息。
[0004]然而，从语音数据中提取出的声学特征，不仅包括说话人声音特征，还包括说话内容的相关特征，因此，从同一说话人说不同内容的语音片段中提取出的声学特征会存在较大差异，从不同说话人说相同内容的语音片段中提取出的声学特征具有较高的相似度，从而导致声纹识别的准确率较低。

技术实现思路

[0005]有鉴于此，本申请实施例提供一种声纹识别模型训练及相关识别方法、电子设备和存储介质，以至少解决或缓解上述问题。
[0006]根据本申请实施例的第一方面，提供了一种声纹识别方法，包括：提取待识别语音片段的声学特征；提取所述待识别语音片段的隐藏特征，其中，所述隐藏特征用于指示所述待识别语音片段对应的说话内容；对所述待识别语音片段的声学特征和隐藏特征进行拼接，获得所述待识别语音片段的拼接特征；将所述待识别语音片段的拼接特征输入声纹识别模型，对所述待识别语...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法，包括：提取待识别语音片段的声学特征；提取所述待识别语音片段的隐藏特征，其中，所述隐藏特征用于指示所述待识别语音片段对应的说话内容；对所述待识别语音片段的声学特征和隐藏特征进行拼接，获得所述待识别语音片段的拼接特征；将所述待识别语音片段的拼接特征输入声纹识别模型，对所述待识别语音片段进行声纹识别，获得声纹识别结果。2.根据权利要求1所述的方法，其中，所述提取所述待识别语音片段的隐藏特征，包括：提取所述待识别语音片段的梅尔频率倒谱系数特征；将所述梅尔频率倒谱系数特征输入自动语音识别模型，提取所述待识别语音片段中每一帧所对应说话内容的隐藏特征；对所述待识别语音片段中各帧所对应说话内容的隐藏特征进行顺序组合，获得所述待识别语音片段的隐藏特征。3.根据权利要求1所述的方法，其中，所述声纹识别模型包括依次设置的第一卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第二卷积层、第一编解码层和第二编解码层，所述第一卷积层的输入为所述待识别语音片段的拼接特征，所述第二编解码层的输出为所述声纹识别结果。4.根据权利要求3所述的方法，其中，所述第一卷积层和所述第二卷积层用于对输入进行一维卷积，所述第一空洞卷积层、所述第二空洞卷积层和所述第三空洞卷积层均包括SE
‑
Res2Block模型，所述第一编解码层和所述第二编解码层均包括Transformer模型。5.一种说话人识别方法，包括：对第一语音片段和第二语音片段进行拼接，获得拼接语音片段；提取所述拼接语音片段的声学特征；提取所述拼接语音片段的隐藏特征，其中，所述隐藏特征用于指示所述第一语音片段和所述第二语音片段对应的说话内容；对所述拼接语音片段的声学特征和隐藏特征进行拼接，获得所述拼接语音片段的拼接特征；将所述拼接语音片段的拼接特征输入声纹识别模型，对所述拼接语音片段进行声纹识别，获得所述拼接语音片段的声纹识别结果；根据所述拼接语音片段的声纹识别结果，确定说话人识别结果，其中，所述说话人识别结果用于指示所述第一语音片段和所述第二语音片段对应相同说话人的概率。6.根据权利要求5所述的方法，其中，所述根据所述拼接语音片段的声纹识别结果，确定说话人识别结果，包括：对所述拼接语音片段的声纹识别结果中所述第一语音片段对应的矩阵和所述第二语音片段对应的矩阵分别进行池化处理，获得分布式特征表示；通过全连接层将所述分布式特征表示映射为所述说话人识别结果。7.一种说话人日志生成方法，包括：提取待处理语音的声学特征；
提取所述待处理语音的隐藏特征，其中，所述隐藏特征用于指示所述待处理语音对应的说话内容；对所述待处理语音的声学特征和所述隐藏特征进行拼接，获得所述待处理语音的拼接特征；将所述待处理语音的拼接特征输入声纹识别模型，对所述待处理语音进行声纹识别，获得所述待处理语音的声纹识别结果；将所述待处理语音的声纹识别结果输入前馈神经网络进行特征提取，获得说话人日志，其中，所述说话人日志用于标识所述待处理语音中按说话人划分的语音片段。8.一种声纹识别模型的训练方法，包括：从无标签语音数据集中获取至少两个语音片段；对所述至少两个语音片段进行拼接，获得第一语音样本；提取所述第一语音样本的声学特征；提取所述第一语音样本的隐藏特征，其中，所述隐藏特征用于指示所述第一语音样本中各语音片段对应的说话内容；对所述第一语音样本的...

【专利技术属性】
技术研发人员：郑斯奇，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人