一种基于增强自监督框架的说话人识别方法及系统技术方案

技术编号：40421601 阅读：34 留言：0更新日期：2024-02-20 22:40

本发明专利技术公开了一种基于增强自监督框架的说话人识别方法及系统，包括：(1)准备说话人语音数据集，将数据集分为训练集和测试集；(2)构建增强自监督框架的说话人识别模型，包含结构相同、参数不同的教师模型和学生模型；(3)对于训练数据集的每个样本，在训练过程中，使用随机采样策略对该段音频进行切分，长时片段作为教师模型输入，短时片段作为学生模型输入，通过教师模型的输出来指导学生模型提取鲁棒性强的说话人特征；(4)将待识别的两段音频输入训练好的说话人识别模型，提取说话人特征，利用自适应得分规整算法计算规整后的相似度得分，根据相似度得分判断两段音频是否为同一个人。利用本发明专利技术，可以有效提高说话人识别性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别，尤其是涉及一种基于增强自监督框架的说话人识别方法及系统。

技术介绍

1、说话人识别技术是一种用于识别和验证个体身份的声音信号处理技术。它基于声音信号的特征和模式，通过分析和比较声音的特征，来确定说话者的身份。说话人识别技术可以应用于多个领域，如身份验证和访问控制：使用语音进行身份识别的门禁系统、手机解锁等。电话安全：在电话银行、电话投票等系统中，说话人识别可以用于确认用户的身份，防止身份冒用。犯罪侦查：说话人识别可以用于调查和侦破犯罪案件，例如判断威胁电话的来源、对嫌疑人的声音进行识别等。语音助手和智能家居：说话人识别可以让智能助手(如siri、alexa等)识别和区分不同的用户，为每个用户提供个性化的服务。

2、随着深度学习技术的发展，众多研究者使用深度神经网络来获取具有区分性信息的说话人矢量，如x-vector、resnet等。

3、如公开号为cn110047504a的中国专利文献公开了一种身份矢量x-vector线性变换下的说话人识别方法；公开号为cn114360551a的中国专利文...

【技术保护点】

1.一种基于增强自监督框架的说话人识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于增强自监督框架的说话人识别方法，其特征在于，步骤(2)中，所述的教师模型和学生模型均包含编码器和投影头；其中，使用编码器提取说话人特征矢量，使用投影头将编码器输出的特征映射到更高维的空间，得到高维特征表示；

3.根据权利要求2所述的基于增强自监督框架的说话人识别方法，其特征在于，使用编码器提取说话人特征矢量的具体过程为：

4.根据权利要求2所述的基于增强自监督框架的说话人识别方法，其特征在于，投影头通过多层感知机结构实现，将低维的说话人特征矢量映射到高维...

【技术特征摘要】

1.一种基于增强自监督框架的说话人识别方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于增强自监督框架的说话人识别方法，其特征在于，使用编码器提取说话人特征矢量的具体过程为：

4.根据权利要求2所述的基于增强自监督框架的说话人识别方法，其特征在于，投影头通过多层感知机结构实现，将低维的说话人特征矢量映射到高维特征表示。

5.根据权利要求2所述的基于增强自监督框架的说话人识别方法，其特征在于...

【专利技术属性】
技术研发人员：万贤美，张剑，
申请(专利权)人：浙江外国语学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人