文本无关说话人验证方法和装置制造方法及图纸

技术编号：22103375 阅读：21 留言：0更新日期：2019-09-14 03:49

本发明专利技术公开文本无关说话人验证方法和装置，其中，一种文本无关说话人验证方法，包括：提取待验证语音的幅度特征和与所述幅度特征对应的相位特征；对所述幅度特征和所述相位特征进行处理以得到相位感知特征；对所述相位感知特征进行说话人分类以得到说话人嵌入；对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。本申请的方法和装置提供的方案通过在深度说话人嵌入学习中结合幅度特征和相位特征，说话人验证系统的对噪声鲁棒性能够得到提升。进一步地，本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案，更展现了使用相位特征来提升性能的各种可能。

Text-independent Speaker Verification Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
文本无关说话人验证方法和装置
本专利技术属于说话人验证
，尤其涉及文本无关说话人验证方法和装置。
技术介绍
相关技术中，现有的说话人验证系统大致分为两派：1)基于传统i-vector模型；2)基于深度学习框架。但目前市面上存有的说话人验证系统，通常需要训练和测试的环境相一致，如果测试环境比较嘈杂，其性能会大幅降低。目前市面上存在对噪声鲁棒的说话人验证系统大多通过构造带噪的数据集进行训练。存在的结合相位信息的说话人验证系统，也均是基于传统的说话人验证系统框架(高斯混合模型等)。传统i-vector系统通过GMM(gaussianmixturemodel，高斯混合模型)对说话人进行建模，并通过因子分析的得到说话人嵌入。而基于深度学习框架的说话人验证系统使用神经网络对说话人嵌入进行建模。结合相位信息的说话人验证系统将相位特征和幅度特征结合在一起，通过传统说话人验证模型进行建模。专利技术人在实现本申请的过程中发现，现有的方案至少存在以下缺陷：不特地对噪声环境进行优化的说话人验证系统通常需要训练和测试的环境相一致，如果测试环境比较嘈杂，其性能会大幅降低。而如果重新构造带噪训练集，需要花费较多人力和时间来录制新的音频。使用传统说话人验证框架结合相位信息的系统在性能方面不如基于深度学习框架。这些缺陷主要是由模型性能、数据集等内容导致。
技术实现思路
本专利技术实施例提供一种文本无关说话人验证方法和装置，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种文本无关说话人验证方法，包括：提取待验证语音的幅度特征和与所述幅度特征对应的相位特征；对所述幅度特征和所...

【技术保护点】
1.一种文本无关说话人验证方法，包括：提取待验证语音的幅度特征和与所述幅度特征对应的相位特征；对所述幅度特征和所述相位特征进行处理以得到相位感知特征；对所述相位感知特征进行说话人分类以得到说话人嵌入；对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。

【技术特征摘要】
1.一种文本无关说话人验证方法，包括：提取待验证语音的幅度特征和与所述幅度特征对应的相位特征；对所述幅度特征和所述相位特征进行处理以得到相位感知特征；对所述相位感知特征进行说话人分类以得到说话人嵌入；对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。2.根据权利要求1所述的方法，其中，所述对所述幅度特征和所述相位特征进行处理以得到相位感知特征包括：将所述幅度特征、所述相位特征的正弦值和所述相位特征的余弦值拼接成三通道输入；将所述三通道输入经过卷积层和残差层对所述幅度特征和所述相位特征进行融合以得到相位感知特征。3.根据权利要求1所述的方法，其中，所述对所述幅度特征和所述相位特征进行处理以得到相位感知特征包括：将所述幅度特征、所述相位特征的正弦值和所述相位特征的余弦值分别通过独立的卷积层和独立的残差层以得到处理后的特征；将所述处理后的特征进行相加处理以得到相位感知特征。4.根据权利要求1-3中任一项所述的方法，其中，所述幅度特征包括：感知线性预测、梅尔倒谱频率特征和滤波器组特征。5.根据权利要求4所述的方法，其中，所述对所述相位感知特征进行说话人分类以得到说话人嵌入包括：将相位感知特征通过预设层数的残差网络进行说话人分类任务学习，在所述残差网络训练完成后，输入包含相位信息的音频特征，所述残差网络的中间层输出说话人嵌入。6.根据权利要求5所述的方法，其中，所述对所述说话人嵌入进...

【专利技术属性】
技术研发人员：俞凯，钱彦旻，杨叶新，王帅，黄厚军，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人