【技术实现步骤摘要】
本专利技术涉及语音处理和图像超分辨率,具体涉及到语音的说话人验证技术和图像的ecb技术。
技术介绍
1、随着互联网和人工智能的发展,身份验证方式发生了重大变化,传统的身份认证存在各种不足已无法满足人们对认证系统的安全和便捷的需求,而说话人验证系统相对具有无接触采集和成本低廉等优势,因此,为了满足人们对安全、高效且无需接触身份验证方式的需求,进一步研究声纹识别技术具有重要的现实意义和应用价值。声纹识别技术能提取语音中的说话人身份信息,被广泛应用于安全认证、语音助手、智能家居、医疗、设备监测等领域。说话人验证(speaker verification,sv)是声纹识别
的一个重要研究方向,它能够在语音交互过程中利用已有的身份的注册语音,在不限定说话内容的条件下,验证待识别语音是否为同一个说话人的语音。这在如语音唤醒、安全认证等需要身份验证的应用场景具有重要研究价值。
2、说话人验证需要解决的核心问题是目标说话人提取(tse),即如何使用深度神经网络提取最具有说话人身份表征的信息并应用于后端判别。目前的sv领域sota模型c
...【技术保护点】
1.一种基于纹理和通道特征增强的说话人验证方法,其特征在于,包含以下步骤:
2.根据权利要求1所述的基于纹理和通道特征增强的说话人验证方法,其特征在于,步骤二的具体过程为:首先所有音频处理成3秒长的序列,设置采样率为16000,那么每段序列包含48000个点,然后使用80组滤波器对每段序列进行FBank特征提取,那么每段音频序列变成了形状为[80,298]的二维数组,包含了时频信息。
3.根据权利要求1所述的基于纹理和通道特征增强的说话人验证方法,其特征在于,所述纹理特征采集模块,基于CAM++网络进行改进,包括升维层和ECB层;
...
【技术特征摘要】
1.一种基于纹理和通道特征增强的说话人验证方法,其特征在于,包含以下步骤:
2.根据权利要求1所述的基于纹理和通道特征增强的说话人验证方法,其特征在于,步骤二的具体过程为:首先所有音频处理成3秒长的序列,设置采样率为16000,那么每段序列包含48000个点,然后使用80组滤波器对每段序列进行fbank特征提取,那么每段音频序列变成了形状为[80,298]的二维数组,包含了时频信息。
3.根据权利要求1所述的基于纹理和通道特征增强的说话人验证方法,其特征在于,所述纹理特征采集模块,基于cam++网络进行改进,包括升维层和ecb层;
4.根据权利要求1所述的基于纹理和通道特征增强的说话人验证方法,其特征在于:获取高分辨率的说话人时频特征,基于resnet网络,构建若干层basicblock,basicblock层由3层二维卷积网络构成,分别由大小为3×3步长为2×1padding为1×1的卷积核、bn层、relu激活函数和大小为3×3步长为1×1padding为1×1的卷积核、bn层以及大小...
【专利技术属性】
技术研发人员:孙成立,张佳豪,郭桥生,陈飞龙,邹采荣,丁碧云,彭建坤,郭智华,肖永生,郭奕君,
申请(专利权)人:广州航海学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。