当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于常数Q变换的音频特征压缩方法技术

技术编号:34359601 阅读:77 留言:0更新日期:2022-07-31 07:15
本发明专利技术提出了一种基于常数Q变换的音频特征压缩方法用于重放攻击检测,在保证重放攻击检测高性能的同时,大幅度减小数据量、提高模型训练和检测速度、降低设备要求。为了保证检测的高性能,根据CQT变换中分帧特点,选择在时间帧上用求和的方式实现最终的压缩目的,以期不会丢失有效信息。同时对应设计的一维模块的残差网络模型,通过减少网络各层的输出通道数以减少数据量,从而进一步提高训练和检测速度。本发明专利技术模型在ASVspoof2019挑战赛的PA数据集上进行实验,在测试集上展现了良好的重放攻击检测性能,并且,与未压缩的特征

An audio feature compression method based on constant Q transform

【技术实现步骤摘要】
一种基于常数Q变换的音频特征压缩方法


[0001]本专利技术涉及生物识别技术中的语音重放攻击检测问题,尤其是涉及一种基于常数Q变换(Constant Q Transform,CQT)的语音特征压缩来提取有效且数据量小的特征的方法用于重放攻击检测。

技术介绍

[0002]语音重放攻击检测是一种判别真人发声和录音重放的生物识别技术。随着语音录制设备质量的提高,重放攻击给说话人识别与验证带来了严重威胁,提高重放攻击检测性能具有重要的现实意义。
[0003]重放攻击系统的检测性能主要取决于特征提取和网络模型两个方面。在特征提取阶段,尽可能提取更多的、可以区分真人发声语音和重放语音的有效特征;在网络模型方面,设计学习特征能力更强的网络模型,以期训练出更能准确判断真假语音的模型。
[0004]所以,目前大多数性能良好的系统就是从以上两个角度入手:多特征融合是一种有效的特征提取和处理手段,比如简单的不同频段特征的融合、第三届自动说话人验证欺骗与对策ASVspoof2019挑战赛第一的清华团队采用幅度和相位特征的融合;网络模型方面,加深网络模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于常数Q变换的音频特征压缩方法用于重放攻击检测,其特征在于包括以下步骤:(1)对语音信号作常数Q变换CQT得到二维频谱;(2)对(1)中结果按照各频率成分在时间表示的维度上进行压缩,得到一维特征数据CQT
Z
;(3)根据(2)中一维的CQT
Z
设计一维处理模块的残差网络模型resnet50_1D,减少模型参数;(4)用(3)中模型结果使用对数似然函数得到语音的评测分数,比较评测分数和阈值的大小,判别真人发声或语音重放。2.根据权利要求1所述的方法,其特征在于步骤(2)对步骤(1)中所得的语音CQT频谱在时间维度作压缩,压缩方法如下:对于一条时序语音来说,对其作CQT变换得到的频谱(M,N)是二维的,其中M代表各频率分量,N代表时间帧,按照CQT对非平稳语音信号的分帧处理特点,即仅仅是时间上的切片,那么对N代表的时间帧作求和压缩处理不会影响每条语音所含有的各频率分量及其含量,对二维CQT谱的时间帧求和压缩得到长度为M的...

【专利技术属性】
技术研发人员:陈洪刚陈露周欣何小海王正勇卿鳞波滕奇志
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1