【技术实现步骤摘要】
基于韵律特征和随机森林分类器的语音倍速攻击检测方法
[0001]本专利技术属于语音识别技术及安全
,具体涉及一种基于韵律特征和随机森林分类器的语音倍速攻击检测方法。
技术介绍
[0002]自动语音识别(Automatic Speech Recognition,ASR)系统可以识别语音并输出语音识别文本。现有流行的ASR系统包括开源系统(如Kaldi和DeepSpeech)和商业系统(如谷歌Cloud Speech
‑
to
‑
Text、百度ASR和科大讯飞)。对于输入音频,ASR系统首先进行信号处理,以减少噪声和去除无关的频率成分;然后将处理后的音频信号分成短段,提取梅尔频率倒谱系数(MFCC)等特征;最后利用提取的特征,通过预先训练的语音识别模型推断出最可能的单词序列。
[0003]倍速操作(Time
‑
scale Modification,TSM)是指将一个音频片段播放速度变快或者变慢的操作。常见的音频播放器或者音频编辑软件会利用倍速操作在不改变音频音调的 ...
【技术保护点】
【技术特征摘要】
1.一种基于韵律特征和随机森林分类器的语音倍速攻击检测方法,其特征在于,包括:获取音频数据集,包括正常音频和倍速对抗音频;提取音频数据集中所有音频的抖动特征、颤音特征和谐波噪声比特征,构成特征向量;利用正常音频和倍速对抗音频的特征向量训练随机森林分类器,利用训练好的随机森林分类器进行语音倍速攻击检测。2.根据权利要求1所述的基于韵律特征和随机森林分类器的语音倍速攻击检测方法,其特征在于,所述的倍速对抗音频是通过将正常音频进行倍速操作后得到的,且未添加额外噪声。3.根据权利要求1所述的基于韵律特征和随机森林分类器的语音倍速攻击检测方法,其特征在于,所述的抖动特征包括jitt特征、jitta特征、rap特征、ppq5特征,计算公式为:征在于,所述的抖动特征包括jitt特征、jitta特征、rap特征、ppq5特征,计算公式为:征在于,所述的抖动特征包括jitt特征、jitta特征、rap特征、ppq5特征,计算公式为:征在于,所述的抖动特征包括jitt特征、jitta特征、rap特征、ppq5特征,计算公式为:其中,T
i
表示音频中第i个抖动的持续时间,N表示音频中抖动的总数量,jitta、jitt、jitt
rap
、jitt
ppq5
分别是jitt特征、jitta特征、rap特征、ppq5特征。4.根据权利要求1所述的基于韵律特征和随机森林分类器的语音倍速攻击检测方法,其特征在于...
【专利技术属性】
技术研发人员:徐文渊,冀晓宇,闫琛,何睿文,石卓扬,李超豪,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。