【技术实现步骤摘要】
一种音频特征提取方法、系统、设备及介质
[0001]本专利技术涉及音频提取
,特别是涉及一种音频特征提取方法、系统、设备及介质。
技术介绍
[0002]在语音识别和其他语音相关场景中,音频特征提取都是其中关键的步骤。特征提取会将时域上的音频信号转换为各式频域上的特征,例如FFT(Fast Fourier Transform),Fbank,MFCC(Mel Frequency Cepstral Coefficents)等。许多语音算法的工具和科学计算的库中都会包含特征提取的功能。然而,目前已有的音频特征提取工具往往存在以下几个问题:(1)由于不同的语音算法工具往往使用不同的数据格式,不同格式的音频特征提取结果难以复用,而一种特征提取工具也难以在另一套算法框架下使用;(2)开源的语音算法框架(如kaldi)自带的特征提取工具在性能和资源占用上难以令人满意;(3)虽然c++,python等语言都有音频特征提取的开源工具,但这些工具只提供了基本功能的接口,很难满足丰富多变的数据需求。
技术实现思路
[0003] ...
【技术保护点】
【技术特征摘要】
1.一种音频特征提取方法,其特征在于,包括以下步骤:根据音频数据来源执行对应的读取命令,获取音频内容;对所述音频内容进行一次或多次特征提取,并按照预设框架将每次提取的音频特征保存至预设文件中。2.根据权利要求1所述的音频特征提取方法,其特征在于,提取的音频特征包括以下至少之一:快速傅里叶变换特征、梅尔滤波器系数特征、梅尔倒谱系数特征、音调特征、身份向量特征。3.根据权利要求1或2所述的音频特征提取方法,其特征在于,对所述音频内容进行一次或多次特征提取,包括:对所述音频内容进行离散傅里叶变换,提取快速傅里叶变换特征;对所述快速傅里叶变换特征应用梅尔倒谱,提取梅尔滤波器系数特征;对所述梅尔滤波器系数特征进行离散余弦变换,提取梅尔倒谱系数特征。4.根据权利要求1所述的音频特征提取方法,其特征在于,按照预设框架将每次提取的音频特征保存至预设文件中,包括:将每次提取的音频特征保存至csv文件、numpy的npy文件和/或kaldi的二进制ark文件中。5.根据权利要求1所述的音频特征提取方法,其特征在于,根据音频数据来源执行对应的读取命令,获取音频内容,包括:若所述音频数据来源是wav文件,则直接读取wav文件,获取对应的音频内容;若所述音频数据来源是shell命令,则在管道中执行所述shell命令,获取对应的音频内容。6.根据权利要求1或5所述的音频特征提取方法,其特征在于,还包括:根据语音数据集构建语音数据信息表,并根据所述语音数据信息表确定音频数据来源;其中,所述语音数据集中的内容包括以下至少之一:音频编号、音频文件的存储...
【专利技术属性】
技术研发人员:邱实,
申请(专利权)人:云从科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。