一种音频特征提取方法、系统、设备及介质技术方案

技术编号:28747420 阅读:19 留言:0更新日期:2021-06-06 19:06
本发明专利技术提供一种音频特征提取方法、系统、设备及介质,根据音频数据来源执行对应的读取命令,获取音频内容;对音频内容进行一次或多次特征提取,并按照预设框架将每次提取的音频特征保存至预设文件中。本发明专利技术针对目前存在的问题,设计了一套多功能音频特征提取方式,包括音频数据解析、音频特征提取和特征结果保存三项基本功能,而且可以提供多种结果格式的支持,优化了处理效率。本发明专利技术实现了对音频数据集的一键式处理;提取的特征内容支持多种语音算法框架,解决了不同平台因各自的特征提取算法不同而难以对比实验的问题。本发明专利技术提取效率高,资源占用小,降低了海量音频数据处理所需的成本。的成本。的成本。

【技术实现步骤摘要】
一种音频特征提取方法、系统、设备及介质


[0001]本专利技术涉及音频提取
,特别是涉及一种音频特征提取方法、系统、设备及介质。

技术介绍

[0002]在语音识别和其他语音相关场景中,音频特征提取都是其中关键的步骤。特征提取会将时域上的音频信号转换为各式频域上的特征,例如FFT(Fast Fourier Transform),Fbank,MFCC(Mel Frequency Cepstral Coefficents)等。许多语音算法的工具和科学计算的库中都会包含特征提取的功能。然而,目前已有的音频特征提取工具往往存在以下几个问题:(1)由于不同的语音算法工具往往使用不同的数据格式,不同格式的音频特征提取结果难以复用,而一种特征提取工具也难以在另一套算法框架下使用;(2)开源的语音算法框架(如kaldi)自带的特征提取工具在性能和资源占用上难以令人满意;(3)虽然c++,python等语言都有音频特征提取的开源工具,但这些工具只提供了基本功能的接口,很难满足丰富多变的数据需求。

技术实现思路

[0003]鉴于以上所述现有技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频特征提取方法,其特征在于,包括以下步骤:根据音频数据来源执行对应的读取命令,获取音频内容;对所述音频内容进行一次或多次特征提取,并按照预设框架将每次提取的音频特征保存至预设文件中。2.根据权利要求1所述的音频特征提取方法,其特征在于,提取的音频特征包括以下至少之一:快速傅里叶变换特征、梅尔滤波器系数特征、梅尔倒谱系数特征、音调特征、身份向量特征。3.根据权利要求1或2所述的音频特征提取方法,其特征在于,对所述音频内容进行一次或多次特征提取,包括:对所述音频内容进行离散傅里叶变换,提取快速傅里叶变换特征;对所述快速傅里叶变换特征应用梅尔倒谱,提取梅尔滤波器系数特征;对所述梅尔滤波器系数特征进行离散余弦变换,提取梅尔倒谱系数特征。4.根据权利要求1所述的音频特征提取方法,其特征在于,按照预设框架将每次提取的音频特征保存至预设文件中,包括:将每次提取的音频特征保存至csv文件、numpy的npy文件和/或kaldi的二进制ark文件中。5.根据权利要求1所述的音频特征提取方法,其特征在于,根据音频数据来源执行对应的读取命令,获取音频内容,包括:若所述音频数据来源是wav文件,则直接读取wav文件,获取对应的音频内容;若所述音频数据来源是shell命令,则在管道中执行所述shell命令,获取对应的音频内容。6.根据权利要求1或5所述的音频特征提取方法,其特征在于,还包括:根据语音数据集构建语音数据信息表,并根据所述语音数据信息表确定音频数据来源;其中,所述语音数据集中的内容包括以下至少之一:音频编号、音频文件的存储...

【专利技术属性】
技术研发人员:邱实
申请(专利权)人:云从科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1