一种音频特征提取方法、系统、设备及介质技术方案

技术编号：28747420 阅读：19 留言：0更新日期：2021-06-06 19:06

本发明专利技术提供一种音频特征提取方法、系统、设备及介质，根据音频数据来源执行对应的读取命令，获取音频内容；对音频内容进行一次或多次特征提取，并按照预设框架将每次提取的音频特征保存至预设文件中。本发明专利技术针对目前存在的问题，设计了一套多功能音频特征提取方式，包括音频数据解析、音频特征提取和特征结果保存三项基本功能，而且可以提供多种结果格式的支持，优化了处理效率。本发明专利技术实现了对音频数据集的一键式处理；提取的特征内容支持多种语音算法框架，解决了不同平台因各自的特征提取算法不同而难以对比实验的问题。本发明专利技术提取效率高，资源占用小，降低了海量音频数据处理所需的成本。的成本。的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频特征提取方法、系统、设备及介质

[0001]本专利技术涉及音频提取
，特别是涉及一种音频特征提取方法、系统、设备及介质。

技术介绍

[0002]在语音识别和其他语音相关场景中，音频特征提取都是其中关键的步骤。特征提取会将时域上的音频信号转换为各式频域上的特征，例如FFT(Fast Fourier Transform)，Fbank，MFCC(Mel Frequency Cepstral Coefficents)等。许多语音算法的工具和科学计算的库中都会包含特征提取的功能。然而，目前已有的音频特征提取工具往往存在以下几个问题：(1)由于不同的语音算法工具往往使用不同的数据格式，不同格式的音频特征提取结果难以复用，而一种特征提取工具也难以在另一套算法框架下使用；(2)开源的语音算法框架(如kaldi)自带的特征提取工具在性能和资源占用上难以令人满意；(3)虽然c++，python等语言都有音频特征提取的开源工具，但这些工具只提供了基本功能的接口，很难满足丰富多变的数据需求。

技术实现思路

[0003]...

【技术保护点】

【技术特征摘要】
1.一种音频特征提取方法，其特征在于，包括以下步骤：根据音频数据来源执行对应的读取命令，获取音频内容；对所述音频内容进行一次或多次特征提取，并按照预设框架将每次提取的音频特征保存至预设文件中。2.根据权利要求1所述的音频特征提取方法，其特征在于，提取的音频特征包括以下至少之一：快速傅里叶变换特征、梅尔滤波器系数特征、梅尔倒谱系数特征、音调特征、身份向量特征。3.根据权利要求1或2所述的音频特征提取方法，其特征在于，对所述音频内容进行一次或多次特征提取，包括：对所述音频内容进行离散傅里叶变换，提取快速傅里叶变换特征；对所述快速傅里叶变换特征应用梅尔倒谱，提取梅尔滤波器系数特征；对所述梅尔滤波器系数特征进行离散余弦变换，提取梅尔倒谱系数特征。4.根据权利要求1所述的音频特征提取方法，其特征在于，按照预设框架将每次提取的音频特征保存至预设文件中，包括：将每次提取的音频特征保存至csv文件、numpy的npy文件和/或kaldi的二进制ark文件中。5.根据权利要求1所述的音频特征提取方法，其特征在于，根据音频数据来源执行对应的读取命令，获取音频内容，包括：若所述音频数据来源是wav文件，则直接读取wav文件，获取对应的音频内容；若所述音频数据来源是shell命令，则在管道中执行所述shell命令，获取对应的音频内容。6.根据权利要求1或5所述的音频特征提取方法，其特征在于，还包括：根据语音数据集构建语音数据信息表，并根据所述语音数据信息表确定音频数据来源；其中，所述语音数据集中的内容包括以下至少之一：音频编号、音频文件的存储...

【专利技术属性】
技术研发人员：邱实，
申请(专利权)人：云从科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人