音频特征提取方法、装置、设备及存储介质制造方法及图纸

技术编号:42880617 阅读:23 留言:0更新日期:2024-09-30 15:04
本公开涉及一种音频特征提取方法、装置、设备及存储介质。调用音频处理工具对第一音频数据进行特征提取,得到第一特征提取结果;根据音频处理工具的计算逻辑,确定第一音频数据中需要保存的第一数据部分以及第一特征提取结果中需要保存的第一特征部分;保存第一数据部分和第一特征部分。由此,可以为调用音频处理工具实现流式特征提取提供支持。

【技术实现步骤摘要】

本公开涉及计算机,特别是涉及一种音频特征提取方法、装置、设备及存储介质


技术介绍

1、在语音分类和语音识别领域,目前主流的方案皆采用深度神经网络模型,但是在将数据送入模型之前,往往要做一个数据预处理过程,即对原始的音频信号提取梅尔频谱(melspectrogram)特征或者梅尔倒谱(mfcc)特征。

2、以梅尔频谱特征为例,常用的工具一般有librosa、kaldi和torchaudio库,torchaudio库中的melspectrogram不仅支持批量执行数据,还可以在gpu上运行提升效率,因此torchaudio是较优的选择。

3、但无论采取哪种工具,都不支持流式特征提取。

4、以torchaudio库为例,阐述当前方案在流式特征提取过程中的缺陷。当有一段5秒长的音频,通过torchaudio.transforms.melspectrogram函数调用,可以得到对应的特征f1;但是如果将这5秒音频拆成5段1秒钟的音频,依次通过相同的函数调用,分别得到5个特征,然后拼接成一个总特征f2;可以发现,特征f1和f2是不本文档来自技高网...

【技术保护点】

1.一种音频特征提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,还包括:

7.根据权利要求6所述的方法,其特征在于,还包括:

8.一种音频特征提取装置,其特征在于,包括:

9.一种计算设备,包括:

10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代...

【技术特征摘要】

1.一种音频特征提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:张奕豪王靖淞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1