一种音频数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24942005 阅读：31 留言：0更新日期：2020-07-17 21:50

本公开实施例公开了一种音频数据处理方法、装置、电子设备及存储介质，能够提高重音和敲击音的识别精度。该方法包括：对待处理音频数据进行频域处理，得到待处理音频数据的频谱图；按预设像素间隔对频谱图进行切片，得到音频切片集合；使用预设重音识别模型与预设敲击音识别模型分别对音频切片集合中的每个音频切片进行音效识别，得到音频切片集合的音效识别结果；预设重音识别模型为根据每个音频切片的频谱特征预测重音的模型；预设敲击音识别模型为根据每个音频切片的频谱特征预测敲击音的模型；基于音效识别结果，对音频切片集合中对应的每个音频切片进行时域转换和合并，得到带有音效标记的最终音频数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频数据处理方法、装置、电子设备及存储介质
本公开涉及软件工程领域，尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。
技术介绍
目前，在对音频信号进行重音和敲击音识别时，现有技术在识别重音时不可避免的会将一些敲击音误识别为重音，并且无法明确的从音频信号中同时识别并区分出音频信号中的全部重音和敲击音，导致对音频信号中的重音和敲击音的识别精度较低。
技术实现思路
本公开实施例提供一种音频数据处理方法、装置、电子设备及存储介质，能够提高重音和敲击音的识别精度，本公开的技术方案是这样实现的：第一方面，本公开实施例提供了一种音频数据处理方法，包括：对待处理音频数据进行频域处理，得到所述待处理音频数据的频谱图；按预设像素间隔对所述频谱图进行切片，得到音频切片集合；使用预设重音识别模型与预设敲击音识别模型分别对音频切片集合中的每个音频切片进行音效识别，得到所述音频切片集合的音效识别结果；所述预设重音识别模型为根据所述每个音频切片的频谱特征预测重音的模型；所述预设敲击音识别模型...

【技术保护点】
1.一种音频数据处理方法，其特征在于，包括：/n对待处理音频数据进行频域处理，得到所述待处理音频数据的频谱图；/n按预设像素间隔对所述频谱图进行切片，得到音频切片集合；/n使用预设重音识别模型与预设敲击音识别模型分别对音频切片集合中的每个音频切片进行音效识别，得到所述音频切片集合的音效识别结果；所述预设重音识别模型为根据所述每个音频切片的频谱特征预测重音的模型；所述预设敲击音识别模型为根据所述每个音频切片的频谱特征预测敲击音的模型；/n基于所述音效识别结果，对所述音频切片集合中对应的每个音频切片进行时域转换和合并，得到带有音效标记的最终音频数据。/n

【技术特征摘要】
1.一种音频数据处理方法，其特征在于，包括：
对待处理音频数据进行频域处理，得到所述待处理音频数据的频谱图；
按预设像素间隔对所述频谱图进行切片，得到音频切片集合；
使用预设重音识别模型与预设敲击音识别模型分别对音频切片集合中的每个音频切片进行音效识别，得到所述音频切片集合的音效识别结果；所述预设重音识别模型为根据所述每个音频切片的频谱特征预测重音的模型；所述预设敲击音识别模型为根据所述每个音频切片的频谱特征预测敲击音的模型；
基于所述音效识别结果，对所述音频切片集合中对应的每个音频切片进行时域转换和合并，得到带有音效标记的最终音频数据。

2.根据权利要求1所述的方法，其特征在于，所述使用预设重音识别模型与预设敲击音识别模型分别对音频切片集合中的每个音频切片进行音效识别，得到所述音频切片集合的音效识别结果，包括：
使用所述预设重音识别模型对所述每个音频切片的声音特征进行分析，预测所述每个音频切片的重音置信度；所述重音置信度为所述每个音频切片包含重音的概率；
使用所述预设敲击音识别模型对所述每个音频切片的声音特征进行分析，预测所述每个音频切片的敲击音置信度；所述敲击音置信度为所述每个音频切片包含敲击音的概率；
将所述每个音频切片对应的重音置信度与敲击音置信度作为所述音频切片集合的音效识别结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述音效识别结果，对所述音频切片集合中对应的每个音频切片进行时域转换和合并，得到带有音效标记的最终音频数据，包括：
将所述音频切片集合进行时域转换，得到所述音频切片集合对应的待合并音频数据；所述每个音频切片为时间片段对应的一段音频数据；
根据所述音效识别结果，在所述待合并音频数据中，确定出重音音频切片和敲击音音频切片；所述重音音频切片为所述音效识别结果中重音置信度高于预设重音阈值的音频切片；所述敲击音音频切片为所述音效识别结果中敲击音置信度高于预设敲击音阈值的音频切片；
对所述重音音频切片对应的时间片段标记重音时间戳；所述重音时间戳为所述重音音频切片对应的时间片段的中心时间点；
对所述敲击音音频切片对应的时间片段标记敲击音时间戳；所述敲击音时间戳为所述敲击音音频切片对应的时间片段的中心时间点；
对所述待合并音频数据中的重音时间戳和敲击音时间戳进行合并，得到所述带有音效标记的最终音频数据，所述音效标记为合并后的时间戳。

4.根据权利要求3所述的方法，其特征在于，所述对所述待合并音频数据中的重音时间戳和敲击音时间戳进行合并，得到所述带有音效标记的最终音频数据，包括：
对所述待合并音频数据中的重音时间戳之间进行合并，以及敲击音时间戳之间进行合并，从而得到中间音频数据；
对所述中间音频数据中所包含的重音时间戳与敲击音时间戳之间进行再次合并，得到所述带有音效标记的最终音频数据，所述音效标记为合并后的时间戳。

5.根据权利要求4所述的方法，其特征在于，所述对所述待合并音频数据中的重音时间戳之间进行合并，以及敲击音时间戳之间进行合并，从而得到中间音频数据，包括：
当在预设时间间隔内，所述待合并音频数据中存在至少两个重音时间戳时，对所述至少两个重音时间戳进行合并，保留置信度最高的音频切片对应的重音时间戳；
当在所述预设时间间隔内，所述待合并音频数据中存在至少两个敲击音时间戳时，对所述至少两个敲击音时间戳进行合并，保留置信度最高的音频切片对应的敲击音时间戳；
持续对所述待合并音频数据进行间隔预设时间的检测和合并，直至所述预设时间间隔内不存在至少两个重音时间戳，且所述预设时间间隔内也不存在至少两个敲击音时间戳时为止，从而得到所述中间音频数据。

6.根据权利要求4所述的方法，其特征在于，所述对所述中间音频数据中所包含的重音时间戳与敲击音时间戳之间进行再次合并，得到所述带有音效标记的最终音频数据，包括：
在所述中间音频数据中，当所述重音时间戳与所述敲击音时间戳之间的时间间隔小于所述预设时间间隔时，对对应的重音时间戳与敲击音时间戳进行合并，保留置信度最高的音频切片对应的重音时间戳或敲击音时间戳；
持续对所述中间音频数据进行预设时间间隔的检测和合并，直至所述重音时间戳与所述敲击音时间戳之间的时间间隔大于所述预设时间间隔为止，从而得到所述带有音效标记的最终音频数据。

7.根据权利要求1至6任一项所述的方法，其特...

【专利技术属性】
技术研发人员：范旭，祝豪，王妍，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人