音频数据的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23513895 阅读:15 留言:0更新日期:2020-03-18 00:47
本公开关于一种音频数据的处理方法、装置、电子设备及存储介质,其中,所述方法包括:计算每一帧音频信号的能量值和短时平均能量值;根据当前帧音频信号的能量值、短时平均能量值和门限值检测得到多个第一节拍点;根据节拍点提取函数在多个第一节拍点中搜索出多个第二节拍点,第二节拍点表示音频数据的强弱规律的程度大于或等于第一节拍点表示音频数据的强弱规律的程度。本公开通过音频信号的能量值和短时平均能量值初步检测得到多个第一节拍点,再利用节拍点提取函数从多个第一节拍点中搜索出多个第二节拍点,相比于直接将重音信号作为节拍点而言,第二节拍点更加能够表示音频数据的强弱规律的程度,本公开检测节拍点的准确度更高。

Audio data processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
音频数据的处理方法、装置、电子设备及存储介质
本公开涉及音频数据处理
,尤其涉及一种音频数据的处理方法、装置、电子设备及存储介质。
技术介绍
节拍是衡量节奏的单位,比喻有规律的进程。在音乐中,节拍指有一定强弱区别的一系列拍子在每隔一定时间重复出现。音乐的节拍点检测除了用于对音乐进行类型分析之外,越来越多地应用于服务或者内容生产方面。例如,利用对视频数据中的音乐检测到的节拍点控制魔法表情,或者控制视频、图片的转场,以提升视频数据的律动性。相关技术中,在检测音乐的节拍点时,过滤出音乐的低频部分,将低频部分能量较大的信号认为是重音信号,将重音信号标记为节拍点。但是,重音信号表示音乐中强度较大的信号,无法表示强度本身。重音信号是构成节奏的主要因素,无法替代节拍点。因此,通过目前的节拍点检测方案检测到的节拍点不准确。
技术实现思路
本公开提供了一种音频数据的处理方法、装置、电子设备及存储介质,以至少解决相关技术中节拍点检测不准确的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供了一种音频数据的处理方法,包括:获取待处理的音频数据;计算所述音频数据的每一帧音频信号的能量值和短时平均能量值,所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值;针对每一帧音频信号,根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点;根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点,所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。可选地,所述针对每一帧音频信号,根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点的步骤,包括:针对每一帧音频信号,将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较;若所述比值大于所述门限值,则将所述当前帧音频信号作为所述第一节拍点。可选地,所述根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点的步骤,包括:计算所述节拍点提取函数的最大值;所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p),其中,所述M_PI表示圆周率,所述t表示所述第一节拍点在所述音频数据中的帧序号,所述t0表示偏移值,所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号,所述p表示所述第一节拍点的数量,所述t0∈[1,p];将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点;根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔;从第一个所述第二节拍点开始,按照所述时间间隔依次确定多个所述第二节拍点。可选地,所述计算所述音频数据的每一帧音频信号的能量值的步骤,包括:根据如下公式计算所述能量值:POW_Y2(n)=sum(Y2(n)[k]);其中,所述n表示音频信号的帧序号,所述n大于或等于1,所述POW_Y2(n)表示第n帧的音频信号的所述能量值,所述k表示音频信号的各个频率的编号,所述Y2(n)[k]表示第n帧音频信号的第k个频率的能量值,所述Y2(n)表示第n帧音频信号的各个频率的能量值之和。可选地,所述计算所述音频数据的每一帧音频信号的短时平均能量值的步骤,包括:根据如下公式计算所述短时平均能量值:POW_Y2_Average(n+1)=POW_Y2_Average(n)*a+POW_Y2(n)*(1-a);其中,所述n表示音频信号的帧序号,所述n大于或等于1,所述POW_Y2_Average(n+1)表示第n+1帧的音频信号的所述短时平均能量值,所述POW_Y2_Average(n)表示第n帧的音频信号的所述短时平均能量值,当n=1时,所述POW_Y2_Average(1)初始化为0,所述a表示滑动系数,所述a大于或等于0且小于1,所述POW_Y2(n)表示第n帧的音频信号的所述能量值。可选地,在所述计算所述音频数据的每一帧音频信号的能量值和短时平均能量值的步骤之前,所述方法还包括:对所述音频数据进行降采样处理和/或频率加重处理。可选地,所述对所述音频数据进行频率加重处理的步骤,包括:将所述音频数据由时域信号转换为频域信号;获取与所述音频数据对应的频率响应曲线;根据所述频率响应曲线对所述频域信号进行频率加重处理。根据本公开实施例的第二方面,提供了一种音频数据的处理装置,包括:获取模块,被配置为获取待处理的音频数据;计算模块,被配置为计算所述音频数据的每一帧音频信号的能量值和短时平均能量值,所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值;检测模块,被配置为针对每一帧音频信号,根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点;搜索模块,被配置为根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点,所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。可选地,所述检测模块,被配置为针对每一帧音频信号,将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较;若所述比值大于所述门限值,则将所述当前帧音频信号作为所述第一节拍点。可选地,所述搜索模块,包括:函数计算模块,被配置为计算所述节拍点提取函数的最大值;所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p),其中,所述M_PI表示圆周率,所述t表示所述第一节拍点在所述音频数据中的帧序号,所述t0表示偏移值,所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号,所述p表示所述第一节拍点的数量,所述t0∈[1,p];节拍点确定模块,被配置为将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点;根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔;从第一个所述第二节拍点开始,按照所述时间间隔依次确定多个所述第二节拍点。可选地,所述计算模块,被配置为根据如下公式计算所述能量值:POW_Y2(n)=sum(Y2(n)[k]);其中,所述n表示音频信号的帧序号,所述n大于或等于1,所述POW_Y2(n)表示第n帧的音频信号的所述能量值,所述k表示音频信号的各个频率的编号,所述Y2(n)[k]表示第n帧音频信号的第k个频率的能量值,所述Y2(n)表示第n帧音频信号的各个频率的能量值之和。可选地,所述计算模块,被配置为根据如下公式计算所述短时平均能量值:POW_Y2_Average(n+1)=POW_Y2_Average(n)*a+POW_Y2(n)*(1-a);其中,所述n表示音频信号的帧序号,所述n大于或等于1,所述POW_Y2_Average(n+1)表示第n+1帧的音频信号的所述短时平均能量值,所述POW_Y2_Average(n)表示第n帧本文档来自技高网...

【技术保护点】
1.一种音频数据的处理方法,其特征在于,包括:/n获取待处理的音频数据;/n计算所述音频数据的每一帧音频信号的能量值和短时平均能量值,所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值;/n针对每一帧音频信号,根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点;/n根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点,所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。/n

【技术特征摘要】
1.一种音频数据的处理方法,其特征在于,包括:
获取待处理的音频数据;
计算所述音频数据的每一帧音频信号的能量值和短时平均能量值,所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值;
针对每一帧音频信号,根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点;
根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点,所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。


2.根据权利要求1所述的音频数据的处理方法,其特征在于,所述针对每一帧音频信号,根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点的步骤,包括:
针对每一帧音频信号,将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较;
若所述比值大于所述门限值,则将所述当前帧音频信号作为所述第一节拍点。


3.根据权利要求1所述的音频数据的处理方法,其特征在于,所述根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点的步骤,包括:
计算所述节拍点提取函数的最大值;所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p),其中,所述M_PI表示圆周率,所述t表示所述第一节拍点在所述音频数据中的帧序号,所述t0表示偏移值,所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号,所述p表示所述第一节拍点的数量,所述t0∈[1,p];
将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点;
根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔;
从第一个所述第二节拍点开始,按照所述时间间隔依次确定多个所述第二节拍点。


4.根据权利要求1所述的音频数据的处理方法,其特征在于,所述计算所述音频数据的每一帧音频信号的能量值的步骤,包括:
根据如下公式计算所述能量值:
POW_Y2(n)=sum(Y2(n)[k]);
其中,所述n表示音频信号的帧序号,所述n大于或等于1,所述POW_Y2(n)表示第n帧的音频信号的所述能量值,所述k表示音频信号的各个频率的编号,所述Y2(n)[k]表示第n帧音频信号的第k个频率的能量值,所述Y2(n)表示第n帧音频信号的各个频率的能量值之和。


...

【专利技术属性】
技术研发人员:张晨董培
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1