基于信号能量尖峰识别的音频分割方法技术

技术编号:23432520 阅读:65 留言:0更新日期:2020-02-25 13:29
本申请涉及一种基于信号能量尖峰识别的音频分割方法,包括:将输入的音频信号进行短时傅里叶变换,转换为功率谱矩阵;提取基于功率谱的中频能量特征;对提取的中频能量特征进行尖峰识别;对进行尖峰识别后的信号进行错分修正;输出音频信号的分割点时间坐标。本申请的音频分割方法无需设置门限阈值,无需提前训练,能够实时、快速、准确地基于音频信号做出分析,可以部署在边缘端,无需接入其他运行参数,基本实现无参数动态分割。

Audio segmentation method based on signal energy spike recognition

【技术实现步骤摘要】
基于信号能量尖峰识别的音频分割方法
本申请涉及一种基于信号能量尖峰识别的音频分割方法,适用于音频信号处理的

技术介绍
对于单纯的音频分割算法主要的实现方案有:1.基于端点检测的分割方法,如申请号为CN200510061358.6的中国专利。利用说话人在讲话间隙出现停顿的特点,检测所有的静音点作为说话人可能发生变化的潜在点。由于在不同的信噪比环境下,静音点很难检测,因而这类方法并不准确。2.基于模型的分割方法,如申请号为CN201710512310.5、CN201811581291.2的中国专利。首先为不同类型音频段建立相应模型,然后在滑动窗内对输入音频流进行模型最大似然选择,音频分割点被认为是音频类别发生转变的位置。为了建立一般化模型,各类基于模型的分割方法先后被提出并加以实现。如UBM用于区分语音段和非语音段,而UGM则用于区分男、女说话人,然而这些“先验知识”一般不可得。因此该方法对于未知的声学特征没有检测能力。3.基于距离的分割方法,计算音频流中每个样本点左右窗数据“差异”,由距离尺度表示。当“差异”达到一定程度,也即距离尺度超过某个给定阈值或者取得局部最大值时,则视其为音频分割点。尽管此类方法决策不需要先验知识并且具有较高的分割准确率,然而阈值选择很大程度上依赖于音频特性,因此该方法缺少稳定性和鲁棒性,并且计算量较大。以风机叶片场景为例,其音频分割的主要实现方案为接入风机叶片的实时转速,运算后得到每支叶片间分割点的大致位置。这种方案简单高效,但是突出问题为:1.对分割点的定位并不准确,实际的转动过程中是持续变速的,如果按照某一分辨率的时间范围内的平均转速对每支叶片的转动时间进行计算划分,只能大致得到均匀的长度,而实际的转动过程每支叶片所用时间并不一定是等长的。因此这一方法只适用于参考,不适用于作为其他分析算法的准确输入;2.接入风机叶片实时转速对传感器安装要求较高,高精度转速的获取需要采集设备额外增加传感器硬件,工程实施难度大,成本高,不利于维护,且由于主轴转速采集是在风机的机舱部位,而采集器又布置在塔基,过长的信号传输线路将导致采集信号存在干扰,数据质量差,严重影响分割判读。
技术实现思路
本申请提供一种基于信号能量尖峰识别的音频分割方法,可以无需设置门限阈值,无需提前训练,能够实时、快速、准确地基于音频信号做出分析,可以部署在边缘端,无需接入其他运行参数,基本实现无参数动态分割。根据本申请的基于信号能量尖峰识别的音频分割方法,包括以下步骤:(1)将输入的音频信号进行短时傅里叶变换,转换为功率谱矩阵;(2)提取基于功率谱的中频能量特征;(3)对提取的中频能量特征进行尖峰识别;(4)对进行尖峰识别后的信号进行错分修正;(5)输出音频信号的分割点时间坐标。其中,提取能量特征的方法包括以下步骤:(1)将原始音频信号进行短时傅里叶变换,转换为时频域矩阵M0;(2)将时频域矩阵M0转为以分贝表示的谱图矩阵M1;(3)确定音频信号为主元的频率范围,对谱图矩阵M1做带通滤波,过滤掉低频的环境杂声和高频的异常声音;(4)对谱图矩阵M1按照频率轴进行切割,保留以音频信号为主的子功率谱矩阵M2;(5)将M2的列向求和,得到每个时域功率谱向量之和。其中,对提取的中频能量特征进行尖峰识别的方法包括以下步骤:(1)明确风机叶片转动的额定转速rs和输入音频的时长t;(2)通过时长t和能量特征Energy的长度k,计算得到特征索引和时间索引的转换关系prop;(3)根据额定转速rs和prop得到特征索引的额定分割步长distance;(4)使用二分搜索的方法对特征向量进行搜索,直至搜寻不到尖峰为止。其中,对进行尖峰识别后的信号进行错分修正的方法包括以下步骤:(1)设置错分判定阈值;(2)将取值大于错分判定阈值的分割点去掉,得到最终的分割点坐标m′;(3)根据转换关系prop将坐标m′转换回时间索引。其中带通滤波的方法为选定截至频率上限在矩阵M1纵轴的坐标索引和选定截止频率下限在矩阵M1纵轴的纵轴索引,由以下公式确定:其中,UpperBound代表着选定截至频率上限在矩阵M1纵轴的坐标索引,LowerBound代表选定截止频率下限在矩阵M1纵轴的纵轴索引,sr为音频的采样频率,Freqlow,Frequp为音频信号为主元的频率范围。本方法针对例如风机叶片扫风声音分割的特定场景,结合了语音分析的算法成果,提出了对风机叶片扫风声音特定的,泛化性、鲁棒性强的能量特征提取方法;基于能量特征的无参数、低运算量、准确实现变速切割的音频分割方法,并加入了错分后处理机制,进一步提升分割的准确性。本方法同时提出了一种部分基于先验知识,针对例如风电机组叶片扫风声音的能量特征提取方式,作为分割的预处理和输入,具有较强的鲁棒性。具体地,本申请的基于信号能量尖峰识别的音频分割方法具有以下技术优势:(1)对风电机组叶片扫风声音能量特征的提取方式,对功率谱矩阵做带通滤波,取特定频率段的能量矩阵过滤掉低频和高频环境杂声,并以每个时域片段的频域能量加和作为叶片扫风声音的中频能量特征。这一特征能够有效过滤因采样点过多、环境声音带来的噪声点干扰,能够从杂乱的原始音频信号中提取能够稳健表示风机叶片扫风规律性特征的信息;(2)对提取特征利用尖峰识别的方法寻找能量波谷,提出了一种无参数方法,不需要接入风机的实时转速,分割时无需设置阈值,对音频的先验知识没有要求,同时可以进行实时分割无需提前训练。在分割后加入了修正机制,进一步调整分割的准确度;这一方法迅速、稳定、准确;(3)对部署条件的要求较低,无需在风机搭建时加装传感器,仅需在设备外围安装音频采集设备即可,不仅节省了工程部署成本,也避免了因信号干扰造成的误差;在运行时由于无需实时转速信息,可以做到在空转/未发电/停机时的运行不受影响。附图说明图1显示了实施算例中音频A的原始音频信号图。图2显示了纵向求和后得到音频A的中频能量特征图。图3显示了使用尖峰识别算法寻找图2中所有波谷位置的示意图。图4显示了将音频A的分割点展示在原始波形图中的效果图。图5显示了将音频A的分割点展示在功率谱图中的效果图。图6显示了实施算例中音频B的原始音频信号图。图7显示了纵向求和后得到音频B的中频能量特征图。图8显示了使用尖峰识别算法寻找图7中所有波谷位置的示意图。图9显示了将音频B的分割点展示在原始波形图中的效果图。图10显示了将音频B的分割点展示在功率谱图中的效果图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。...

【技术保护点】
1.一种基于信号能量尖峰识别的音频分割方法,其特征在于,包括以下步骤:/n(1)将输入的音频信号进行短时傅里叶变换,转换为功率谱矩阵;/n(2)提取基于功率谱的中频能量特征;/n(3)对提取的中频能量特征进行尖峰识别;/n(4)对进行尖峰识别后的信号进行错分修正;/n(5)输出音频信号的分割点时间坐标。/n

【技术特征摘要】
1.一种基于信号能量尖峰识别的音频分割方法,其特征在于,包括以下步骤:
(1)将输入的音频信号进行短时傅里叶变换,转换为功率谱矩阵;
(2)提取基于功率谱的中频能量特征;
(3)对提取的中频能量特征进行尖峰识别;
(4)对进行尖峰识别后的信号进行错分修正;
(5)输出音频信号的分割点时间坐标。


2.根据权利要求1所述的音频分割方法,其特征在于,提取能量特征的方法包括以下步骤:
(1)将原始音频信号进行短时傅里叶变换,转换为时频域矩阵M0;
(2)将时频域矩阵M0转为以分贝表示的谱图矩阵M1;
(3)确定音频信号为主元的频率范围,对谱图矩阵M1做带通滤波,过滤掉低频的环境杂声和高频的异常声音;
(4)对谱图矩阵M1按照频率轴进行切割,保留以音频信号为主的子功率谱矩阵M2;
(5)将M2的列向求和,得到每个时域功率谱向量之和。


3.根据权利要求1或2所述的音频分割方法,其特征在于,对提取的中频能量特征进行尖峰识别的方法包括以下步骤:
(1)明确风机叶片转动的额定转速rs和输入音频的时长t;
(2)通过时...

【专利技术属性】
技术研发人员:王旻轩鲍亭文金超
申请(专利权)人:北京天泽智云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1