音乐/非音乐的实时检测方法和装置制造方法及图纸

技术编号:3044544 阅读:183 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种音乐/非音乐的实时检测方法和装置,方法包括以下步骤:对信号进行预处理;计算预处理过的信号的短时特征;达到一个分析步长之后,计算累计短时能量均方根,以判定信号是否为静默状态;如果确定为非静默状态,则根据短时分析参数计算长时特征参数;根据计算的长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及对信号进行后处理,以消除突变状态。本发明专利技术实现了音乐/非音乐的稳健而有效的实时检测或分割,与语音活动检测相结合,能够组成完整的声音活动检测方案。

【技术实现步骤摘要】

本专利技术涉及通信领i或,具体而言,涉及一种音乐/非音乐的实时 才企测方法和装置。
技术介绍
在语音通信领域中,常常因为传输带宽的约束需要进行非连续 4专丰lT ( Discontinued Transmission, DTX ),其中最关4建的步骤t尤是i吾 音活动才企观'J ( Voice Activity Detection, VAD )。随着多々某体业务的不 断丰富,通信中除了语音和环境声学噪声之外,常常有彩铃等音乐 信号加入,而在DTX传输条件下, 一般的VAD会把部分音乐信号 当作噪声进行处理,使得音乐信号无法正常传输,并且音乐信号的 编码方式也有别于非音乐(包括噪声、语音、和静音等),因此必须 及时一企测出这些音乐信号,进而采用合适的编码算法进4亍传输。另 外,噪声抑制(Noise Reduction, NR)中,如果音乐信号也采用非 音乐的方式进行处理,会使音乐信号严重失真,因此也有必要做音 乐/非音乐的判断。在音频通信应用中,音乐/非音乐的检测难度在于音乐的多变以 及语音中的噪声的多变。许多研究内容都分析了音乐与语音的差异, 但因为音乐的多变使得这些差异只对部分音本文档来自技高网...

【技术保护点】
一种音乐/非音乐的实时检测方法,其特征在于,包括以下步骤:    对信号进行预处理;    计算预处理过的所述信号的短时特征;    达到一个分析步长之后,计算累计短时能量均方根,以判定所述信号是否为静默状态;    如果确定为非静默状态,则根据短时分析参数计算长时特征参数;    根据计算的所述长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及    对所述信号进行后处理,以消除突变状态。

【技术特征摘要】
1.一种音乐/非音乐的实时检测方法,其特征在于,包括以下步骤对信号进行预处理;计算预处理过的所述信号的短时特征;达到一个分析步长之后,计算累计短时能量均方根,以判定所述信号是否为静默状态;如果确定为非静默状态,则根据短时分析参数计算长时特征参数;根据计算的所述长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及对所述信号进行后处理,以消除突变状态。2. 根据权利要求1所述的实时检测方法,其特征在于,对信号进 行预处理具体包括入口参数控制、才莫型库加载、输入文件或数据格式处理, 以及预加重、分帧力口窗、参凄t和緩冲区初始讦匕。3. 根据权利要求2所述的实时检测方法,其特征在于,入口参数控制包括设置语音信号或噪声信号检测得分的 虐贞夕卜力口分spS和nsS;模型库加载包括加载事先经过大量数据训练过的语音、噪 音、音乐三者的统计模型,静音是以短时能量判断;输入文件或数据格式处理采用8kHz采样16比特量化;预加重系数取系数为-0.80;分帧加窗耳又帧长为32毫秒,256个采样点;参数和緩冲区初始化为帧移10毫秒,80个采样点,窗函 凄t采用256点的海明窗。4. 根据权利要求3所述的实时检测方法,其特征在于,计算预处理过的所述信号的短时特;f正具体包括计算时域短时能量特4正、幅度谱以及频-潜特;f正、实倒i普、谱起伏程度参H Mel域子带能量以及短时调性强度特4正,并 标记当前帧的调性。5. 根据权利要求4所述的实时才佥测方法,其特征在于,设力口窗之 后的各帧信号为data,帧长为N,时域短时特征是指短时能量均方才艮,记为feaRMS,贝'J feaRMS定义加i MS = 麵2 ();幅度i普定义 lF(如)l,其中F ()表示离散付立叶变换;对数功率谱定义/og尸。,=log (|F,a)|2); 实,Ji普定义rc;^m7/(F-'(log(lF(^,a)l)));在对凄丈幅度i普基础上,计算谱重心4立置,记为feaCenSP, i普重心定义为功率i普的某一频率,小于该频率的:^普能量与大于 该频率的镨能量相等;在实倒语基础上,计算镨起伏程度参数,记为RcPr,其 采用实倒i普3 ~ 14个系^数绝对^直之和与1 ~ 2系凄史绝对4直之和 的比值的对凄t;计算Mel域子带能量,采用40个Mel域子带,用三角滤 波器组计算每个子带内功率i普能量并取对数,最后对40个子 带能量进4于归一化和零均4直化,得到的^斤矢量i己为spBP;计算短时调性强度特征加~ = |;|,(|,其中l是求和起始点,该实施例选4奪1= 14;标记当前帧的调性包4舌取xr=max ( rcp ( 1:N )),长口果 xr〉tonThres,则标记为调性;否则标记为非调性,其中tonThres 为调性门限,耳又0.14。6. 才艮据权利要求5所述的实时才企测方法,其特征在于,达到一个 分析步长之后,计算累计短时能量均方4艮,以判定所述信号是 否为静默状态具体包括每个分析步长进行一次类别判定,队列长度取100帧,分 碎斤步长为10帧;到达一个分析步长后,计算累计调性参数trc,该参凄史是 队列内所有帧的feaRcp之和;进行静音判断,静音判断的依据是分析步长内最大的 feaRMS参凄史,^口果if max (log ( feaRMS )) <Thr—sil,贝'J是静 音状态,否则为非静音状态,其中Thr—sil是静音检测门限, 取-3。7. 根据权利要求6所述的实时检测方法,其特征在于,如果确定 为非静默状态,则根据短时分析参数计算长时特征参数包括计算调性帧平均能量与平均能量之比Deng:根据短时分析中得到的调性/非调性标记结果,对于队列内的所有帧4言号, Deng定义为Z)eg = mea(/ea及MS(/))/wra(/efl^MS(力),G)是戶斤有i周<formula>...

【专利技术属性】
技术研发人员:刘开文付中华
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利