声音信号的时延估计方法和装置制造方法及图纸

技术编号:11590208 阅读:101 留言:0更新日期:2015-06-10 22:58
本发明专利技术公开了一种声音信号的时延估计方法和装置,属于音频处理技术领域。所述方法包括:获取两路声音信号;根据两路声音信号的短时傅里叶变换对两路声音信号进行相干性匹配得到第一匹配结果,第一匹配结果包括两路声音信号的第一匹配位置和第一匹配度;根据两路声音信号的功率谱的谱间相关性对两路声音信号进行相干性匹配得到第二匹配结果,第二匹配结果包括两路声音信号的第二匹配位置和第二匹配度;根据第一匹配结果和第二匹配结果计算两路声音信号间的时延。解决了相关时延估计方法存在的准确度低的问题;从频域分布和功率谱的谱间相关性两个角度对声音信号进行匹配,综合两个匹配结果确定最终匹配结果,提高了匹配精度和时延估计准确度。

【技术实现步骤摘要】

本专利技术涉及音频处理
,特别涉及一种声音信号的时延估计方法和装置
技术介绍
声音信号的时延估计算法在声音匹配、编解码对齐、声音测距等诸多领域都得到了广泛应用。现有技术也提供了多种不同的时延估计方法,其中一种应用较为广泛的时延估计算法为基于相关分析的时延估计方法。该方法的基本思想为:利用两个声音信号在频域上的相似程度估算出这两个声音信号间的时延。在实现本专利技术的过程中,专利技术人发现上述技术至少存在以下问题:上述基于相关分析的时延估计方法仅考虑了两个声音信号在频域上的相似程度,使得两个声音信号的匹配精度较低,导致最终计算得到的时延准确度较低。
技术实现思路
为了解决上述技术涉及的时延估计方法存在的准确度低的问题,本专利技术实施例提供了一种声音信号的时延估计方法和装置。所述技术方案如下:第一方面,提供了一种声音信号的时延估计方法,所述方法包括:获取两路声音信号;根据所述两路声音信号的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配结果,所述第一匹配结果包括所述两路声音信号的第一匹配位置和第一匹配度;根据所述两路声音信号的功率谱的谱间相关性对所述两路声音信号进行相干性匹配得到第二匹配结果,所述第二匹配结果包括所述两路声音信号的第二匹配位置和第二匹配度;根据所述第一匹配结果和所述第二匹配结果计算所述两路声音信号间的时 延。可选的,所述根据所述第一匹配结果和所述第二匹配结果计算所述两路声音信号间的时延,包括:对于每一路声音信号,对所述第一匹配位置和所述第二匹配位置采用加权平均算法计算最终匹配位置,所述加权平均算法的权重是根据所述第一匹配度和所述第二匹配度确定的;根据所述两路声音信号的所述最终匹配位置计算所述两路声音信号间的时延。可选的,所述根据所述两路声音信号的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配结果,包括:对于每一路声音信号,按照下述公式对所述声音信号中的每一帧声音信号进行噪声跟踪,获取每一帧声音信号的噪声谱N(w,n):N(w,n)=(1-αu)|X(w,n)|+αuN(w,n-1),|X(w,n)|≥N(w,n-1)(1-αd)|X(w,n)|+αdN(w,n-1),|X(w,n)|N(w,n-1);]]>其中,X(w,n)表示所述声音信号的短时傅里叶变换;αu、αd为预设系数且0<αd<αu<1;w表示频域上的频点序号;n表示时域上的帧序号;按照下述公式对每一帧声音信号的短时傅里叶变换进行二值化处理得到二值谱Xb(w,n):Xb(w,n)=1,|X(w,n)|-N(w,n)>Tb0,|X(w,n)|-N(w,n)≤Tb,]]>Tb为预设第一阈值;将其中一路声音信号对应的Ka个二值谱与另一路声音信号对应的Kb个二值谱进行两两间的相干性匹配得到所述第一匹配结果,所述第一匹配结果包括匹配度最高的一组二值谱对应的匹配位置和匹配度,Ka、Kb均为正整数。可选的,所述根据所述两路声音信号的功率谱的谱间相关性对所述两路声音信号进行相干性匹配得到第二匹配结果,包括:对于每一路声音信号,按照下述公式计算所述声音信号中的每一帧声音信号的功率谱P(w,n):P(w,n)=αpP(w,n-1)+(1-αp)|X(w,n)|2;其中,X(w,n)表示所述声音信号的短时傅里叶变换;αp为预设系数且0<αp<1;w表示频域上的频点序号;n表示时域上的帧序号;按照下述公式计算每一帧声音信号的功率谱的谱间相关性DP(w,n):DP(w,n)=|P(w+1,n)-P(w,n)|;按照下述公式对所述谱间相关性DP(w,n)进行噪声跟踪,获取每一帧声音信号的噪声功率谱的谱间相关性NDP(w,n):NDP(w,n)=(1-βu)DP(w,n)+βuNDP(w,n-1),DP(w,n)≥NDP(w,n-1)(1-βd)DP(w,n)+βdNDP(w,n-1),DP(w,n)NDP(w,n-1);]]>其中,βu、βd为预设系数且0<βd<βu<1;按照下述公式对每一帧声音信号的所述谱间相关性DP(w,n)进行二值化处理得到相关性二值谱XDb(w,n):XDb(w,n)=1,DP(w,n)-NDP(w,n)>TDb0,DP(w,n)-NDP(w,n)≤TDb,]]>TDb为预设第二阈值;将其中一路声音信号对应的KDa个相关性二值谱与另一路声音信号对应的KDb个相关性二值谱进行两两间的相干性匹配得到所述第二匹配结果,所述第二匹配结果包括匹配度最高的一组相干性二值谱对应的匹配位置和匹配度,KDa、KDb均为正整数。可选的,所述根据所述两路声音信号的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配结果之前,还包括:对于每一路声音信号,对所述声音信号进行预处理得到预处理后的声音信号,所述预处理包括降噪处理、放大处理、高通滤波处理、升降采样处理中的至少一种;对所述预处理后的声音信号进行短时傅里叶变换。第二方面,提供了一种声音信号的时延估计装置,所述装置包括:信号获取模块,用于获取两路声音信号;第一匹配模块,用于根据所述两路声音信号的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配结果,所述第一匹配结果包括所述两路声音信号的第一匹配位置和第一匹配度;第二匹配模块,用于根据所述两路声音信号的功率谱的谱间相关性对所述两路声音信号进行相干性匹配得到第二匹配结果,所述第二匹配结果包括所述两路声音信号的第二匹配位置和第二匹配度;时延计算模块,用于根据所述第一匹配结果和所述第二匹配结果计算所述两路声音信号间的时延。可选的,所述时延计算模块,包括:位置计算单元和时延计算单元;所述位置计算单元,用于对于每一路声音信号,对所述第一匹配位置和所述第二匹配位置采用加权平均算法计算最终匹配位置,所述加权平均算法的权重是根据所述第一匹配度和所述第二匹配度确定的;所述时延计算单元,用于根据所述两路声音信号的所述最终匹配位置计算所述两路声音信号间的时延。可选的,所述第一匹配模块,包括:第一跟踪单元、第一二值化单元和第一匹配单元;所述第一跟踪单元,用于对于每一路声音信号,按照下述公式对所述声音信号中的每一帧声音信号进行噪声跟踪,获取每一帧声音信号的噪声谱N(w,n):N(w,n)=(1-αu)|X(w,n)|+αuN(w,n-1),|X(w,n)|≥N(w,n-1)(1-αd)|X(w,n)|+αdN(w,n-1),|X(w,n)|N(w,n-1);]]>其中,X(w,n)表示所述声音信号的短时傅里叶变换;αu、αd为预设系数且0<αd<αu<1;w本文档来自技高网...
声音信号的时延估计方法和装置

【技术保护点】
一种声音信号的时延估计方法,其特征在于,所述方法包括:获取两路声音信号;根据所述两路声音信号的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配结果,所述第一匹配结果包括所述两路声音信号的第一匹配位置和第一匹配度;根据所述两路声音信号的功率谱的谱间相关性对所述两路声音信号进行相干性匹配得到第二匹配结果,所述第二匹配结果包括所述两路声音信号的第二匹配位置和第二匹配度;根据所述第一匹配结果和所述第二匹配结果计算所述两路声音信号间的时延。

【技术特征摘要】
1.一种声音信号的时延估计方法,其特征在于,所述方法包括:
获取两路声音信号;
根据所述两路声音信号的短时傅里叶变换对所述两路声音信号进行相干性
匹配得到第一匹配结果,所述第一匹配结果包括所述两路声音信号的第一匹配
位置和第一匹配度;
根据所述两路声音信号的功率谱的谱间相关性对所述两路声音信号进行相
干性匹配得到第二匹配结果,所述第二匹配结果包括所述两路声音信号的第二
匹配位置和第二匹配度;
根据所述第一匹配结果和所述第二匹配结果计算所述两路声音信号间的时
延。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一匹配结果
和所述第二匹配结果计算所述两路声音信号间的时延,包括:
对于每一路声音信号,对所述第一匹配位置和所述第二匹配位置采用加权
平均算法计算最终匹配位置,所述加权平均算法的权重是根据所述第一匹配度
和所述第二匹配度确定的;
根据所述两路声音信号的所述最终匹配位置计算所述两路声音信号间的时
延。
3.根据权利要求1所述的方法,其特征在于,所述根据所述两路声音信号
的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配结果,包
括:
对于每一路声音信号,按照下述公式对所述声音信号中的每一帧声音信号
进行噪声跟踪,获取每一帧声音信号的噪声谱N(w,n):
N(w,n)=(1-αu)|X(w,n)|+αuN(w,n-1),|X(w,n)|≥N(w,n-1)(1-αd)|X(w,n)|+αdN(w,n-1),|X(w,n)|<N(w,n-1);]]>其中,X(w,n)表示所述声音信号的短时傅里叶变换;αu、αd为预设系数且
0<αd<αu<1;w表示频域上的频点序号;n表示时域上的帧序号;
按照下述公式对每一帧声音信号的短时傅里叶变换进行二值化处理得到二
值谱Xb(w,n):
Xb(w,n)=1,|X(w,n)|-N(w,n)>Tb0,|X(w,n)|N(w,n)≤Tb,]]>Tb为预设第一阈值;
将其中一路声音信号对应的Ka个二值谱与另一路声音信号对应的Kb个二值
谱进行两两间的相干性匹配得到所述第一匹配结果,所述第一匹配结果包括匹
配度最高的一组二值谱对应的匹配位置和匹配度,Ka、Kb均为正整数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述两路声音信号
的功率谱的谱间相关性对所述两路声音信号进行相干性匹配得到第二匹配结
果,包括:
对于每一路声音信号,按照下述公式计算所述声音信号中的每一帧声音信
号的功率谱P(w,n):
P(w,n)=αpP(w,n-1)+(1-αp)|X(w,n)|2;
其中,X(w,n)表示所述声音信号的短时傅里叶变换;αp为预设系数且
0<αp<1;w表示频域上的频点序号;n表示时域上的帧序号;
按照下述公式计算每一帧声音信号的功率谱的谱间相关性DP(w,n):
DP(w,n)=|P(w+1,n)-P(w,n)|;
按照下述公式对所述谱间相关性DP(w,n)进行噪声跟踪,获取每一帧声音信
号的噪声功率谱的谱间相关性NDP(w,n):
NDP(w,n)=(1-βu)DP(w,n)+βuNDP(w,n-1),DP(w,n)≥NDP(w,n-1)(1-βd)Dp(w,n)+βdNDP(w,n-1),DP(w,n)<NDP(w,n-1);]]>其中,βu、βd为预设系数且0<βd<βu<1;
按照下述公式对每一帧声音信号的所述谱间相关性DP(w,n)进行二值化处
理得到相关性二值谱XDb(w,n):
XDb(w,n)=1,DP(w,n)-NDP(w,n)>TDb0,DP(w,n)-NDP(w,n)≤TDb,]]>TDb为预设第二阈值;
将其中一路声音信号对应的KDa个相关性二值谱与另一路声音信号对应的
KDb个相关性二值谱进行两两间的相干性匹配得到所述第二匹配结果,所述第二
匹配结果包括匹配度最高的一组相干性二值谱对应的匹配位置和匹配度,KDa、
KDb均为正整数。
5.根据权利要求1至4任一所述的方法,其特征在于,所述根据所述两路
声音信号的短时傅里叶变换对所述两路声音信号进行相干性匹配得到第一匹配
结果之前,还包括:
对于每一路声音信号,对所述声音信号进行预处理得到预处理后的声音信
号,所述预处理包括降噪处理、放大处理、高通滤波处理、升降采样处理中的
至少一种;
对所述预处理后的声音信号进行短时傅里叶变换。
6.一种声音信号的时延估计装置,其特征在于,所述装置包括:
信号获取模块,用于获取两路声音信号...

【专利技术属性】
技术研发人员:陈超
申请(专利权)人:广州市百果园网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1