基于语音端点检测的音频编码方法及装置、设备、介质制造方法及图纸

技术编号:26602231 阅读:22 留言:0更新日期:2020-12-04 21:25
本发明专利技术提供了一种基于语音端点检测的音频编码方法及装置、设备、介质,该方法包括:对待编码音频数据进行语音端点检测处理;计算第k个活动音频段在每一子带上的能量分布值;根据第k个活动音频段的每一个粒度中每一子带的特征参数以及第k个活动音频段在每一子带上的能量分布值计算比特分配权重值,该特征参数为信号掩蔽比或能量值;对于第k个活动音频段的每一个粒度,根据其中每一子带的比特分配权重值对其中每一子带进行比特分配;对于第k个活动音频段的每一个粒度中的每一个子带,按照对其分配的比特数量对其频率线进行量化;对待编码音频数据分割得到的非活动音频段进行编码。本发明专利技术有利于兼顾不同种类的声音信号。

【技术实现步骤摘要】
基于语音端点检测的音频编码方法及装置、设备、介质
本专利技术涉及音频编码
,尤其涉及一种基于语音端点检测的音频编码方法及装置、设备、介质。
技术介绍
MPEG(MovingPictureExpertsGroup,运动图像专家组)音频编码标准是目前数字音频压缩技术的主流,通过MPEG音频编码可以将原始音频数据转换为压缩数据,压缩后的数据数据量更少,从而有利于节省存储空间以及减少网络传输所需要的网络带宽,MPEG音频标准定义了三种不同的压缩层次,即MPEGAudioLayer-1、MPEGAudioLayer-2、MPEGAudioLayer-3,分别简称MP1、MP2和MP3,其中,层次越高压缩性能越好,但是编码的开销和译码的复杂度也随之增加,MP2编码均衡了性能和复杂度,便于在很多系统中实现。目前,MPEGAudioLayer-1/2/3音频编码方式主要采用心理声学模型对不同的子带进行位流分配,然而,由于固定的心理声学模型对各个子带使用固定预偏重的位流分配(即对整个编码过程使用固定偏重参考),而现实中的声音是不同种类的(如存在语音、音乐、乐器等不同种类的声音),由于不同种类的声音信号中,子带的信息分布情况是不同的,使得固定的心理声学模型很难兼顾不同种类的声音,例如,通常情况下,固定的心理声学模型会在低频优先分配位流,这样就会造成:在对频率比较丰富或高频较多的声音信号进行编码时,容易导致高频损失较为严重的问题。
技术实现思路
基于上述现状,本专利技术的主要目的在于提供一种基于语音端点检测的音频编码方法及装置、设备、介质,有利于兼顾不同种类的声音信号。为实现上述目的,本专利技术的技术方案提供了一种基于语音端点检测的音频编码方法,包括:步骤S1:对待编码音频数据进行语音端点检测处理,以将所述待编码音频数据中的活动音频段和非活动音频段相分割;步骤S2:对所述待编码音频数据分割得到的第k个活动音频段进行分块处理得到若干个粒度,再对每一个粒度进行子带分解并计算每一个粒度中每一子带的能量值,以及利用所述第k个活动音频段的每一个粒度中每一子带的能量值计算所述第k个活动音频段在每一子带上的能量分布值,k为1~L中的任意整数,L为所述待编码音频数据分割得到的活动音频段的数量;步骤S3:根据所述第k个活动音频段的每一个粒度中每一子带的特征参数以及所述第k个活动音频段在每一子带上的能量分布值计算所述第k个活动音频段的每一个粒度中每一子带的比特分配权重值,所述特征参数为信号掩蔽比或能量值;P(k,i)[sb]与(SMR(k,i)[sb]*Dk[sb])或(W(k,i)[sb]*Dk[sb])正相关;其中,P(k,i)[sb]为所述第k个活动音频段的第i个粒度中第sb子带的比特分配权重值,SMR(k,i)[sb]为所述第k个活动音频段的第i个粒度中第sb子带的信号掩蔽比,W(k,i)[sb]为所述第k个活动音频段的第i个粒度中第sb子带的能量值,Dk[sb]为所述第k个活动音频段在第sb子带上的能量分布值;步骤S4:对于所述第k个活动音频段的每一个粒度,根据其中每一子带的比特分配权重值对其中每一子带进行比特分配,其中,同一粒度中的任意两子带,比特分配权重值较大的子带分配得到的比特数量大于比特分配权重值较小的子带分配得到的比特数量;步骤S5:对于所述第k个活动音频段的每一个粒度中的每一个子带,按照对其分配的比特数量对其频率线进行量化,并在量化后进行位流封装;步骤S6:对所述待编码音频数据分割得到的非活动音频段进行编码。进一步地,所述步骤S4包括:对于所述第k个活动音频段的每一个粒度,其中各子带分配得到的比特数量之间的比例与其中各子带的比特分配权重值之间的比例一致。进一步地,所述步骤S6包括:步骤S61:对所述待编码音频数据分割得到的第h个非活动音频段进行分块处理,得到若干个粒度,h为1~V中的整数,V为所述待编码音频数据分割得到的非活动音频段的个数;步骤S62:对所述第h个非活动音频段的每一个粒度进行子带分解操作;步骤S63:根据所述第h个非活动音频段相邻的两个活动音频段在每一子带上的能量分布值确定所述第h个非活动音频段在每一子带上的能量分布值;其中,对于每一子带,所述第h个非活动音频段在其上的能量分布值为所述第h个非活动音频段相邻的两个活动音频段在其上的能量分布值的均值;步骤S64:获取所述第h个非活动音频段的每一个粒度中每一子带的信号掩蔽比,然后根据所述第h个非活动音频段的每一个粒度中每一子带的信号掩蔽比以及所述第h个非活动音频段在每一子带上的能量分布值计算所述第h个非活动音频段的每一个粒度中每一子带的比特分配权重值;P′(k,i)[sb]=C′*SMR′(k,i)[sb]*D′k[sb];其中,P′(k,i)[sb]为所述第h个非活动音频段的第i个粒度中第sb子带的比特分配权重值,SMR′(k,i)[sb]为所述第h个非活动音频段的第i个粒度中第sb子带的信号掩蔽比,C′为预设系数且为正值;步骤S65:对于所述第h个非活动音频段的每一个粒度,根据其中每一子带的比特分配权重值对其中每一子带进行比特分配,其中,同一粒度中的任意两子带,比特分配权重值较大的子带分配得到的比特数量大于比特分配权重值较小的子带分配得到的比特数量;步骤S66:对于所述第h个非活动音频段的每一个粒度中的每一子带,按照对其分配的比特数量对其频率线进行量化,并在量化后进行位流封装。进一步地,所述步骤S65包括:对于所述第h个非活动音频段的每一个粒度,其中各子带分配得到的比特数量之间的比例与其中各子带的比特分配权重值之间的比例一致。进一步地,所述P(k,i)[sb]与(SMR(k,i)[sb]*Dk[sb])正相关,包括:P(k,i)[sb]=C1*SMR(k,i)[sb]*Dk[sb];C1为预设系数且为正值。进一步地,所述P(k,i)[sb]与(W(k,i)[sb]*Dk[sb])正相关,包括:P(k,i)[sb]=C2*W(k,i)[sb]*Dk[sb];C2为预设系数且为正值。进一步地,步骤S2包括:步骤S21:对所述第k个活动音频段进行分块处理,得到若干个粒度;步骤S22:对所述第k个活动音频段的每一个粒度进行子带分解操作,然后对于所述第k个活动音频段的每一个粒度,计算其每一子带的能量值;其中,SP(k,i)[sb][j]为所述第k个活动音频段的第i个粒度中第sb子带的第j频率线的频谱值,sb表示子带号,sb=1,2,3,…,N,N为每一个粒度中的子带数量,j表示频率线号,Z为每一子带的频率线数量,a为大于1的预设值;步骤S23:计算所述第k个活动音频段在每一子带上的能量分布值;其中,grs_k为所述第k个活动音频段分块处理后得到的粒度数量。进一步地,所述活动音频段的编码码率大于本文档来自技高网...

【技术保护点】
1.一种基于语音端点检测的音频编码方法,其特征在于,包括:/n步骤S1:对待编码音频数据进行语音端点检测处理,以将所述待编码音频数据中的活动音频段和非活动音频段相分割;/n步骤S2:对所述待编码音频数据分割得到的第k个活动音频段进行分块处理得到若干个粒度,再对每一个粒度进行子带分解并计算每一个粒度中每一子带的能量值,以及利用所述第k个活动音频段的每一个粒度中每一子带的能量值计算所述第k个活动音频段在每一子带上的能量分布值,k为1~L中的任意整数,L为所述待编码音频数据分割得到的活动音频段的数量;/n步骤S3:根据所述第k个活动音频段的每一个粒度中每一子带的特征参数以及所述第k个活动音频段在每一子带上的能量分布值计算所述第k个活动音频段的每一个粒度中每一子带的比特分配权重值,所述特征参数为信号掩蔽比或能量值;/nP

【技术特征摘要】
1.一种基于语音端点检测的音频编码方法,其特征在于,包括:
步骤S1:对待编码音频数据进行语音端点检测处理,以将所述待编码音频数据中的活动音频段和非活动音频段相分割;
步骤S2:对所述待编码音频数据分割得到的第k个活动音频段进行分块处理得到若干个粒度,再对每一个粒度进行子带分解并计算每一个粒度中每一子带的能量值,以及利用所述第k个活动音频段的每一个粒度中每一子带的能量值计算所述第k个活动音频段在每一子带上的能量分布值,k为1~L中的任意整数,L为所述待编码音频数据分割得到的活动音频段的数量;
步骤S3:根据所述第k个活动音频段的每一个粒度中每一子带的特征参数以及所述第k个活动音频段在每一子带上的能量分布值计算所述第k个活动音频段的每一个粒度中每一子带的比特分配权重值,所述特征参数为信号掩蔽比或能量值;
P(k,i)[sb]与(SMR(k,i)[sb]*Dk[sb])或(W(k,i)[sb]*Dk[sb])正相关;
其中,P(k,i)[sb]为所述第k个活动音频段的第i个粒度中第sb子带的比特分配权重值,SMR(k,i)[sb]为所述第k个活动音频段的第i个粒度中第sb子带的信号掩蔽比,W(k,i)[sb]为所述第k个活动音频段的第i个粒度中第sb子带的能量值,Dk[sb]为所述第k个活动音频段在第sb子带上的能量分布值;
步骤S4:对于所述第k个活动音频段的每一个粒度,根据其中每一子带的比特分配权重值对其中每一子带进行比特分配,其中,同一粒度中的任意两子带,比特分配权重值较大的子带分配得到的比特数量大于比特分配权重值较小的子带分配得到的比特数量;
步骤S5:对于所述第k个活动音频段的每一个粒度中的每一个子带,按照对其分配的比特数量对其频率线进行量化,并在量化后进行位流封装;
步骤S6:对所述待编码音频数据分割得到的非活动音频段进行编码。


2.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:
对于所述第k个活动音频段的每一个粒度,其中各子带分配得到的比特数量之间的比例与其中各子带的比特分配权重值之间的比例一致。


3.根据权利要求1所述的方法,其特征在于,所述步骤S6包括:
步骤S61:对所述待编码音频数据分割得到的第h个非活动音频段进行分块处理,得到若干个粒度,h为1~V中的整数,V为所述待编码音频数据分割得到的非活动音频段的个数;
步骤S62:对所述第h个非活动音频段的每一个粒度进行子带分解操作;
步骤S63:根据所述第h个非活动音频段相邻的两个活动音频段在每一子带上的能量分布值确定所述第h个非活动音频段在每一子带上的能量分布值;
其中,对于每一子带,所述第h个非活动音频段在其上的能量分布值为所述第h个非活动音频段相邻的两个活动音频段在其上的能量分布值的均值;
步骤S64:获取所述第h个非活动音频段的每一个粒度中每一子带的信号掩蔽比,然后根据所述第h个非活动音频段的每一个粒度中每一子带的信号掩蔽比以及所述第h个非活动音频段在每一子带上的能量分布值计算所述第h个非活动音频段的每一个粒度中每一子带的比特分配权重值;
P′(k,i)[sb]=C′*SMR′(k,i)[sb]*D′k[sb];
其中,P′(k,i)[sb]为所述第h个非活动音频段的第i个粒度中第sb子带的比特分配权重值,SMR′(k,i)[sb]为所述第h个非活动音频段的第i个粒度中第sb子带的信号掩蔽比,C′为预设系数且为正值;
步骤S65:对于所述第h个非活动音频段的每一个粒度,根据其中每一子带的比特分配权重值对其中每一子带进行比特分配,其中,同一粒度中的任意两子带,比特分配权重值较大的子带分配得到的比特数量大于比特分配权重值较小的子带分配得到的比特数量;
步骤S66:对于所述第h个非活动音频段的每一个粒度中的每一子带,按照对其分配的比特数量对其频率线进行量化,并在量化后进行位流封装。


4.根据权利要求3所述的方法,其特征在于,所述步骤S65包括:
对于所述第h个非活动音频段的每一个粒度,其中各子带分配得到的比特数量之间的比例与其中各子带的比特分配权重值之间的比例一致。


5.根据权利要求1所述的方法,其特征在于,所述P(k,i)[sb]与(SMR(k,i)[sb]*Dk[sb])正相关,包括:
P(k,i)[sb]=C1*SMR(k,i)[sb]*Dk[sb];
C1为预设系数且为正值。


6.根据权利要求1所述的方法,其特征在于,所述P(k,i)[sb]与(W(k,i)[sb]*Dk[sb])正相关,包括:
P(k,i)[sb]=C2*W(k,i)[sb]*Dk[sb];
C2为预设系数且为正值。


7.根据权利要求1-6任一项所述的方法,其特征在于,步骤S2包括:
步骤S21:对所述第k个活动音频段进行分块处理,得到若干个粒度;
步骤S22:对所述第k个活动音频段的每一个粒...

【专利技术属性】
技术研发人员:闫玉凤肖全之黄荣均方桂萍
申请(专利权)人:珠海市杰理科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1