基于清浊音实现的语音信号变速方法、装置和音频设备制造方法及图纸

技术编号：30678411 阅读：35 留言：0更新日期：2021-11-06 09:07

本发明专利技术公开了一种基于清浊音实现的语音信号变速方法、装置和音频设备，其中，所述方法包括：步骤S100，对待变速音频信号帧进行子带分解；步骤S200，对每个子带信号进行分析得到每个子带信号的子带分析结果；步骤S300，通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1；当子带信号为浊音信号时，将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数；步骤S400，对合成相位后的子带集合进行子带合成得到变速后的音频信号。从而，实现了区分清、浊音进行分类变速，更贴合人的说话习惯，改善了用户听感的用户体验。改善了用户听感的用户体验。改善了用户听感的用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于清浊音实现的语音信号变速方法、装置和音频设备

[0001]本专利技术涉及音频信号处理
，具体涉及一种基于清浊音实现的语音信号变速方法、装置和音频设备。

技术介绍

[0002]目前，涉及音频输出的电子产品，尤其涉及音乐播放发的电子产品。音频的播放速度会随着目标速度(播放倍数)进行拉伸缩短变化。比如：复读机，变速耳机，变速音箱等。其人声播放速度会随着背景音乐节拍的变化而变化，当背景音乐节奏感快的时候，人声的单音词长的播放速度会被拉伸或压缩。比如：k歌宝、直播声卡等。
[0003]传统方案中，一般通过在软体内嵌变速音效的算法，其通过设置固定的播放倍数，比如：1.5倍、2倍、2.5倍等的方式，进行就近变速匹配，该变速的效果不能实时贴近目标音乐需要的节奏来变化。
[0004]对于包含语音的音频信号而言，如果设置过快或过慢，都会导致音频内容听感不自然，严重影响内容的收听体验。经申请人研究发现，导致听感不自然的原因是，在变速处理过程中，当进行拉长音时，会同时将清音和浊音一起拉长，导致合成声音不自然。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于清浊音实现的语音信号变速方法，其特征在于，包括：步骤S100，对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号；步骤S200，对每个所述子带信号进行分析得到每个子带信号的子带分析结果，所述子带分析结果为对应的子带信号为清音信号或浊音信号；步骤S300，通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1；当子带信号为浊音信号时，将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数；步骤S400，对所述合成相位后的子带集合进行子带合成得到变速后的音频信号。2.如权利要求1所述的基于清浊音实现的语音信号变速方法，其特征在于，所述步骤S100包括：利用高通滤波器和低通滤波器构成的二叉树状分解方式对所述待变速音频信号帧进行子带分解。3.如权利要求1所述的基于清浊音实现的语音信号变速方法，其特征在于，所述步骤S200包括：步骤S211，求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值(A1)；步骤S212，判断所述第一比值(A1)是否小于第一阈值；如果所述第一比值(A1)小于第一阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。4.如权利要求3所述的基于清浊音实现的语音信号变速方法，其特征在于，如果所述第一比值(A1)大于第一阈值，则顺次执行步骤S213、步骤S214；步骤S213，求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值(A2)；步骤S214，判断所述第二比值(A2)是否小于第二阈值；如果所述第二比值(A2)小于第二阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。5.如权利要求4所述的基于清浊音实现的语音信号变速方法，其特征在于，如果所述第二比值(A2)大于第二阈值，则顺次执行步骤S215、步骤S216；步骤S215，求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值(A3)，其中，2≤i≤N，N为所述待变速音频信号帧被分解的子带数量；步骤S216，判断所述第三比值(A3)是否小于第三阈值；如果所述第三比值(A3)小于第三阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。6.如权利要求5所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S216中，如果所述第三比值(A3)大于第三阈值，则执行步骤S217；步骤S217，对i自加1，并顺次执行步骤S215、步骤S216；当i＝N，且各个所述第三比值(A3)大于第三阈值，则确定所述待变速音频信号帧为浊
音信号。7.如权利要求1
‑
6任意一项所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S300中，当子带信号为浊音信号时，包括：将上一帧音频信号帧对应频线输出的合成相位与新产生的变化相位相加得到本帧音频信号帧对应频线输出的合成相位。8.如权利要求7所述的基于清浊音实现的语音信号变速方法，其特征在于，所述新产生的变化相位包括随着上一帧周期拓展的角度外产生的变化角度与变速因子的乘积，以及上一帧到本帧滑动块滑动的相位。9.如权利要求7所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S200中，如果分析出所述子带信号为清音信号，则执行步骤S220；步骤S220，对所述子带信号所在的音频信号帧做置上复位标志；在所述步骤S300中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。10.如权利要求1
‑
9所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S200中，如果分析出所述子带信号为清音信号，则执行步骤S220；步骤S220，对所述子带信号所在的音频信号帧做置上复位标志；在所述步骤S100包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对所述待变速音频信号帧进行子带分解。11.一种基于清浊音实现的语音信号变速装置，其特征在于，包括：子带分解模块(100)，用于对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号；子带分析模块(200)，用于对每个所述子带信号进行分析得到每个子带信号的子带分析结果，所述子带分析结果为对应的子带信号为清音信号或浊音信号；相位合成模块(300)，用于通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1；当子带信号为浊音信号时，将对...

【专利技术属性】
技术研发人员：方桂萍，肖全之，闫玉凤，
申请(专利权)人：珠海市杰理科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人