The invention discloses a method and system for volume adjustment. After collecting audio signal from the environment, the audio signal is divided into several short-time audio frames. When the short-time energy in the short-time audio frame is greater than the short-time energy threshold and the short-time frequency is greater than the short-time frequency threshold, the corresponding short-time audio frame is judged to be in the voice mixing state, and all the short-time audio frames are in the voice mixing state. The short-time audio frame is processed, the short-time audio frame higher than the reference audio frame is lowered to the reference audio frame, and the short-time audio frame lower than the reference audio frame is raised to the reference audio frame to realize the automatic adjustment of the volume. Thus, it solves the problem of large volume fluctuation in voice interaction, and eliminates the process of manual adjustment of the player volume, so it improves the voice interaction experience and enables users to have normal voice communication.
【技术实现步骤摘要】
一种音量的调节方法及系统
本专利技术涉及语音调节
,更具体的说,涉及一种音量的调节方法及系统。
技术介绍
在多人语音实时互动,比如直播时,由于种种因素,如新的参与者加入、环境噪音以及设备问题,有时会发生音量突然变大或突然变小的情况,或是产生刺耳的噪声,俗称“炸麦”,因此会对正常的语音交流产生影响,进而还可能影响用户的其他行为,如直播和游戏。当出现“炸麦”现象时,就需要用户手动调节播放器的音量,这对用户而言是极其不方便的,而现有的语音实时通信软件还无法避免“炸麦”现象。因此,如何提供一种音量的调节方法及系统,实现对音量的自动调节成为了本领域技术人员亟需解决的技术问题。
技术实现思路
有鉴于此,本专利技术公开一种音量的调节方法及系统,以解决语音互动时,产生音量大幅波动的问题,并省去用户手动调节播放器的音量的过程,因此提高了语音互动体验,使用户可以进行正常的语音交流。一种音量的调节方法,包括:采集环境中的音频信号;将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;如果是,则判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。优选的,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧 ...
【技术保护点】
1.一种音量的调节方法,其特征在于,包括:采集环境中的音频信号;将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;如果是,则判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。
【技术特征摘要】
1.一种音量的调节方法,其特征在于,包括:采集环境中的音频信号;将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;如果是,则判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。2.根据权利要求1所述的调节方法,其特征在于,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量进行自动调节,具体包括:每检测到一个处于语音混合状态的短时音频帧,则对检测到的短时音频帧采用小波变换,得到来自不同用户的短时音频帧和环境噪声帧;采用小波滤波方法对所述环境噪声帧进行滤除;计算所有用户的短时音频帧在被检时刻的平均值;当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为所述基准音频帧。3.根据权利要求1所述的调节方法,其特征在于,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量进行自动调节,具体包括:连续检测N个处于语音混合状态的短时音频帧,对每个被检短时音频帧采用小波变换,得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧,N为大于1的正整数;采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除;分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值;当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧。4.根据权利要求1所述的调节方法,其特征在于,当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时,所述基准音频帧为预先设定的默认值。5.根据权利要求2或3所述的调节方法,其特征在于,当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时,则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程,并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。6.根据权利要求1所述的调节方法,其特征在于,还包括:当所述短时能量不大于所述短时能量阈值,或所述短时频率不大于所述短时频率阈值时,则判定相对应的短时音频帧处于语音正常状态。7.一种音量的...
【专利技术属性】
技术研发人员:邱泽宇,李昂,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。