一种音量的调节方法及系统技术方案

技术编号:20116813 阅读:22 留言:0更新日期:2019-01-16 11:54
本发明专利技术公开了一种音量的调节方法及系统,从环境中采集音频信号后,将该音频信号分割成多个短时音频帧,当短时音频帧中的短时能量大于短时能量阈值,短时频率大于短时频率阈值时,判定相对应的短时音频帧处于语音混合状态,通过对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。从而解决了语音互动时,产生音量大幅波动的问题,并省去了用户手动调节播放器的音量的过程,因此提高了语音互动体验,使用户可以进行正常的语音交流。

A Method and System of Volume Adjustment

The invention discloses a method and system for volume adjustment. After collecting audio signal from the environment, the audio signal is divided into several short-time audio frames. When the short-time energy in the short-time audio frame is greater than the short-time energy threshold and the short-time frequency is greater than the short-time frequency threshold, the corresponding short-time audio frame is judged to be in the voice mixing state, and all the short-time audio frames are in the voice mixing state. The short-time audio frame is processed, the short-time audio frame higher than the reference audio frame is lowered to the reference audio frame, and the short-time audio frame lower than the reference audio frame is raised to the reference audio frame to realize the automatic adjustment of the volume. Thus, it solves the problem of large volume fluctuation in voice interaction, and eliminates the process of manual adjustment of the player volume, so it improves the voice interaction experience and enables users to have normal voice communication.

【技术实现步骤摘要】
一种音量的调节方法及系统
本专利技术涉及语音调节
,更具体的说,涉及一种音量的调节方法及系统。
技术介绍
在多人语音实时互动,比如直播时,由于种种因素,如新的参与者加入、环境噪音以及设备问题,有时会发生音量突然变大或突然变小的情况,或是产生刺耳的噪声,俗称“炸麦”,因此会对正常的语音交流产生影响,进而还可能影响用户的其他行为,如直播和游戏。当出现“炸麦”现象时,就需要用户手动调节播放器的音量,这对用户而言是极其不方便的,而现有的语音实时通信软件还无法避免“炸麦”现象。因此,如何提供一种音量的调节方法及系统,实现对音量的自动调节成为了本领域技术人员亟需解决的技术问题。
技术实现思路
有鉴于此,本专利技术公开一种音量的调节方法及系统,以解决语音互动时,产生音量大幅波动的问题,并省去用户手动调节播放器的音量的过程,因此提高了语音互动体验,使用户可以进行正常的语音交流。一种音量的调节方法,包括:采集环境中的音频信号;将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;如果是,则判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。优选的,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量进行自动调节,具体包括:每检测到一个处于语音混合状态的短时音频帧,则对检测到的短时音频帧采用小波变换,得到来自不同用户的短时音频帧和环境噪声帧;采用小波滤波方法对所述环境噪声帧进行滤除;计算所有用户的短时音频帧在被检时刻的平均值;当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为所述基准音频帧。优选的,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量进行自动调节,具体包括:连续检测N个处于语音混合状态的短时音频帧,对每个被检短时音频帧采用小波变换,得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧,N为大于1的正整数;采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除;分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值;当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧。优选的,当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时,所述基准音频帧为预先设定的默认值。优选的,当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时,则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程,并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。优选的,还包括:当所述短时能量不大于所述短时能量阈值,或所述短时频率不大于所述短时频率阈值时,则判定相对应的短时音频帧处于语音正常状态。一种音量的调节系统,包括:采集单元,用于采集环境中的音频信号;分割单元,用于将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断单元,用于判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;第一判定单元,用于在所述判断单元判断为是的情况下,判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;音量调节单元,用于对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。优选的,所述音量调节单元包括:第一变换子单元,用于每检测到一个处于语音混合状态的短时音频帧,则对检测到的短时音频帧采用小波变换,得到来自不同用户的短时音频帧和环境噪声帧;第一噪声滤除子单元,用于采用小波滤波方法对所述环境噪声帧进行滤除;第一计算子单元,用于计算所有用户的短时音频帧在被检时刻的平均值;第一音量调节子单元,用于当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为所述基准音频帧。优选的,所述音量调节单元包括:第二变换子单元,用于连续检测N个处于语音混合状态的短时音频帧,对每个被检短时音频帧采用小波变换,得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧,N为大于1的正整数;第二噪声滤除子单元,用于采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除;第二计算子单元,用于分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值;第二音量调节子单元,用于当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧。优选的,当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时,所述基准音频帧为预先设定的默认值。优选的,还包括:跳过子单元,用于当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时,则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程,并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。优选的,还包括:第二判定单元,用于在所述判断单元判断为否的情况下,当所述短时能量不大于所述短时能量阈值,或所述短时频率不大于所述短时频率阈值时,则判定相对应的短时音频帧处于语音正常状态。从上述的技术方案可知,本专利技术公开了一种音量的调节方法及系统,从环境中采集音频信号后,将该音频信号分割成多个短时音频帧,当短时音频帧中的短时能量大于短时能量阈值,短时频率大于短时频率阈值时,判定相对应的短时音频帧处于语音混合状态,通过对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。从而解决了语音互动时,产生音量大幅波动的问题,并省去了用户手动调节播放器的音量的过程,因此提高了语音互动体验,使用户可以进行正常的语音交流。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。图1为本专利技术实施例公开的一种音量的调节方法流程图;图2为本专利技术一实施例公开的一种对所有处于语音混合状态的短时音频帧进行调节的方法流程图;图3为本专利技术一实施例公开的另一种对所有处本文档来自技高网...

【技术保护点】
1.一种音量的调节方法,其特征在于,包括:采集环境中的音频信号;将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;如果是,则判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。

【技术特征摘要】
1.一种音量的调节方法,其特征在于,包括:采集环境中的音频信号;将所述音频信号分割成多个短时音频帧,所述短时音频帧的短时特征包括:短时能量和短时频率;判断所述短时能量是否大于短时能量阈值,且所述短时频率是否大于短时频率阈值;如果是,则判定相对应的短时音频帧处于语音混合状态,所述语音混合状态包括:超过声音标准值的声音以及低于所述声音标准值的声音;对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量的自动调节。2.根据权利要求1所述的调节方法,其特征在于,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量进行自动调节,具体包括:每检测到一个处于语音混合状态的短时音频帧,则对检测到的短时音频帧采用小波变换,得到来自不同用户的短时音频帧和环境噪声帧;采用小波滤波方法对所述环境噪声帧进行滤除;计算所有用户的短时音频帧在被检时刻的平均值;当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为所述基准音频帧。3.根据权利要求1所述的调节方法,其特征在于,所述对所有处于语音混合状态的短时音频帧进行处理,将高于基准音频帧的短时音频帧调低至所述基准音频帧,将低于所述基准音频帧的短时音频帧调高至所述基准音频帧,实现对音量进行自动调节,具体包括:连续检测N个处于语音混合状态的短时音频帧,对每个被检短时音频帧采用小波变换,得到每个所述被检短时音频帧中包含的来自不同用户的短时音频帧和环境噪声帧,N为大于1的正整数;采用小波滤波方法对每个所述被检短时音频帧中包含的环境噪声帧进行滤除;分别计算每个所述被检短时音频帧相对应的所有用户的短时音频帧在被检时刻的平均值;当所述平均值与所述被检时刻的上一时刻的平均值的差值不在预设差值范围内时,则将所述被检时刻的平均值作为相对应的被检短时音频帧的基准音频帧。4.根据权利要求1所述的调节方法,其特征在于,当处于语音混合状态的短时音频帧的被检时刻为第一次检测对应的时刻时,所述基准音频帧为预先设定的默认值。5.根据权利要求2或3所述的调节方法,其特征在于,当所述平均值与所述被检时刻的上一时刻的平均值的差值在所述预设差值范围内时,则跳过对所述被检时刻对应的来自不同用户的短时音频帧的调节过程,并继续对所述被检时刻的下一时刻的处于语音混合状态的短时音频帧进行调节。6.根据权利要求1所述的调节方法,其特征在于,还包括:当所述短时能量不大于所述短时能量阈值,或所述短时频率不大于所述短时频率阈值时,则判定相对应的短时音频帧处于语音正常状态。7.一种音量的...

【专利技术属性】
技术研发人员:邱泽宇李昂
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1