一种音量控制方法及装置制造方法及图纸

技术编号:13794000 阅读:65 留言:0更新日期:2016-10-06 08:24
本发明专利技术公开一种音量控制方法及装置,用以降低音量调整时延。所述方法获取当前时刻语音信号采样点的平滑音量和平滑包络;根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;在确定出的各自相关值中,确定出数值最大的一个自相关值作为最大自相关值;根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量;根据组合平滑音量和预设参考音量确定当前时刻的音量增益;根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。经实测,该方法可有效降低音量调整时延。

【技术实现步骤摘要】

本专利技术涉及电子信息
,尤其涉及一种音量控制方法及装置
技术介绍
在电子信息
,语音交互已经成为人机交互、或机器与机器交互的必要手段。在语音交互过程中,音量给用户的听觉感受(即听感)是衡量语音交互质量的指标之一。实际应用场景中,信号源的语音信号音量可能存在忽高忽低的情况,这种情况为音量跳跃。若对该跳跃式的音量进行调整时,调整音量的延时超过一定时间范围(如100ms),则用户也会听到音量忽高忽低,用户的听感就较差。通常情况下,当前时刻采集到语音信号之后,通过上一时刻的音量增益控制当前时刻的语音信号输出。然后根据当前时刻的语音信号确定当前时刻的音量增益。具体的,若当前时刻的音量未发生突变,则可将上一时刻的音量增益作为当前时刻的音量增益(即不需要对上一时刻的音量进行调整),若当前时刻的音量发生突变(即存在音量跳跃),则需要重新确定当前时刻的音量增益(即,需要调整上一时刻的音量增益),以对下一时刻的音量输出进行控制。上述的音量调整包括对音量增益的调整,且音量调整时延与音量增益的调整时延成正比。若对上一时刻的音量增益的调整时延较大时,音量调整时延也较大,这样就无法及时对下一时刻突变的音量的输出进行控制,从而导致用户也会听到音量忽高忽低。然而,在现有技术中,主要通过当前时刻(如,t时刻)采集的语音信号采样点的平滑音量和用户预设的参考音量确定音量增益,通过该音量增益控制音量输出。然而,由于平滑音量无法及时反映两个相邻时刻的音量突变的情况,
因此,也就无法及时对两个相邻时刻音量的音量差进行调整(如补偿),导致对音量增益的调整延时较大,大约在100ms以上,人耳可清楚的识别出音量跳跃的存在,相应的,用户听感也较差。
技术实现思路
本专利技术实施例提供一种音量控制方法及装置,用以降低音量调整的时延,以解决音量跳跃的问题,进而提高用户的听感。本专利技术实施例提供一种音量控制方法,包括:获取当前时刻语音信号的平滑音量和平滑包络;根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。本专利技术实施例提供一种音量控制装置,包括:获取模块,用于获取当前时刻语音信号的平滑音量和平滑包络;第一确定模块,用于根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;第二确定模块,用于在确定出的各自相关值中,确定出数值最大的自相关
值,作为最大自相关值;第三确定模块,用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;第四确定模块,用于根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;控制模块,用于根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。本专利技术实施例提供的一种音量控制方法及装置,该方法根据当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;确定出数值最大的自相关值作为最大自相关值;根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量;根据该组合平滑音量确定当前时刻的音量增益并对下一时刻的音量进行控制。经实测,使用该方法确定当前时刻的音量增益时,调整音量增益的时延有效缩短,从而使得音量调整时延也有效缩短,控制音量输出后,可有效降低人耳感觉到音量跳跃的几率,甚至可消除音量跳跃。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例提供的语音控制方法流程示意图;图2为本专利技术实施例提供的原始语音信号的时域波形图;图3为本专利技术实施例提供的第一时间段和各第二时间段与平滑包络的对应关系示意图;图4为本专利技术实施例提供的经实测得到包括平滑音量、组合平滑音量、最大自相关值、增益等的谱线图;图5为本专利技术实施例提供的输出后的语音信号的时域波形图;图6为本专利技术实施例提供的语音控制方法流程图;图7为本专利技术实施例提供的语音控制方法流程图;图8为本专利技术实施例提供的语音控制装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种音量控制方法,具体包括以下步骤:S101:获取当前时刻语音信号的平滑音量和平滑包络。在本专利技术实施例中,上一时刻确定出的音量增益用于对当前时刻的语音信号的音量进行控制并输出,类似的,当前时刻的音量增益用于对下一时刻的语音信号的音量进行控制并输出。本专利技术以确定当前时刻的音量增益并控制下一时刻音量为例说明。在本专利技术实施例中,获取当前时刻(以下称为t时刻)语音信号的平滑音量和平滑包络时,需要首先获取t时刻语音信号的音量和包络,然后对该音量和包络进行平滑,得到平滑音量和平滑包络。获取t时刻语音信号的音量和包络,具体的:假设在语音对话系统中,存在一段时间长度为T的原始语音信号,该原始语音信号的时间(如横轴所示)和振幅(如纵轴所示)关系图,如图2所示;从图2所示的原始语音信号中,获取t时刻语音信号的m(m为正整数)个采样点的振幅x1~xm,确定该每个
振幅xi(i=1,…,m)和上一时刻(以下称为t-1时刻)音量增益gt-1的乘积gt-1xi,将各gt-1xi的平均值作为平均振幅增益将该平均振幅增益的平方值s2作为当前时刻的音量Vt,将该平均振幅增益的绝对值作为当前时刻的音量包络Zt。上述确定出t时刻的音量Vt后,可通过公式(1-1)确定t时刻的平滑音量Vt’。Vt’=(1-λ)(λVt-1’+Vt) (1-1)在公式(1-1)中,λ为平滑音量的衰减因子,Vt-1’为t-1时刻的平滑音量。公式(1-1)中,λ的值越大,平滑音量Vt’相对于平滑音量Vt-1’变化越平缓。其中,λ可以在0.50~0.99范围内,比如,λ的值可以为0.75。在实际应用中λ的值可根据实际需求确定,这里不做具体限制。上述确定出t时刻的包络Zt后,可通过公式(1-2)确定t时刻的平滑包络Zt’。Zt’=(1-ω)(ωZt-1’+Zt) (1-2)公式(1-2)中,ω为平滑包络的衰减因子,Zt-1’为t-1时刻的平滑包络。ω的值本文档来自技高网
...

【技术保护点】
一种音量控制方法,其特征在于,包括:获取当前时刻语音信号的平滑音量和平滑包络;根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。

【技术特征摘要】
1.一种音量控制方法,其特征在于,包括:获取当前时刻语音信号的平滑音量和平滑包络;根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。2.如权利要求1所述的方法,其特征在于,根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量,具体包括:确定最大自相关值与第一时间段内的平滑包络的数量的比值,作为平均最大自相关值;其中,所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络;确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值;将所述加权平均值作为当前时刻的组合平滑音量。3.如权利要求1所述的方法,其特征在于,获取当前时刻语音信号的平滑音量和平滑包络,具体包括:获取当前时刻语音信号的多个采样点的振幅;计算每个采样点的振幅与上一时刻音量增益的乘积,作为增益振幅;确定所述多个采样点的增益振幅的平均值,作为平均振幅;根据所述平均振幅确定所述平滑音量和平滑包络。4.如权利要求1所述的方法,其特征在于,根据所述确定出的音量增益对下一时刻语音信号的音量进行控制之前,所述方法还包括:对所述音量增益进行平滑处理;对平滑处理后的音量增益进行增益限制;对增益限制后的音量增益进行增益差分限制,将该增益差分限制后的音量增益作为当前时刻的音量增益。5.如权利要求1所述的方法,其特征在于,根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前,所述方法还包括:确定所述最大自相关值为满足设定条件的最大自相关值;其中,若当前时刻的最大自相关值超过预设最大自相关阈值,以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值,则确定当前时刻的最大自相关值满足设定条件;其中,j为大于1的正整数。6.一种音量控制装置...

【专利技术属性】
技术研发人员:王育军
申请(专利权)人:乐视致新电子科技天津有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1