讲话状态的切换方法及装置、通话系统制造方法及图纸

技术编号:18951847 阅读:18 留言:0更新日期:2018-09-15 13:35
本发明专利技术公开了一种讲话状态的切换方法及装置、通话系统。其中,该方法包括:获取声音输入信号和声音参考信号;对声音输入信号和声音参考信号进行预处理,确定出声音输出信号;检测声音输入能量值、声音参考能量值,以及声音输出能量值;对声音输出能量值和声音输入能量值进行计算,得到声音能量比值;根据声音输入能量值、声音参考能量值和声音能量比值,确定目标讲话状态;判断目标讲话状态与当前讲话状态是否相同;在判断出目标讲话状态与当前讲话状态不相同的情况下,将当前讲话状态切换为目标讲话状态。本发明专利技术解决了相关技术中由于房间内的混响,导致通话系统判断当前讲话状态出现误差,造成用户体验感下降的技术问题。

Switching method and device for speech state and telephone system

The invention discloses a switching method and a device for speaking state, and a communication system. The method includes acquiring sound input signal and sound reference signal, pre-processing the sound input signal and sound reference signal to determine the sound output signal, detecting the sound input energy value, the sound reference energy value and the sound output energy value, outputting the sound output energy value and the sound input energy value. According to the input energy value, the reference energy value and the sound energy ratio, the target speech state can be determined; whether the target speech state is the same as the current speech state can be judged; and if the target speech state is different from the current speech state, the current speech state can be judged. State switch to target speech state. The invention solves the technical problem that the current speech state is judged by the telephone system due to the reverberation in the room in the related technology, and the user experience is reduced.

【技术实现步骤摘要】
讲话状态的切换方法及装置、通话系统
本专利技术涉及声音处理
,具体而言,涉及一种讲话状态的切换方法及装置、通话系统。
技术介绍
相关技术,在实时通话系统中,通常要对语音信号做自动回声消除处理(AEC)。如果没有AEC的话,说话一端会听到自己的回声,从而造成不好的体验。回声产生的机制是:说话者的语音传输到远程设备,远程设备的扬声器播放出这些声音,然后在远程的麦克风就会接收到扬声器的直达声和房间回声,这些信号再通过通信系统发回到说话者的设备上,通过扬声器播放出来,就形成了回声。由于这个时间通常比较长,所以讲话者听到这个回声会很不适。所以在通话系统中通常会有一个AEC模块来消除回声。如图1所示,声音路线会有A1和A2两种路线,这时声音检测装置会检测到回声,同时讲话者会听到回声,造成混响。这时,在相对封闭的环境中,若要检测当前的讲话状态,会由于混响造成讲话状态的误判,如在有扬声器采集的讲话状态和讲话人讲话的状态判断时,容易会在讲话人讲话停顿时,由于混响的原因,系统误判断为扬声器和讲话人同时发出声音的状态,这样就会导致讲话状态出现误判,通话系统出现误差,会造成通话质量的降低,甚至出现通话噪音的情况。例如,在一种声音采集通话系统中,定义两个讲话的房间A和房间B,在房间A和房间B同时讲话时,定义为双端讲话,在房间A讲话且房间B不讲话,定义为近端讲话,在房间A不讲话且房间B讲话,定义为远端讲话,若在远端讲话出现停顿时,会很容易出现由于混响,导致房间A中的声音采集设备仍然采集到声音,将当前讲话状态误判为双端讲话或者近端讲话,这时,就会造成讲话状态出现误差,声音采集出现噪音等情况,播放出的声音让用户感到不适,用户的体验感下降。针对上述的相关技术中由于房间内的混响,导致通话系统判断当前讲话状态出现误差,造成用户体验感下降的技术问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种讲话状态的切换方法及装置、通话系统,以至少解决相关技术中由于房间内的混响,导致通话系统判断当前讲话状态出现误差,造成用户体验感下降的技术问题。根据本专利技术实施例的一个方面,提供了一种讲话状态的切换方法,所述切换方法应用于通话设备中,所述通话设备至少包括声音采集单元、声音播放单元,所述声音采集单元用于采集声音输入信号,所述声音播放单元用于播放出声音参考信号,其中声音输入信号、所述声音参考信号对应有声音波形能量值,所述方法包括:获取声音输入信号和声音参考信号;对所述声音输入信号和所述声音参考信号进行预处理,确定出声音输出信号;检测声音输入能量值、声音参考能量值,以及声音输出能量值,其中,所述声音输入能量值为所述声音输入信号对应的波形能量值,所述声音参考能量值为所述声音参考信号对应的波形能量值,所述声音输出能量值为所述声音输出信号对应的能量值;对所述声音输出能量值和所述声音输入能量值进行计算,得到声音能量比值;根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态;判断所述目标讲话状态与当前讲话状态是否相同,其中,所述当前讲话状态为历史时间段内的讲话状态;在判断出所述目标讲话状态与所述当前讲话状态不相同的情况下,将所述当前讲话状态切换为所述目标讲话状态。进一步地,所述当前讲话状态为下述之一:静音状态、远端讲话状态、双端讲话状态、近端讲话状态,其中,所述静音状态为第一通话设备和第二通话设备都不发出声音的讲话状态,所述远端讲话状态为第一通话设备不发出声音、第二通话设备发出声音的讲话状态,所述双端讲话状态为所述第一通话设备和第二通话设备都发出声音的讲话状态,所述近端讲话状态为所述第一通话设备发出声音、第二通话设备不发出声音的讲话状态。进一步地,根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态包括:根据所述声音输入信号和所述声音参考信号,确定第一波形信号相关值;根据所述声音输入信号和所述声音输出信号,确定第二波形信号相关值;在所述声音输入能量值大于第一预设阈值,所述声音参考能量值大于第二预设阈值、所述第一波形信号相关值大于第三预设阈值、所述第二波形信号相关值低于第四预设阈值且所述声音能量比值低于第五预设阈值的情况下,确定所述目标讲话状态为所述远端讲话状态;在所述声音输入能量值大于第六预设阈值,所述声音参考能量值大于第七预设阈值、所述第一波形信号相关值低于第八预设阈值、所述第二波形信号相关值大于第九预设阈值且所述声音能量比值大于第十预设阈值的情况下,确定所述目标讲话状态为所述双端讲话状态;在所述声音输入能量值大于第十一预设阈值,所述声音参考能量值低于第十二预设阈值、所述第一波形信号相关值低于第十三预设阈值、所述第二波形信号相关值大于第十四预设阈值且所述声音能量比值大于第十预设阈值的情况下,确定所述目标讲话状态为所述近端讲话状态;在所述声音输入能量值低于第十五预设阈值且所述声音参考能量值低于第十六预设阈值的情况下,确定所述目标讲话状态为所述静音状态。进一步地,对所述声音输入信号和所述声音参考信号进行预处理,确定出声音输出信号包括:对所述声音输入信号和所述声音参考信号进行自适应滤波处理,得到滤波后的声音信号;将所述滤波后的声音信号作为所述声音输出信号。进一步地,根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态包括:获取多个声音输入幅度值,其中,所述声音输入幅度值为所述声音输入信号对应的声音波形幅度值;根据所述多个声音输入幅度值,确定声音幅度包络线;对所述声音幅度包络线进行分析,确定幅度包络斜率值;根据所述幅度包络斜率值、所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态。进一步地,根据所述幅度包络斜率值、所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态包括:判断所述幅度包络斜率值是否大于预设斜率值;在判断出所述幅度包络斜率值大于预设斜率值的情况下,确定讲话声音状态为第一状态;在判断出所述幅度包络斜率值不大于预设斜率值的情况下,确定所述讲话声音状态为第二状态;根据所述讲话声音状态、所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态。进一步地,根据所述讲话声音状态、所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态包括:根据所述声音输入信号和所述声音参考信号,确定第一波形信号相关值;根据所述声音输入信号和所述声音输出信号,确定第二波形信号相关值;在所述声音输入能量值大于第一预设阈值,所述声音参考能量值大于第二预设阈值、所述第一波形信号相关值大于第三预设阈值、所述第二波形信号相关值低于第四预设阈值且所述声音能量比值低于第五预设阈值的情况下,确定所述目标讲话状态为远端讲话状态;在所述声音输入能量值大于第六预设阈值,所述声音参考能量值大于第七预设阈值、所述第一波形信号相关值低于第八预设阈值、所述第二波形信号相关值大于第九预设阈值、所述声音能量比值大于第十预设阈值的情况下,以及所述讲话声音状态为第一状态时,确定所述目标讲话状态为双端讲话状态;在所述声音输入能量值大于第十一预设阈值,所述声音参考能量值低于第十二预设阈值、所述第一波形信号相关值低于第十三预设阈值、所述第二波形信本文档来自技高网
...

【技术保护点】
1.一种讲话状态的切换方法,其特征在于,所述切换方法应用于通话设备中,所述通话设备至少包括声音采集单元、声音播放单元,所述声音采集单元用于采集声音输入信号,所述声音播放单元用于播放出声音参考信号,其中声音输入信号、所述声音参考信号对应有声音波形能量值,所述方法包括:获取声音输入信号和声音参考信号;对所述声音输入信号和所述声音参考信号进行预处理,确定出声音输出信号;检测声音输入能量值、声音参考能量值,以及声音输出能量值,其中,所述声音输入能量值为所述声音输入信号对应的波形能量值,所述声音参考能量值为所述声音参考信号对应的波形能量值,所述声音输出能量值为所述声音输出信号对应的能量值;对所述声音输出能量值和所述声音输入能量值进行计算,得到声音能量比值;根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态;判断所述目标讲话状态与当前讲话状态是否相同,其中,所述当前讲话状态为历史时间段内的讲话状态;在判断出所述目标讲话状态与所述当前讲话状态不相同的情况下,将所述当前讲话状态切换为所述目标讲话状态。

【技术特征摘要】
1.一种讲话状态的切换方法,其特征在于,所述切换方法应用于通话设备中,所述通话设备至少包括声音采集单元、声音播放单元,所述声音采集单元用于采集声音输入信号,所述声音播放单元用于播放出声音参考信号,其中声音输入信号、所述声音参考信号对应有声音波形能量值,所述方法包括:获取声音输入信号和声音参考信号;对所述声音输入信号和所述声音参考信号进行预处理,确定出声音输出信号;检测声音输入能量值、声音参考能量值,以及声音输出能量值,其中,所述声音输入能量值为所述声音输入信号对应的波形能量值,所述声音参考能量值为所述声音参考信号对应的波形能量值,所述声音输出能量值为所述声音输出信号对应的能量值;对所述声音输出能量值和所述声音输入能量值进行计算,得到声音能量比值;根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态;判断所述目标讲话状态与当前讲话状态是否相同,其中,所述当前讲话状态为历史时间段内的讲话状态;在判断出所述目标讲话状态与所述当前讲话状态不相同的情况下,将所述当前讲话状态切换为所述目标讲话状态。2.根据权利要求1所述的方法,其特征在于,所述当前讲话状态为下述之一:静音状态、远端讲话状态、双端讲话状态、近端讲话状态,其中,所述静音状态为第一通话设备和第二通话设备都不发出声音的讲话状态,所述远端讲话状态为第一通话设备不发出声音、第二通话设备发出声音的讲话状态,所述双端讲话状态为所述第一通话设备和第二通话设备都发出声音的讲话状态,所述近端讲话状态为所述第一通话设备发出声音、第二通话设备不发出声音的讲话状态。3.根据权利要求2所述的方法,其特征在于,根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态包括:根据所述声音输入信号和所述声音参考信号,确定第一波形信号相关值;根据所述声音输入信号和所述声音输出信号,确定第二波形信号相关值;在所述声音输入能量值大于第一预设阈值,所述声音参考能量值大于第二预设阈值、所述第一波形信号相关值大于第三预设阈值、所述第二波形信号相关值低于第四预设阈值且所述声音能量比值低于第五预设阈值的情况下,确定所述目标讲话状态为所述远端讲话状态;在所述声音输入能量值大于第六预设阈值,所述声音参考能量值大于第七预设阈值、所述第一波形信号相关值低于第八预设阈值、所述第二波形信号相关值大于第九预设阈值且所述声音能量比值大于第十预设阈值的情况下,确定所述目标讲话状态为所述双端讲话状态;在所述声音输入能量值大于第十一预设阈值,所述声音参考能量值低于第十二预设阈值、所述第一波形信号相关值低于第十三预设阈值、所述第二波形信号相关值大于第十四预设阈值且所述声音能量比值大于第十预设阈值的情况下,确定所述目标讲话状态为所述近端讲话状态;在所述声音输入能量值低于第十五预设阈值且所述声音参考能量值低于第十六预设阈值的情况下,确定所述目标讲话状态为所述静音状态。4.根据权利要求1所述的方法,其特征在于,对所述声音输入信号和所述声音参考信号进行预处理,确定出声音输出信号包括:对所述声音输入信号和所述声音参考信号进行自适应滤波处理,得到滤波后的声音信号;将所述滤波后的声音信号作为所述声音输出信号。5.根据权利要求1所述的方法,其特征在于,根据所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态包括:获取多个声音输入幅度值,其中,所述声音输入幅度值为所述声音输入信号对应的声音波形幅度值;根据所述多个声音输入幅度值,确定声音幅度包络线;对所述声音幅度包络线进行分析,确定幅度包络斜率值;根据所述幅度包络斜率值、所述声音输入能量值、所述声音参考能量值和所述声音能量比值,确定目标讲话状态。6.根据权利要求5...

【专利技术属性】
技术研发人员:刘荣
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利