语音增强处理方法、装置及存储介质制造方法及图纸

技术编号：23894721 阅读：37 留言：0更新日期：2020-04-22 07:58

本公开揭示了一种语音增强处理方法、装置及存储介质，属于人工智能技术领域。所述方法包括：在包含近场声音采集组件和远场声音采集组件的语音交互设备中，根据模式检测信号确定语音交互设备的交互模式，交互模式包括近场交互模式或者远场交互模式；根据当前交互模式，对交互模式对应的声音采集组件采集到的声音信号进行语音增强，获得增强后的当前交互模式的交互语音。通过上述方案，可以通过切换两种拾音模式对语音信号进行处理，从而减少了在实际应用场景下对声源位置的限制，提高了语音处理的质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强处理方法、装置及存储介质
本公开涉及人工智能
，特别涉及一种语音增强处理方法、装置及存储介质。
技术介绍
如今，人工智能技术日益发展，而语音交互功能作为人工智能技术中广泛应用的重要一环，在进行语音交互的过程中，通过进行语音增强可以提升语音交互的效果。目前，语音增强分为两种情况，一种是拾音器与声源距离较近的近场情况，另一种是拾音器与声源距离较远的远场情况。在近场情况下，采用普通麦克风进行录音，对录音信号进行单通道降噪。在远场情况下，采用麦克风阵列进行录音，然后通过声源定位确定拾音方向，经过各种算法计算来实现语音增强。然而，由于采用近场交互方式需要拾音器与声源的距离要较近，在实际的语音交互场景中不易达到，而采用远场交互容易受到外界声学环境的干扰，导致语音交互的质量不高。
技术实现思路
本公开提供一种语音增强处理方法、装置及存储介质。所述技术方案如下：根据本公开实施例的第一方面，提供了一种语音增强处理方法，其特征在于，所述方法用于包含近场声音采集组件和远场声音采集组件的语音交互设备中，所述方法包括：根据模式检测信号确定所述语音交互设备的交互模式，所述交互模式包括近场交互模式或者远场交互模式；根据当前所述交互模式，对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强，获得增强后的当前所述交互模式的交互语音。可选的，所述根据当前所述交互模式，对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强，获得增强后的当前所述交互模式的交互语...

【技术保护点】
1.一种语音增强处理方法，其特征在于，所述方法用于包含近场声音采集组件和远场声音采集组件的语音交互设备中，所述方法包括：/n根据模式检测信号确定所述语音交互设备的交互模式，所述交互模式包括近场交互模式或者远场交互模式；/n根据当前所述交互模式，对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强，获得增强后的当前所述交互模式的交互语音。/n

【技术特征摘要】
1.一种语音增强处理方法，其特征在于，所述方法用于包含近场声音采集组件和远场声音采集组件的语音交互设备中，所述方法包括：
根据模式检测信号确定所述语音交互设备的交互模式，所述交互模式包括近场交互模式或者远场交互模式；
根据当前所述交互模式，对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强，获得增强后的当前所述交互模式的交互语音。

2.根据权利要求1所述的方法，其特征在于，所述根据当前所述交互模式，对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强，获得增强后的当前所述交互模式的交互语音，包括：
响应于所述交互模式包括所述近场交互模式，对所述近场声音采集组件采集到的声音信号进行语音增强，获得增强后的近场交互语音；
或者，
响应于所述交互模式包括所述远场交互模式，对所述远场声音采集组件采集到的声音信号进行语音增强，获得增强后的远场交互语音。

3.根据权利要求1所述的方法，其特征在于，所述模式检测信号包括所述近场声音采集组件采集到的第一声音信号，以及所述远场声音采集组件采集到的第二声音信号；
所述根据模式检测信号确定所述语音交互设备的交互模式，包括：
对第一声音信号进行语音检测；
获取所述第一声音信号的平均功率和所述第二声音信号的平均功率之间的功率比值；所述平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值；
响应于所述第一声音信号中存在语音，且所述功率比值大于功率比值阈值，将所述交互模式确定为所述近场交互模式；
响应于所述第一声音信号中不存在语音，或者，响应于所述功率比值小于所述功率比值阈值，或者，响应于所述第一声音信号中不存在语音且所述功率比值小于所述功率比值阈值，将所述交互模式确定为所述远场交互模式。

4.根据权利要求1所述的方法，其特征在于，所述模式检测信号包括按键信号，所述按键信号用于指示指定按键是否接收到触发操作；
所述根据模式检测信号确定所述语音交互设备的交互模式，包括：
响应于所述按键信号指示所述指定按键接收到所述触发操作，将所述交互模式确定为所述近场交互模式；
响应于所述按键信号指示所述指定按键未接收到所述触发操作，将所述交互模式确定为所述远场交互模式。

5.根据权利要求2所述的方法，其特征在于，所述响应于所述交互模式包括所述近场交互模式，对所述近场声音采集组件采集到的声音信号进行语音增强，获得增强后的近场交互语音，包括：
响应于所述交互模式包括所述近场交互模式，确定声音信号相对于所述远场声音采集组件的方向；
根据所述方向对所述声音信号做波束形成，得到零陷波束；
将所述零陷波束作为噪声参考，对所述声音信号进行降噪获得所述增强后的近场交互语音。

6.根据权利要求5所述的方法，其特征在于，所述响应于所述交互模式包括所述近场交互模式，确定声音信号相对于所述远场声音采集组件的方向，包括：
通过到达时间差算法以所述近场声音采集组件采集到的所述声音信号为参考，确定所述声音信号相对于所述远场声音采集组件的方向。

7.根据权利要求2所述的方法，其特征在于，所述响应于所述交互模式包括所述远场交互模式，对所述远场声音采集组件采集到的声音信号进行语音增强，获得增强后的远场交互语音，包括：
通过远场语音信号增强算法，对所述声音信号进行降噪获得所述增强后的远场交互语音。

8.根据权利要求7所述的方法，其特征在于，通过远场语音信号增强算法，对所述声音信号进行降噪获得所述增强后的远场交互语音，包括：
通过波束形成、噪声抑制和自动增益控制中的至少一种方法对所述声音信号进行降噪获得所述增强后的远场交互语音。

9.根据权利要求2所述的方法，其特征在于，所述响应于所述交互模式包括所述远场交互模式，对所述远场声音采集组件采集到的声音信号进行语音增强，获得增强后的远场交互语音之后，还包括：
响应于确定所述嘈杂程度为嘈杂环境、存在非方向性噪音以及语音信号的质量小于第二阈值中的至少一个，则提示用户使用近场交互模式，所述嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

10.一种语音增强处理装置，其特征在于，所述装置由包含近场声音采集组件和远场声音采集组件的语音交互设备执行，所述装置包括：
模式确定模块，用于根据模式检测信号确定所述语音交互设备的交互模式，所述交互模式包括近场交互模式或者远场交互模式；

【专利技术属性】
技术研发人员：冯大航，陈孝良，常乐，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人