多通道带噪语音的生成方法及系统技术方案

技术编号：20921918 阅读：24 留言：0更新日期：2019-04-20 10:50

本发明专利技术实施例提供一种多通道带噪语音的生成方法。该方法包括：接收用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；对各音频计算各预设场景内的混响，与各音频根据远场衰减后的直达音频叠加，确定混响环境下的远场单通道纯语音音频集合；根据采集噪音的第二录音设备的相位延迟函数，将远场单通道纯语音音频集合模拟为第二录音设备录制的远场多通道纯语音音频集合；对其进行混音处理，批量生成远场多通道带噪语音音频。本发明专利技术实施例还提供一种多通道带噪语音的生成系统。本发明专利技术实施例对普通设备录制的音频适配调整，降低了唤醒词训练中对录音设备配置需求，人员无需到录音现场录音，提高了多通道带噪语音的收集效率。

Generation Method and System of Multichannel Noisy Speech

The embodiment of the present invention provides a method for generating multi-channel noisy speech. The method includes: receiving the near-field single-channel pure voice audio set recorded by the first recording device for collecting wake-up words in a quiet environment; calculating the reverberation in each preset scene for each audio, superimposing the direct audio after the far-field attenuation with each audio, determining the far-field single-channel pure voice audio set in the reverberation environment; and according to the phase of the second recording device for collecting noise. The delay function simulates the far-field single-channel pure voice audio set as the far-field multi-channel pure voice audio set recorded by the second recording device, and mixes it to produce the far-field multi-channel noisy voice audio in batches. The embodiment of the present invention also provides a multi-channel noisy speech generation system. The embodiment of the present invention adapts and adjusts the audio recorded by common equipment, reduces the requirement for the configuration of recording equipment in wake-up word training, eliminates the need for personnel to record on-site recording, and improves the collection efficiency of multi-channel noisy voice.

全部详细技术资料下载

【技术实现步骤摘要】
多通道带噪语音的生成方法及系统
本专利技术涉及唤醒词定制领域，尤其涉及一种多通道带噪语音的生成方法及系统。
技术介绍
唤醒词定制需要获取大量的带噪语音音频，需要把录音设备放置在噪声环境中，同时需要人员在一定距离说出唤醒词，通过录音设备录制多通道的带噪语音数据。改进版的唤醒词定制中，首先需要在录音设备旁边放置环境噪声源，录音设备录制纯噪声的多通道音频数据，然后再录制安静环境下的人员在一定距离说出的唤醒词，作为多通道纯语音数据，最后，将纯噪声的多通道音频数据和多通道纯语音数据按照一定方式进行混音，得到多通道带噪语音数据。传统唤醒词定制同时录制人声和噪声，人员需要在不同噪声场景进行多次录制。而改进版唤醒词定制可分开录制人声和噪声，且噪声和人声通过混音而得到多通道带噪语音，人员只需要在安静场景进行一次录制，即可得到人员在不同噪声场景下的带噪语音。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：对特定设备的唤醒词定制通常需要上百数量的录音人数，一般的唤醒词定制项目要求带噪语音在较短的时间内收集完毕，由于带噪语音的音质、参数等需求，需要人员到达录音现场进行集...

【技术保护点】
1.一种多通道带噪语音的生成方法，包括：接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响，并与所述近场单通道纯语音音频集合内各音频根据远场衰减后的直达音频进行叠加，确定混响环境下的远场单通道纯语音音频集合；根据用于采集噪音的第二录音设备内的各麦克风之间的相位延迟函数，将所述远场单通道纯语音音频集合模拟为所述第二录音设备录制的远场多通道纯语音音频集合；将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理，批量生成远场多通道带噪语音音频。

【技术特征摘要】
1.一种多通道带噪语音的生成方法，包括：接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响，并与所述近场单通道纯语音音频集合内各音频根据远场衰减后的直达音频进行叠加，确定混响环境下的远场单通道纯语音音频集合；根据用于采集噪音的第二录音设备内的各麦克风之间的相位延迟函数，将所述远场单通道纯语音音频集合模拟为所述第二录音设备录制的远场多通道纯语音音频集合；将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理，批量生成远场多通道带噪语音音频。2.根据权利要求1所述的方法，其中，在对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响之前，包括：对所述近场单通道纯语音音频集合内的各音频进行筛选；当检测到至少一个音频所对应的录音设备型号不属于预设有效机型时，从所述近场单通道纯语音音频集合中丢弃所述至少一个音频。3.根据权利要求1所述的方法，其中，所述近场单通道纯语音音频集合由所述至少一个第一录音设备使用相同的录音软件录制获得。4.根据权利要求1所述的方法，其中，所述将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理包括：根据信噪比调节所述多通道纯噪声音频集合内各噪声音频的幅值；按照所述各噪声音频的幅值，将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音。5.一种多通道带噪语音的生成系统，包括：近场单通道纯语音接收程序模块，用于接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；远场单通道纯语音确定程序模块，用于对所述近场单通道纯语音音频集合内的各音频计算各预设场景内...

【专利技术属性】
技术研发人员：孙海涛，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人