用于远场语音识别的训练数据准备系统及方法技术方案

技术编号：16271429 阅读：183 留言：0更新日期：2017-09-22 23:00

本发明专利技术提供了一种用于远场语音识别的训练数据准备系统，包括：多个录音设备，分别用于录取音频信号；检测设备，用于检测第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻；以及，处理设备，用于处理所述开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成其他录音设备的标注内容；其中，所述第一、二音频信号分别为在录音开始时、录音结束时录音设备录取的音频信号。本发明专利技术还提供了一种用于远场语音识别的训练数据准备方法。本发明专利技术实现了多台录音设备数据自动对齐，提高了远场录音设备标注精度，避免了重复标注，减少了人力成本，极大的提高了效率。

Training data preparation system and method for far field speech recognition

The present invention provides a method for the far field of speech recognition training data preparation system, which comprises: a plurality of recording devices, respectively for admission audio signal; detection device for detecting the first audio signal and a second audio signal and determines the recording device recording start time and end time; and, processing equipment, processing for the the start time, end time, determine the sampling ratio of recording equipment, and then according to the label content a recording device, label content generation other recording devices; wherein, the first, second audio signal respectively recording audio signal at the end of the recording equipment admitted at the start of the recording. The invention also provides a training data preparation method for far field speech recognition. The invention realizes the automatic alignment of data of a plurality of recording equipment, improves the marking accuracy of the far field recording equipment, avoids repeated labeling, reduces labor cost and greatly improves efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
用于远场语音识别的训练数据准备系统及方法
本专利技术涉及语音识别
，尤其涉及一种用于远场语音识别的训练数据准备系统及方法。
技术介绍
近年来，基于深度神经元网络的语音识别技术已经越来越成熟，该技术需要利用大量的语音数据训练深度神经元网络从而获取声学模型。因此训练数据的好坏直接影响语音识别的准确率。伴随着各种智能设备的兴起，远场语音识别的需求也越来越强烈，为了提高远场语音识别准确率，需要利用远场语音来训练声学模型，因此远场语音识别数据的准备就变的非常重要。在录取远场语音数据时，为了减少录制人工成本并且同时获得更多有效数据，一般在录取语音时，在说话人的周围不同距离处，放上多台录音设备，这样说话人只需要说一次，就可以获得各个距离处的多份数据。但在房间中，由于混响以及干扰噪声的存在，麦克风距离说话人越远，采集到语音数据的信噪比越低；并且多台设备的采样率会有微小差异，当录取时间较长时，各台录音设备收集到的数据是没办法对齐的，这就给后期的语音标注增加了很大的工作量及难度。
技术实现思路
(一)要解决的技术问题鉴于上述技术问题，本专利技术提供了一种用于远场语音识别的训练数据准...
用于远场语音识别的训练数据准备系统及方法

【技术保护点】
一种用于远场语音识别的训练数据准备系统，包括：多个录音设备，分别用于录取音频信号；检测设备，用于检测各录音设备所录取的音频信号中的所述第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻；以及，处理设备，用于处理所述开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成其他录音设备的标注内容；其中，所述第一音频信号为在录音开始时，录音设备接收并录取到的一音频信号，所述第二音频信号为在录音结束时，录音设备接收并录取到的一音频信号。

【技术特征摘要】
1.一种用于远场语音识别的训练数据准备系统，包括：多个录音设备，分别用于录取音频信号；检测设备，用于检测各录音设备所录取的音频信号中的所述第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻；以及，处理设备，用于处理所述开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成其他录音设备的标注内容；其中，所述第一音频信号为在录音开始时，录音设备接收并录取到的一音频信号，所述第二音频信号为在录音结束时，录音设备接收并录取到的一音频信号。2.根据权利要求1所述的用于远场语音识别的训练数据准备系统，其中，所述第一音频信号和第二音频信号为自相关性chirp信号、谐频信号或三角波信号。3.一种用于远场语音识别的训练数据准备方法，包括：步骤A、录音结束后，分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻；步骤B、根据各录音设备所录的音频文件的开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据其中一台录音设备的标注内容，生成所有录音设备的标注内容；其中，所述第一音频信号为在录音开始时，录音设备接收并录取到的一音频信号，所述第二音频信号为在录音结束时，录音设备接收并录取到的一音频信号。4.根据权利要求3所述的用于远场语音识别的训练数据准备方法，其中，所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。5.根据权利要求4所述的用于远场语音识别的训练数据准备方法，其中，所述第一音频信号和第二音频信号均为chirp信号，其满足以下表达式：x(t)＝Acos(2π(f0+kt)+φ0)式中，A表示chirp信号的幅度，f0表示chirp信号的起始频率，k表示chirp信号的频率变化率，φ0表示chirp信号的相位。6.根据权利要求5所述的用于远场语音识别的训练数据准备方法，其中，所述第一音频信号的参数满足：f0为2000Hz，k为0.75；所述第二音频信...

【专利技术属性】
技术研发人员：冯大航，陈孝良，陈日林，朱振岭，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人