远场语音识别模型的训练方法和装置制造方法及图纸

技术编号：16758046 阅读：33 留言：0更新日期：2017-12-09 03:26

本发明专利技术公开了一种远场语音识别模型的训练方法和装置，其中，远场语音识别模型的训练方法包括：获取近场语音数据集；从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频；将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征；将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，近场语音数据集中的近场语音数据与获取远场语音数据时使用的近场语音数据不同；以及基于混叠后的语音特征数据训练远场语音识别模型。本发明专利技术实施例的远场语音识别模型的训练方法，能够有效地提升远场语音识别模型的泛化能力，提高语音识别准确率。

The training method and device of the far field speech recognition model

The invention discloses a far-field speech recognition model training method and device, which comprises a speech recognition model training method of far field: acquiring the near-field voice data set; from the near-field voice data concentrated near field draw a predetermined voice data quantity, and the re recorded near-field voice data obtained from audio; audio in the far-field is cut into a plurality of far-field speech segments, and extract the far-field characteristics of far field speech speech segments; the near-field speech features near field voice data voice characteristics of the far field and the near field voice data concentrated on the extraction to a preset proportion of aliasing, near-field near-field voice data the voice data acquisition and centralized voice data using near-field far-field speech data is different; and based on far-field speech recognition model of speech feature data aliasing after training. The training method of the far-field speech recognition model in the embodiment of the invention can effectively improve the generalization ability of the far-field speech recognition model and improve the accuracy of speech recognition.

全部详细技术资料下载

【技术实现步骤摘要】
远场语音识别模型的训练方法和装置
本专利技术涉及信息处理
，尤其涉及一种远场语音识别模型的训练方法和装置。
技术介绍
随着科技的不断进步，语音识别技术已成为进入智能化时代的一个标志性技术。通过语音识别技术，智能终端可以与人们进行智能的通话、问答等，大大地方便了用户。目前，近场语音识别技术已经基本成熟，远场语音识别的需求也在不断的增加。但是远场语音数据对场景以及周围录音环境都有诸多要求(混响、噪声)，且不易采集，因此很难训练出高效的识别模型，识别准确率低。
技术实现思路
本专利技术提供一种远场语音识别模型的训练方法和装置，以解决上述技术问题中的至少一个。本专利技术实施例提供一种远场语音识别模型的训练方法，包括：获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近...
远场语音识别模型的训练方法和装置

【技术保护点】
一种远场语音识别模型的训练方法，其特征在于，包括：获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近场语音数据与获取所述远场语音数据时使用的近场语音数据不同；以及基于混叠后的语音特征数据训练远场语音识别模型。

【技术特征摘要】
1.一种远场语音识别模型的训练方法，其特征在于，包括：获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近场语音数据与获取所述远场语音数据时使用的近场语音数据不同；以及基于混叠后的语音特征数据训练远场语音识别模型。2.如权利要求1所述的方法，其特征在于，采用重录所述近场语音数据的方式获取远场音频，包括：将所述预定数量的近场语音数据合并成一段能够连续播放的音频数据；通过播放设备播放所述音频数据，同时通过信号采集设备录制所述音频数据，以生成所述远场音频。3.如权利要求2所述的方法，其特征在于，所述播放设备与所述信号采集设备之间的距离，根据场景的不同进行相应的设置。4.如权利要求2所述的方法，其特征在于，所述信号采集设备为多个，多个所述信号采集设备与所述播放设备之间的距离为等差数列。5.如权利要求2所述的方法，其特征在于，所述播放设备播放所述音频数据时的音量与场景相关。6.如权利要求2所述的方法，其特征在于，在通过信号采集设备录制所述音频数据，以生成远场音频之后，还包括：对所述远场音频进行校准对齐。7.如权利要求6所述的方法，其特征在于，对所述远场音频进行校准对齐，包括：获取所述远场音频的起止点，并根据所述起止点对所述远场音频进行截取；将截取后的所述远场音频与播放的音频数据进行对齐。8.一种远场语音识别模型的训练装置，其特征在于，包括：获取模块，用于获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；录音模块，用于从所述近场语音数据集中抽取预定...

【专利技术属性】
技术研发人员：孙建伟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人