一种语音数据处理方法及装置制造方法及图纸

技术编号：21801320 阅读：31 留言：0更新日期：2019-08-07 11:04

本申请实施方式公开了一种语音数据处理方法及装置。所述方法包括：获取麦克风录制的语音数据；获取所述麦克风所处的麦克风箱体的特征信息；将所述麦克风箱体的所述特征信息混响至所述语音数据中。利用本申请的技术方案，一方面，可以降低获取远场语音数据的成本，另一方面，利用鲁棒性较高的远场语音数据进行远场语音模型训练，可以获取具有较高准确性的远场语音模型，该远场语音模型对于后续的远场语音识别具有重要的意义。

A Method and Device for Speech Data Processing

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据处理方法及装置
本申请涉及语音识别
，特别涉及一种语音数据处理方法处理方法及装置。
技术介绍
近年来，语音识别技术取得显著进步，已经逐渐从实验室走向市场。典型地，语音识别技术已经在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域中广泛应用。语音识别技术所涉及的
比较复杂，其中包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。远场语音识别技术是语音识别领域中的重要技术，目的在于能够在远距离条件下(通常是1m-5m)让机器识别人的语音。远场语音识别技术在智能家居(如智能音箱、智能电视等)、会议转录等场景都有重要的应用。由于真实环境中存在大量的噪声、多径反射和混响等干扰，导致拾取的语音信号质量较低。因此，通常情况下远场语音识别的准确率与近场语音识别相比会有大幅下降。基于此，在远场语音识别中，可以利用大量的远场语音数据进行模型训练以提高语音识别的准确率。在对远场语音识别进行模型训练的过程中，通常采用麦克风阵列的方式收集语音数据。但是，受设备、场地等因素的影响，录制远场语音数据比录制近场语音数据成本更高，大量的真实远场语音数据通常不易获得。因此，现有技术中，在对远场语音识别进行模型训练的过程中，可以利用近场语音数据模拟产生远场语音数据。利用近场语音数据模拟产生远场语音数据的目的在于使得模拟产生的远场语音数据与真实远场语音数据相接近，从而更好地进行模型训练。但是，现有技术中训练得到的远场语音模型往往与真实的远场语音场景有较大的偏差。因此，现有技术中亟需一种能够模拟真实远场语音场景的语音数据处理技术。专利...

【技术保护点】
1.一种语音数据处理方法，其特征在于，所述方法包括：获取麦克风录制的语音数据；确定所述麦克风所处的麦克风箱体的特征信息；将所述麦克风箱体的所述特征信息混响至所述语音数据中。

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，所述方法包括：获取麦克风录制的语音数据；确定所述麦克风所处的麦克风箱体的特征信息；将所述麦克风箱体的所述特征信息混响至所述语音数据中。2.根据权利要求1所述的方法，其特征在于，所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括：根据所述特征信息，确定所述麦克风箱体对所述麦克风的冲击响应信息；将所述冲击响应信息与所述语音数据进行卷积处理。3.根据权利要求1所述的方法，其特征在于，所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括：获取所述麦克风箱体之外的背景环境对所述麦克风的冲击响应信息；将所述背景环境对所述麦克风的冲击响应信息与所述语音数据进行卷积处理，生成初步处理语音数据；根据所述特征信息，确定所述麦克风箱体对所述麦克风的冲击响应信息；将所述初步处理语音数据与所述麦克风箱体对所述麦克风的冲击响应信息进行卷积处理。4.根据权利要求3所述的方法，其特征在于，所述背景环境包括下述中的至少一种：所述麦克风所在建筑物的特征信息；所述麦克风的位置信息；所述麦克风周围的点源噪声；等方向性噪声。5.根据权利要求1所述的方法，其特征在于，所述麦克风箱体的所述特征信息包括下述中的至少一种：大小、结构、材质。6.根据权利要求2所述的方法，其特征在于，所述根据所述特征信息，确定所述麦克风箱体对所述麦克风的冲击响应信息包括：利用测试麦克风接收测试信号，所述测试麦克风设置于具有所述特征信息的麦克风箱体中；根据所述测试信号计算得到所述麦克风箱体对所述麦克风的冲击响应信息。7.根据权利要求2所述的方法，其特征在于，所述根据所述特征信息，确定所述麦克风箱体对所述麦克风的冲击响应信息包括：从麦克风箱体的特征信息与麦克风箱体中麦克风冲击响应信息之间的关联关系数据源中获取具有所述特征信息的麦克风箱体对麦克风的冲击响应信息；其中，所述关联关系数据源按照下述方式获取：设置多个具有不同预设特征信息的麦克风箱体，所述麦克风箱体中设置有麦克风；通过测试方式分别获取所述多个麦克风箱体中麦克风的冲击响应信息；将所述多个麦克风箱体中麦克风的冲击响应信息进行拟合处理，生成麦克风箱体的特征信息与麦克风箱体中麦克风冲击响应信息之间的关联关系。8.一种语音数据处理方法，其特征在于，所述方法包括：获取由多个麦克风组成的麦克风阵列录制的语音数据；分别获取所述麦克风所处的麦克风箱体的特征信息；将所述麦克风箱体的所述特征信息混响至所述语音数据中。9.根据权利要求8所述的方法，其特征在于，所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括：分别根据所述特征信息，确定所述麦克风箱体对所对应麦克风的冲击响应信息；将所述冲击响应信息与所述麦克风录制的语音数据进行卷积处理。10.根据权利要求8所述的方法，其特征在于，所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括：分别获取所述麦克风箱体之外的背景环境对所对应麦克风的冲击响应信息；将所述背景环境对所述麦克风的冲击响应信息与所述麦克风录制的语音数据进行卷积处理，生成初步处理语音数据；分别根据所述特征信息，确定所述麦克风箱体对所述麦克风的冲击响应信息；分别将所述初步处理语音数据与所述麦克风箱体对所述麦克风的冲击响应信息进行卷积处理。11.根据权利要求10所述的方法，其特征在于，所述背景环境包括下述中的至少一种：所述多个麦克风所在建筑物的特征信息；所述多个麦克风的位置信息；所述麦克风阵列的布局；所述麦克风阵列周围的点源噪声；等方向性噪声。12.一种语音数据处理装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：获取麦克风录制的语音数据；确定所述麦克风所处的麦克风箱体的特征信息；将所述麦克风箱体的所述特征信息混响至所述语音数据中。13.根据权利要求1...

【专利技术属性】
技术研发人员：薛少飞，田彪，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人