一种语音数据处理方法及装置制造方法及图纸

技术编号:21801320 阅读:31 留言:0更新日期:2019-08-07 11:04
本申请实施方式公开了一种语音数据处理方法及装置。所述方法包括:获取麦克风录制的语音数据;获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。利用本申请的技术方案,一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。

A Method and Device for Speech Data Processing

【技术实现步骤摘要】
一种语音数据处理方法及装置
本申请涉及语音识别
,特别涉及一种语音数据处理方法处理方法及装置。
技术介绍
近年来,语音识别技术取得显著进步,已经逐渐从实验室走向市场。典型地,语音识别技术已经在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域中广泛应用。语音识别技术所涉及的
比较复杂,其中包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。远场语音识别技术是语音识别领域中的重要技术,目的在于能够在远距离条件下(通常是1m-5m)让机器识别人的语音。远场语音识别技术在智能家居(如智能音箱、智能电视等)、会议转录等场景都有重要的应用。由于真实环境中存在大量的噪声、多径反射和混响等干扰,导致拾取的语音信号质量较低。因此,通常情况下远场语音识别的准确率与近场语音识别相比会有大幅下降。基于此,在远场语音识别中,可以利用大量的远场语音数据进行模型训练以提高语音识别的准确率。在对远场语音识别进行模型训练的过程中,通常采用麦克风阵列的方式收集语音数据。但是,受设备、场地等因素的影响,录制远场语音数据比录制近场语音数据成本更高,大量的真实远场语音数据通常不易获得。因此,现有技术中,在对远场语音识别进行模型训练的过程中,可以利用近场语音数据模拟产生远场语音数据。利用近场语音数据模拟产生远场语音数据的目的在于使得模拟产生的远场语音数据与真实远场语音数据相接近,从而更好地进行模型训练。但是,现有技术中训练得到的远场语音模型往往与真实的远场语音场景有较大的偏差。因此,现有技术中亟需一种能够模拟真实远场语音场景的语音数据处理技术。专利
技术实现思路
本申请实施方式的目的是提供一种语音数据处理方法及装置。一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。具体地,所述语音数据处理方法及装置是这样实现的:一种语音数据处理方法,所述方法包括:获取麦克风录制的语音数据;确定所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。一种语音数据处理方法,所述方法包括:获取由多个麦克风组成的麦克风阵列录制的语音数据;分别获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。一种语音数据处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:获取麦克风录制的语音数据;确定所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。一种语音数据处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:获取由多个麦克风组成的麦克风阵列录制的语音数据;分别获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述语音数据处理方法的步骤。本申请提供的语音数据处理方法及装置,可以获取设置有麦克风的麦克风箱体的特征信息,并基于所述特征信息,利用所述麦克风录制的近场语音数据模拟远场语音数据。由于具有不同特征的麦克风箱体对声波的影响不相同,利用本申请实施例提供的数据处理方法,可以将麦克风箱体对声波的影响融合至利用近场语音数据模拟远场语音数据的过程中,这样,利用近场语音数据模拟得到的远场语音数据更加接近于真实场景中的远场语音数据。一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。附图说明为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是声纹识别技术的基本原理图;图2是本申请提供的语音数据处理方法的一种实施例的方法流程图;图3是本申请提供的语音数据处理装置的一种实施例的模块结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。为了方便本领域技术人员理解本申请实施例提供的技术方案,下面首先通过图1对技术方案实现的技术环境进行说明。现有技术中,通常利用近场语音数据模拟远场语音数据,其中近场语音数据可以通过麦克风或者麦克风阵列等音频录制设备拾取。在利用近场语音数据模拟远场语音数据的过程中,可以获取在远场语音环境中周围环境因素对音频录制设备的冲击响应。现有技术中通常考虑到的周围环境因素可以包括建筑物空间大小、音频录制设备的空间位置等因素。当然,还可以考虑到影响到音频录制设备的等方向性背景噪声等。在一个示例中,对于单个麦克风录制的近场语音数据,可以利用下述表达式(1)模拟计算远场语音数据:y(t)=x(t)*hs(t)+n(t)(1)其中,y(t)为模拟产生的远场语音数据,x(t)为近场语音数据,hs(t)为由建筑物空间大小、音频录制设备位置等环境因素对所述音频录制设备所产生的冲击响应,n(t)为等方向性背景噪声。通过上述表达式(1)所示的远场语音数据的计算公式可以发现,在计算过程中,只考虑到建筑物空间大小、音频录制设备位置、背景噪声等环境因素对录制设备所产生的冲击响应。但是在实际的远场语音环境中,能够对录制的远场语音数据产生的环境因素远不止上述公式(1)中所体现的因素。因此,利用类似于上述公式(1)模拟计算得到的远场语音数据往往与真实场景中的远场语音数据不相符合。基于类似于上文所述的技术需求,本申请提供一种语音数据处理方法,该方法可以将影响远场语音环境中的多个其他环境因素融合至近场语音数据模拟远场语音数据的过程中,获取到鲁棒性更强的模拟远场语音数据。具体的,其中一个重要的环境因素可以包括麦克风所在麦克风箱体的特征信息。当然,本申请提供的语音数据处理技术不仅应用于利用语音数据模拟远场语音数据的场景中,还可以应用到例如语音识别等任何语音处理的场景中。下面通过一个具体的应用场景说明本申请提供的实施例方法,如图1所示,在录制语音数据的房间里,设置有由四个麦克风组成的麦克风阵列。在利用所述麦克风阵列录制完成语音数据之后,可以按照图1虚线框内的方式将所述语音数据模拟成远场语音数据。如图1所示的公式,y1(t)-y4(t)分别为模拟产生的第1-4个麦克风的远场语音数据,x(t)为录制的语音数据,hs1(t)-hs4(t)为建筑物特征信息、麦克风位置、麦克风布局等背景环境分别对第1-4个麦克风的冲击响应信息,hj1(t)-hj4(t)为麦克风阵列周围的点源噪声分别对第1-4个麦本文档来自技高网
...

【技术保护点】
1.一种语音数据处理方法,其特征在于,所述方法包括:获取麦克风录制的语音数据;确定所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:获取麦克风录制的语音数据;确定所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。2.根据权利要求1所述的方法,其特征在于,所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括:根据所述特征信息,确定所述麦克风箱体对所述麦克风的冲击响应信息;将所述冲击响应信息与所述语音数据进行卷积处理。3.根据权利要求1所述的方法,其特征在于,所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括:获取所述麦克风箱体之外的背景环境对所述麦克风的冲击响应信息;将所述背景环境对所述麦克风的冲击响应信息与所述语音数据进行卷积处理,生成初步处理语音数据;根据所述特征信息,确定所述麦克风箱体对所述麦克风的冲击响应信息;将所述初步处理语音数据与所述麦克风箱体对所述麦克风的冲击响应信息进行卷积处理。4.根据权利要求3所述的方法,其特征在于,所述背景环境包括下述中的至少一种:所述麦克风所在建筑物的特征信息;所述麦克风的位置信息;所述麦克风周围的点源噪声;等方向性噪声。5.根据权利要求1所述的方法,其特征在于,所述麦克风箱体的所述特征信息包括下述中的至少一种:大小、结构、材质。6.根据权利要求2所述的方法,其特征在于,所述根据所述特征信息,确定所述麦克风箱体对所述麦克风的冲击响应信息包括:利用测试麦克风接收测试信号,所述测试麦克风设置于具有所述特征信息的麦克风箱体中;根据所述测试信号计算得到所述麦克风箱体对所述麦克风的冲击响应信息。7.根据权利要求2所述的方法,其特征在于,所述根据所述特征信息,确定所述麦克风箱体对所述麦克风的冲击响应信息包括:从麦克风箱体的特征信息与麦克风箱体中麦克风冲击响应信息之间的关联关系数据源中获取具有所述特征信息的麦克风箱体对麦克风的冲击响应信息;其中,所述关联关系数据源按照下述方式获取:设置多个具有不同预设特征信息的麦克风箱体,所述麦克风箱体中设置有麦克风;通过测试方式分别获取所述多个麦克风箱体中麦克风的冲击响应信息;将所述多个麦克风箱体中麦克风的冲击响应信息进行拟合处理,生成麦克风箱体的特征信息与麦克风箱体中麦克风冲击响应信息之间的关联关系。8.一种语音数据处理方法,其特征在于,所述方法包括:获取由多个麦克风组成的麦克风阵列录制的语音数据;分别获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。9.根据权利要求8所述的方法,其特征在于,所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括:分别根据所述特征信息,确定所述麦克风箱体对所对应麦克风的冲击响应信息;将所述冲击响应信息与所述麦克风录制的语音数据进行卷积处理。10.根据权利要求8所述的方法,其特征在于,所述将所述麦克风箱体的所述特征信息混响至所述语音数据中包括:分别获取所述麦克风箱体之外的背景环境对所对应麦克风的冲击响应信息;将所述背景环境对所述麦克风的冲击响应信息与所述麦克风录制的语音数据进行卷积处理,生成初步处理语音数据;分别根据所述特征信息,确定所述麦克风箱体对所述麦克风的冲击响应信息;分别将所述初步处理语音数据与所述麦克风箱体对所述麦克风的冲击响应信息进行卷积处理。11.根据权利要求10所述的方法,其特征在于,所述背景环境包括下述中的至少一种:所述多个麦克风所在建筑物的特征信息;所述多个麦克风的位置信息;所述麦克风阵列的布局;所述麦克风阵列周围的点源噪声;等方向性噪声。12.一种语音数据处理装置,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:获取麦克风录制的语音数据;确定所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。13.根据权利要求1...

【专利技术属性】
技术研发人员:薛少飞田彪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1