【技术实现步骤摘要】
一种远场语音识别模型训练方法及装置
本专利技术涉及远场语音识别领域,具体涉及一种远场语音识别模型训练方法、装置、电子设备及存储设备。本专利技术同时涉及一种远场语音识别方法、装置、电子设备及存储设备。
技术介绍
随着人工智能技术的不断发展,人们越来越致力于使机器听懂人类的话语指令,并希望通过语音实现对机器的控制,从而极大的方便人们的生产和生活,在研究和探索语音识别技术过程中,针对语音识别的各个流程进行了各种尝试和改造。作为一项人机交互的关键技术,语音识别在过去几十年里取得了飞速的发展,应用于语音识别的远场语音识别模型在算法和构建上也愈发成熟,但是,目前的远场语音识别对环境的依赖性较强,距离较远带来的环境噪声影响,也使得语音识别的准确性严重下降。为了解决上述问题,本领域中常用的远场语音识别模型是DNN或LSTM识别模型,利用麦克风阵列进行远场多通道数据的采集,然后通过解混响、Beamforming对远场多通道数据进行处理,得到单通道的语音数据,再将单通道语音数据发送到传统的语音识别模块DNN或LSTM进行识别。该远场语音 ...
【技术保护点】
1.一种远场语音识别模型训练方法,其特征在于,包括:/n将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;/n将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;/n将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;/n将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。/n
【技术特征摘要】
1.一种远场语音识别模型训练方法,其特征在于,包括:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
2.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,还包括:
将所述单通道原始语音数据和所述模拟的多通道远场语音数据作为训练样本,训练远场语音识别模型。
3.根据权利要求1或2所述的远场语音识别模型训练方法,其特征在于,所述单通道原始语音数据为单通道近场语音数据,包括:
在预设的语音数据能量范围内,通过随机调整所述单通道近场语音数据能量值,获得多条第一单通道近场语音数据,将所述第一单通道近场语音数据作为所述单通道原始语音数据;和/或,
在预设的语音数据速率范围内,通过随机调整所述单通道近场语音数据速率值,获得多条第二单通道近场语音数据,将所述第二单通道近场语音数据作为所述单通道原始语音数据。
4.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
5.根据权利要求4所述的远场语音识别模型训练方法,其特征在于,所述参数包括线性降噪系数和非线性降噪系数中的至少一种类型的参数。
6.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,具体包括:
选择一个房间类型中的多通道冲激响应,载入所述单通道原始语音数据和单通道噪音数据;
根据预设的多通道远场语音数据信噪比,调整所述单通道原始语音数据的能量和单通道噪音数据的能量,获得所述模拟的多通道远场语音数据。
7.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述第一单通道远场数据包含所述模拟的多通道远场语音数据通过拆分获得的多条单通道远场语音数据。
8.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:
将所述第一单通道的远场语音数据和所述不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至所述远场语音识别模型中,获得识别结果;
将所述识别结果与所述训练样本进行比对,获得比对结果,根据所述比对结果对所述远场语音识别模型进行调整。
9.一种远场语音识别方法,其特征在于,包括:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
10.根据权利要求9所述的远场语音识别方法,其特征在于,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
11.根据权利要求9所述的远场语音识别方法,其特征在于,所述将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据,具体包括:
从预设的多组降噪参数中获得最优降噪参数,在最优降噪参数下,对所述待识别的多通道的远场数据进行降噪处理,获得所述最优降噪参数下的单通道远场语音数据。
12.一种远场语音识别模型训练装置,其特征在于,包括:
模拟单元,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
拆分单元,将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
处理单元,将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
第一训练单元,将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
13.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,还包括:
第二训练单元,用于将所述单通道原始语音数据和所述模拟的多通道远场语音数据作为训练样本,训练远场语音识别模型。
14.根据权利要求12或13所述的远场语音识别模型训练装置,其特征在于,所述单通道原始语音数据为单通道近场语音数据,包括:
在预设的语音数据能量范围内,通过随机调整所述单通道近场语音数据能量值,获得多条第一单通道近场语音数据,将所述第一单通道近场语音数据作为所述单通道原始语音数据;和/或,
在预设的语音数据速率范围内,通过随机调整所述单通道近场语音数据速率值,获得多条第二单通道近场语音数据,将所述第二单通道近场语音数据作为所述单通道原始语音数据。
15.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,所述将所述模拟的多通道远场语音数...
【专利技术属性】
技术研发人员:薛少飞,刘章,余涛,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。