语音识别方法及装置、计算机可存储介质制造方法及图纸

技术编号:22566704 阅读:38 留言:0更新日期:2019-11-16 12:44
本公开涉及语音识别方法及装置、计算机可存储介质。语音识别方法包括:获取与不同采样率的待训练音频对应的第一线性频谱;确定不同采样率中的最大采样率和其他采样率;将与其他采样率和最大采样率分别对应的第一线性频谱的最大频域序号确定为第一频域序号和第二频域序号;在与其他采样率对应的第一线性频谱中,将与大于第一频域序号、且小于或等于第二频域序号的每个频域序号对应的幅度值设置为零,得到与其他采样率对应的第二线性频谱;分别根据与最大采样率对应的第一线性频谱的第一梅尔谱特征和与其他采样率对应的第二线性频谱的第二梅尔谱特征,确定第一语音特征和第二语音特征;利用第一语音特征和第二语音特征,训练机器学习模型。

Speech recognition method and device, computer storage medium

The invention relates to a speech recognition method and device, and a computer storage medium. The speech recognition method includes: obtaining the first linear spectrum corresponding to the audio to be trained with different sampling rates; determining the maximum sampling rate and other sampling rates in different sampling rates; determining the maximum frequency domain sequence number of the first linear spectrum corresponding to other sampling rates and maximum sampling rates as the first frequency domain sequence number and the second frequency domain sequence number; and determining the first linear spectrum corresponding to other sampling rates In the spectrum, set the amplitude value corresponding to each frequency domain sequence number greater than the first frequency domain sequence number and less than or equal to the second frequency domain sequence number to zero to obtain the second linear spectrum corresponding to other sampling rates; respectively, according to the first Mel spectrum characteristics of the first linear spectrum corresponding to the maximum sampling rate and the second Mel spectrum characteristics of the second linear spectrum corresponding to other sampling rates, confirm The first speech feature and the second speech feature are determined, and the machine learning model is trained by using the first speech feature and the second speech feature.

【技术实现步骤摘要】
语音识别方法及装置、计算机可存储介质
本公开涉及机器学习领域,特别涉及语音识别方法及装置、计算机可存储介质。
技术介绍
近年来,随着人工智能技术的高速发展,智能客服系统已经在电商、物流、金融等多项服务领域获得了广泛应用。ASR(AutomaticSpeechRecognition,自动语音识别)是智能客服系统的核心技术之一,该技术旨在将用户的语音信号转为文本信息,以便用于后续的自然语言处理。因此,准确、实时的ASR是保障智能客服系统准确进行客户意图理解和服务应答的重要前提。然而,在实际的智能客服场景下,待识别的音频中可能存在口音、方言、背景噪声干扰等多种复杂因素,给高准确率的语音识别带来巨大挑战。针对智能客服场景的语音识别问题,传统方法通常将语音识别的机器学习任务分解为多个串行的子模型,也即前一个模型的输出是后一个模型的输入,这些串行的子模型包括声学模型、发音词典模型、语言模型。通过分别对每个模型进行设计、数据标注、训练,获得最终的机器学习模型结果。然而,该方法的主要存在以下两点问题。首先,每一个子模型的训练均需要大量的标注数据,子模型越多,标注数据的时间和人力成本越高。其次,采用多个子模型的串行模型,非常容易导致模型误差的累积传递,例如每个子模型的准确率是90%,三个子模型串行使用的准确率将是0.9×3=72.9%,严重制约了最终的机器学习模型的应用效果。随着DL(DeepLearning,深度学习)技术的高速发展,基于端到端的DNN(DeepNeuralNetwork,深度神经网络)的机器学习模型相比于传统的串行模型的性能获得了显著的提升。基于DNN的语音识别仅采用一个机器学习模型,输入端为语音音频数据,输出端为文字识别结果。该类模型有效解决了的传统机器学习模型中的子模型设计成本高、多模型数据标注成本高和模型误差串行累积导致的识别准确率低等问题。目前,基于DNN的机器学习模型的框架主要包括CTC(ConnectionistTemporalClassification,连接时间分类)框架,LAS(ListenAttentionSpell,听力、注意力机制、拼写)框架和RNNT(RecurrentNeuralNetworkTransducer,循环神经网络转写)框架,后续的基于DNN的机器学习模型的结构,均是在这三种框架的基础之上演变获得。由于利用机器学习模型进行语音识别的网络结构通常较大,因此大规模的音频数据及标注数据是训练一个好的语音识别模型的重要前提。与获取图像、文本等数据相比,由于音频数据涉及隐私、版权等信息,通常难以轻易获得大规模的音频数据。另外,需要人工听取至少一遍音频数据才能完成音频数据的标注,标注成本高。而训练数据是深度学习领域中影响机器学习模型的准确率最为重要的因素之一。能否获得大规模的音频数据对机器学习的语音识别的最终性能起着决定性的作用。但是,由于音频的语音信号的采集设备不同,采样率通常也不一致,而不同采样率的音频的语音信号难以同时用于机器学习模型的训练。传统的机器学习模型均采用某一种单一采样率的音频数据,训练并获得该采样率下的机器学习模型。由于不同采样率的音频数据的语音特征分布不同,在某一个语音特征分布下训练得到的机器学习模型,往往难以有效应用于其他语音特征分布。并且,由于不同设备采集的音频数据的往往存在一定的差异,容易出现利用某一类采用率语音数据训练获得的模型,对另一类采样率语音数据识别效果较差的现象。因此,采用某一采样率的音频数据训练得到的机器学习模型,往往对其他采样率音频数据的识别效果较差。为了能够利用更大规模的音频数据对机器学习模型进行训练,相关的语音识别技术是对不同采样率的音频数据进行降采样或者升采样,使得不同采样率变换到相同采样率后,再提取音频数据的语音特征,进而利用提取到的语音特征训练机器学习模型。
技术实现思路
专利技术人认为:相关的语音识别技术中,降采样会损失大量的原始音频数据信息,升采样则会插入其他音频数据信息,无法准确提取不同采样率的音频数据的原始语音特征,从而机器学习模型的语音识别性能难以提升。针对上述技术问题,本公开提出了一种解决方案,可以准确地提取不同采样率的音频数据的原始语音特征,从而提升机器学习模型的语音识别性能。根据本公开的第一方面,提供了一种语音识别方法,包括:获取与不同采样率的待训练音频对应的第一线性频谱,所述第一线性频谱的横坐标为频谱序列序号,纵坐标为频域序号,横坐标和纵坐标确定的坐标点的值为与所述待训练音频对应的原始幅度值;确定所述不同采样率中的最大采样率和除所述最大采样率以外的其他采样率;确定与所述其他采样率对应的第一线性频谱的最大频域序号为第一频域序号;确定与所述最大采样率对应的第一线性频谱的最大频域序号为第二频域序号;在与所述其他采样率对应的第一线性频谱中,将与大于所述第一频域序号、且小于或等于所述第二频域序号的每个频域序号对应的幅度值设置为零,得到与所述其他采样率对应的第二线性频谱;根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征;根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征;利用所述第一语音特征和所述第二语音特征,训练机器学习模型。在一些实施例中,根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征包括:对所述第一梅尔谱特征进行全局归一化处理得到所述第一语音特征;根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征包括:对所述第二梅尔谱特征进行局部归一化处理得到所述第二语音特征。在一些实施例中,所述局部归一化处理包括:根据与所述其他采样率的音频对应的最大线性频谱频率,获取与所述最大线性频谱频率对应的梅尔谱频率;计算与所述梅尔谱频率对应的最大梅尔滤波器序号;获取所述第二梅尔谱特征中的、与每个其他梅尔滤波器序号对应的第一幅度值,所述其他梅尔滤波器序号为小于或等于所述最大梅尔滤波器序号的梅尔滤波器序号;分别计算所述各个第一幅度值的均值和标准差,作为局部均值和局部标准差;计算每个第一幅度值与所述局部均值的第一差值;计算每个第一差值与所述局部标准差的比值,作为与每个第一幅度值对应的归一化后的第一幅度值;将所述第二梅尔谱特征中的每个第一幅度值替换为与每个第一幅度值对应的归一化后的第一幅度值。在一些实施例中,所述全局归一化处理包括:获取所述第一梅尔谱特征中的、与每个梅尔滤波器序号对应的第二幅度值;计算所述各个第二幅度值的均值和标准差,作为全局均值和全局标准差;计算每个第二幅度值与所述全局均值的第二差值;计算每个第二差值与所述全局标准差的比值,作为与每个第二幅度值对应的归一化后的第二幅度值;将所述第一梅尔谱特征中的每个第二幅度值替换为与每个第二幅度值对应的归一化后的第二幅度值。在一些实施例中,获取与不同采样率的音频对应的第一线性频谱包括:利用短时傅立叶变换,分别获本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,包括:/n获取与不同采样率的待训练音频对应的第一线性频谱,所述第一线性频谱的横坐标为频谱序列序号,纵坐标为频域序号,横坐标和纵坐标确定的坐标点的值为与所述待训练音频对应的原始幅度值;/n确定所述不同采样率中的最大采样率和除所述最大采样率以外的其他采样率;/n确定与所述其他采样率对应的第一线性频谱的最大频域序号为第一频域序号;/n确定与所述最大采样率对应的第一线性频谱的最大频域序号为第二频域序号;/n在与所述其他采样率对应的第一线性频谱中,将与大于所述第一频域序号、且小于或等于所述第二频域序号的每个频域序号对应的幅度值设置为零,得到与所述其他采样率对应的第二线性频谱;/n根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征;/n根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征;/n利用所述第一语音特征和所述第二语音特征,训练机器学习模型。/n

【技术特征摘要】
1.一种语音识别方法,包括:
获取与不同采样率的待训练音频对应的第一线性频谱,所述第一线性频谱的横坐标为频谱序列序号,纵坐标为频域序号,横坐标和纵坐标确定的坐标点的值为与所述待训练音频对应的原始幅度值;
确定所述不同采样率中的最大采样率和除所述最大采样率以外的其他采样率;
确定与所述其他采样率对应的第一线性频谱的最大频域序号为第一频域序号;
确定与所述最大采样率对应的第一线性频谱的最大频域序号为第二频域序号;
在与所述其他采样率对应的第一线性频谱中,将与大于所述第一频域序号、且小于或等于所述第二频域序号的每个频域序号对应的幅度值设置为零,得到与所述其他采样率对应的第二线性频谱;
根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征;
根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征;
利用所述第一语音特征和所述第二语音特征,训练机器学习模型。


2.根据权利要求1所述的语音识别方法,其中,
根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征包括:
对所述第一梅尔谱特征进行全局归一化处理得到所述第一语音特征;
根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征包括:
对所述第二梅尔谱特征进行局部归一化处理得到所述第二语音特征。


3.根据权利要求2所述的语音识别方法,其中,所述局部归一化处理包括:
根据与所述其他采样率的音频对应的最大线性频谱频率,获取与所述最大线性频谱频率对应的梅尔谱频率;
计算与所述梅尔谱频率对应的最大梅尔滤波器序号;
获取所述第二梅尔谱特征中的、与每个其他梅尔滤波器序号对应的第一幅度值,所述其他梅尔滤波器序号为小于或等于所述最大梅尔滤波器序号的梅尔滤波器序号;
分别计算所述各个第一幅度值的均值和标准差,作为局部均值和局部标准差;
计算每个第一幅度值与所述局部均值的第一差值;
计算每个第一差值与所述局部标准差的比值,作为与每个第一幅度值对应的归一化后的第一幅度值;
将所述第二梅尔谱特征中的每个第一幅度值替换为与每个第一幅度值对应的归一化后的第一幅度值。


4.根据权利要求2所述的语音识别方法,其中,所述全局归一化处理包括:
获取所述第一梅尔谱特征中的、与每个梅尔滤波器序号对应的第二幅度值;
计算所述各个第二幅度值的均值和标准差,作为全局均值和全局标准差;
计算每个第二幅度值与所述全局均值的第二差值;
计算每个第二差值与所述全局标准差的比值,作为与每个第二幅度值对应的归一化后的第二幅度值;
将所述第一梅尔谱特征中的每个第二幅度值替换为与每个第二幅度值对应的归一化后的第二幅度值。


5.根据权利要求1所述的语音识别方法,其中,获取与不同采样率的音频对应的第一线性频谱包括:
利用短时傅立叶变换,分别获取与不同采样率的音频对应的第一线性频谱。


6...

【专利技术属性】
技术研发人员:付立
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1