The invention relates to a speech recognition method and device, and a computer storage medium. The speech recognition method includes: obtaining the first linear spectrum corresponding to the audio to be trained with different sampling rates; determining the maximum sampling rate and other sampling rates in different sampling rates; determining the maximum frequency domain sequence number of the first linear spectrum corresponding to other sampling rates and maximum sampling rates as the first frequency domain sequence number and the second frequency domain sequence number; and determining the first linear spectrum corresponding to other sampling rates In the spectrum, set the amplitude value corresponding to each frequency domain sequence number greater than the first frequency domain sequence number and less than or equal to the second frequency domain sequence number to zero to obtain the second linear spectrum corresponding to other sampling rates; respectively, according to the first Mel spectrum characteristics of the first linear spectrum corresponding to the maximum sampling rate and the second Mel spectrum characteristics of the second linear spectrum corresponding to other sampling rates, confirm The first speech feature and the second speech feature are determined, and the machine learning model is trained by using the first speech feature and the second speech feature.
【技术实现步骤摘要】
语音识别方法及装置、计算机可存储介质
本公开涉及机器学习领域,特别涉及语音识别方法及装置、计算机可存储介质。
技术介绍
近年来,随着人工智能技术的高速发展,智能客服系统已经在电商、物流、金融等多项服务领域获得了广泛应用。ASR(AutomaticSpeechRecognition,自动语音识别)是智能客服系统的核心技术之一,该技术旨在将用户的语音信号转为文本信息,以便用于后续的自然语言处理。因此,准确、实时的ASR是保障智能客服系统准确进行客户意图理解和服务应答的重要前提。然而,在实际的智能客服场景下,待识别的音频中可能存在口音、方言、背景噪声干扰等多种复杂因素,给高准确率的语音识别带来巨大挑战。针对智能客服场景的语音识别问题,传统方法通常将语音识别的机器学习任务分解为多个串行的子模型,也即前一个模型的输出是后一个模型的输入,这些串行的子模型包括声学模型、发音词典模型、语言模型。通过分别对每个模型进行设计、数据标注、训练,获得最终的机器学习模型结果。然而,该方法的主要存在以下两点问题。首先,每一个子模型的训练均需要大量的标注数据,子模型越多,标注数据的时间和人力成本越高。其次,采用多个子模型的串行模型,非常容易导致模型误差的累积传递,例如每个子模型的准确率是90%,三个子模型串行使用的准确率将是0.9×3=72.9%,严重制约了最终的机器学习模型的应用效果。随着DL(DeepLearning,深度学习)技术的高速发展,基于端到端的DNN(DeepNeuralNetwork,深度神经网络)的机器 ...
【技术保护点】
1.一种语音识别方法,包括:/n获取与不同采样率的待训练音频对应的第一线性频谱,所述第一线性频谱的横坐标为频谱序列序号,纵坐标为频域序号,横坐标和纵坐标确定的坐标点的值为与所述待训练音频对应的原始幅度值;/n确定所述不同采样率中的最大采样率和除所述最大采样率以外的其他采样率;/n确定与所述其他采样率对应的第一线性频谱的最大频域序号为第一频域序号;/n确定与所述最大采样率对应的第一线性频谱的最大频域序号为第二频域序号;/n在与所述其他采样率对应的第一线性频谱中,将与大于所述第一频域序号、且小于或等于所述第二频域序号的每个频域序号对应的幅度值设置为零,得到与所述其他采样率对应的第二线性频谱;/n根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征;/n根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征;/n利用所述第一语音特征和所述第二语音特征,训练机器学习模型。/n
【技术特征摘要】
1.一种语音识别方法,包括:
获取与不同采样率的待训练音频对应的第一线性频谱,所述第一线性频谱的横坐标为频谱序列序号,纵坐标为频域序号,横坐标和纵坐标确定的坐标点的值为与所述待训练音频对应的原始幅度值;
确定所述不同采样率中的最大采样率和除所述最大采样率以外的其他采样率;
确定与所述其他采样率对应的第一线性频谱的最大频域序号为第一频域序号;
确定与所述最大采样率对应的第一线性频谱的最大频域序号为第二频域序号;
在与所述其他采样率对应的第一线性频谱中,将与大于所述第一频域序号、且小于或等于所述第二频域序号的每个频域序号对应的幅度值设置为零,得到与所述其他采样率对应的第二线性频谱;
根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征;
根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征;
利用所述第一语音特征和所述第二语音特征,训练机器学习模型。
2.根据权利要求1所述的语音识别方法,其中,
根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征,确定所述最大采样率的待训练音频的第一语音特征包括:
对所述第一梅尔谱特征进行全局归一化处理得到所述第一语音特征;
根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征,确定所述其他采样率的待训练音频的第二语音特征包括:
对所述第二梅尔谱特征进行局部归一化处理得到所述第二语音特征。
3.根据权利要求2所述的语音识别方法,其中,所述局部归一化处理包括:
根据与所述其他采样率的音频对应的最大线性频谱频率,获取与所述最大线性频谱频率对应的梅尔谱频率;
计算与所述梅尔谱频率对应的最大梅尔滤波器序号;
获取所述第二梅尔谱特征中的、与每个其他梅尔滤波器序号对应的第一幅度值,所述其他梅尔滤波器序号为小于或等于所述最大梅尔滤波器序号的梅尔滤波器序号;
分别计算所述各个第一幅度值的均值和标准差,作为局部均值和局部标准差;
计算每个第一幅度值与所述局部均值的第一差值;
计算每个第一差值与所述局部标准差的比值,作为与每个第一幅度值对应的归一化后的第一幅度值;
将所述第二梅尔谱特征中的每个第一幅度值替换为与每个第一幅度值对应的归一化后的第一幅度值。
4.根据权利要求2所述的语音识别方法,其中,所述全局归一化处理包括:
获取所述第一梅尔谱特征中的、与每个梅尔滤波器序号对应的第二幅度值;
计算所述各个第二幅度值的均值和标准差,作为全局均值和全局标准差;
计算每个第二幅度值与所述全局均值的第二差值;
计算每个第二差值与所述全局标准差的比值,作为与每个第二幅度值对应的归一化后的第二幅度值;
将所述第一梅尔谱特征中的每个第二幅度值替换为与每个第二幅度值对应的归一化后的第二幅度值。
5.根据权利要求1所述的语音识别方法,其中,获取与不同采样率的音频对应的第一线性频谱包括:
利用短时傅立叶变换,分别获取与不同采样率的音频对应的第一线性频谱。
6...
【专利技术属性】
技术研发人员:付立,
申请(专利权)人:京东数字科技控股有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。