语音识别装置和方法制造方法及图纸

技术编号:30189090 阅读:24 留言:0更新日期:2021-09-29 08:26
本公开涉及一种用于识别用户语音的电子装置和由电子装置识别用户语音的方法。根据一个实施例,识别用户语音的方法包括步骤:获得被分割成多个帧单元的音频信号;通过将根据预设标度分布的滤波器组应用于以帧单元分割的音频信号的频谱来确定针对每个滤波器组的能量分量;对确定的针对每个滤波器组的能量分量进行平滑;基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量;以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。频信号中的用户语音。频信号中的用户语音。

【技术实现步骤摘要】
【国外来华专利技术】语音识别装置和方法


[0001]本公开涉及一种语音识别装置和方法。更具体地,本公开涉及一种处理用于语音识别的音频数据的方法。

技术介绍

[0002]与传统的基于规则的智能系统不同,人工智能(AI)系统是自己学习和确定的智能系统。AI系统被使用的越多,识别率越高,因此,可更准确地理解用户偏好。因此,传统的基于规则的智能系统逐渐被基于深度学习的AI系统所取代。
[0003]AI技术包括机器学习(深度学习)和使用机器学习的元素技术。机器学习是对输入数据的特征进行分类/学习的算法技术,并且元素技术是利用诸如深度学习等的机器学习算法的技术,并且由包括语言理解、视觉理解、推理/预测、知识表达、运动控制等的
组成。
[0004]人工智能技术应用于如下各种领域。语言理解是识别并应用/处理人类语言/文本的技术,并且包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。视觉理解是对诸如人类视觉的对象进行识别和处理的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推断和预测是通过确定信息来逻辑地推断和预测信息的技术,并且包括基于知识/概率的推断、优化预测、基于偏好的计划、推荐等。知识表达是通过自动化将人类经验信息处理成知识数据的技术,并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。运动控制是控制车辆的自主驾驶和机器人的移动的技术,并且包括移动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。
[0005]最近,在语音识别领域,正在研究用于识别用户语音的各种技术,并且正在积极研究基于使用端到端学习方法的人工神经网络的语音识别方法。特别地,在语音识别领域中,技术开发对于提高语音识别的准确性是必要的。

技术实现思路

[0006]技术问题
[0007]根据实施例,提供了一种用于使用语音识别模型来识别用户的语音的语音识别装置和方法。
[0008]此外,根据实施例,提供了一种用于基于音频信号学习语音识别模型的装置和方法。具体地,提供了一种用于提高语音识别的准确性的音频数据处理方法。
[0009]技术方案
[0010]根据一个实施例,一种识别用户语音的方法包括:获得被分割成多个帧单元的音频信号,通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量,对确定的针对每个滤波器组的能量分量进行平滑,基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量,以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。
[0011]此外,根据实施例,一种用于识别用户语音的电子设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行所述一个或更多个指令的,其中,处理器还被配置为通过执行所述一个或更多个指令来进行以下操作:获得被分割成多个帧单元的音频信号,通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量,对确定的针对每个滤波器组的能量分量进行平滑,基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量,并且通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。
[0012]此外,根据实施例,一种处理音频信号的方法,电子设备通过该方法训练语音识别模型,该方法包括:获得用于训练语音识别模型的、被分割成多个帧单元的第一音频信号,获得被分割成帧单元的第一音频信号的频谱,对第一音频信号的频谱的频率轴进行变换以表示多个说话者的不同声道长度的变化,通过使用频率轴被变换的第一音频信号的频谱来生成第二音频信号,并且提取生成的第二音频信号的特征向量。
[0013]所述方法还可包括将房间脉冲滤波器应用于第二音频信号,并且从应用了房间脉冲滤波器的第二音频信号提取特征向量,其中,房间脉冲滤波器指示房间中的针对每个传输路径的第二音频信号的声学特征。
[0014]频率轴的变换的步骤可包括:确定针对每个帧随机产生的扭曲系数,基于确定的扭曲系数确定用于对第一音频信号的频谱的频率轴进行变换的扭曲函数,以及通过使用确定的扭曲函数对第一音频信号的频谱的频率轴进行变换。
[0015]生成第二音频信号的步骤可包括:对频率轴被变换的第一音频信号的频谱执行快速傅里叶逆变换,以及通过在时间轴上重叠在时间轴上被快速傅里叶逆变换的第一音频信号的频谱来生成第二音频信号。
[0016]提取第二音频信号的特征向量的步骤可包括:通过将根据预设标度分布的滤波器组应用于被分割成帧单元的第二音频信号的频谱来确定针对每个滤波器组的能量分量,对确定的针对每个滤波器组的能量分量进行平滑,以及基于针对每个滤波器组的平滑后的能量分量提取第二音频信号的特征向量。
[0017]此外,根据实施例,一种由电子设备训练语音识别模型的方法包括:获得用于训练语音识别模型的、被分割成多个帧单元的第一音频信号,获得被分割成帧单元的第一音频信号的频谱,对第一音频信号的频谱的频率轴进行变换以表示多个说话者的不同声道长度的变化,通过使用频率轴被变换的第一音频信号的频谱来生成第二音频信号,提取生成的第二音频信号的特征向量,并且通过使用提取出的特征向量来训练语音识别模型。
[0018]此外,根据实施例,提供了一种计算机可读记录介质,其上记录有用于在计算机上执行识别用户语音的方法的程序,所述方法包括:获得被分割成多个帧单元的音频信号,通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量,对确定的针对每个滤波器组的能量分量进行平滑,基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量,并且通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。
[0019]技术效果
[0020]基于根据本公开的语音识别装置和方法,可通过使用少量数据来有效地识别用户语音,并且可基于音频信号的针对每个滤波器组的平滑后的能量分量来准确地识别用户语
音。
附图说明
[0021]图1是根据实施例的由电子设备识别用户语音的方法和处理用于语音识别的音频信号的方法的示意图;
[0022]图2是根据实施例的由电子设备识别用户语音的方法的流程图;
[0023]图3是根据实施例的由电子设备确定针对每个滤波器组的能量分量的方法的流程图;
[0024]图4是根据实施例的由电子设备通过使用预训练过的平滑系数来平滑针对每个滤波器组的能量分量的方法的流程图;
[0025]图5是用于描述针对每个滤波器组通道训练的平滑系数的示图。
[0026]图6是根据实施例的由电子设备通过使用映射函数映射目标直方图来平滑针对每个滤波器组的能量分量的方法的流程图;
[0027]图7是根据实施例的与特定通道索引相应的滤波器组的能量分量的示图;
[0028]图8是根据实施例的关于滤波器组能量的非线性输出的示图;
[0029]图9是根据实施例的由电子设备处理用于语音识别模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种识别用户语音的方法,所述方法包括:获得被分割成多个帧单元的音频信号;通过将根据预设标度分布的滤波器组应用于被分割成所述多个帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量;对确定的针对每个滤波器组的能量分量进行平滑;基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量;以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。2.根据权利要求1所述的方法,其中,获得音频信号的步骤包括:确定将分割成所述多个帧单元的窗口的窗口长度;以预定窗口间隔重叠具有确定的窗口长度的窗口;以及通过使用重叠的窗口将音频信号分割成所述多个帧单元。3.根据权利要求1所述的方法,其中,确定针对每个滤波器组的能量分量的步骤包括:将分布式滤波器组应用于音频信号的频谱;将应用了滤波器组的频谱的值转换为对数标度;以及通过使用被转换为对数标度的频谱的所述值来确定针对每个滤波器组的能量分量。4.根据权利要求1所述的方法,其中,对确定的针对每个滤波器组的能量分量进行平滑的步骤包括:针对每个滤波器组,基于均匀分布的目标能量分量训练用于对针对每个滤波器组的能量分量进行平滑的平滑系数;以及通过使用针对每个滤波器组训练的平滑系数来对针对每个滤波器组的能量分量进行平滑。5.根据权利要求1所述的方法,其中,对确定的针对每个滤波器组的能量分量进行平滑的步骤包括:产生与音频信号的针对每个滤波器组的能量分量的大小相关的直方图;确定用于将产生的直方图映射到目标直方图的映射函数,其中,在目标直方图中,针对每个滤波器组的能量分量的大小均匀分布;以及通过使用确定的映射函数转换音频信号的针对每个滤波器组的能量分量来对针对每个滤波器组的能量分量进行平滑。6.根据权利要求1所述的方法,其中,提取音频信号的特征向量的步骤包括:通过对针对每个滤波器组的平滑后的能量分量执行离散余弦变换DCT来确定DCT系数;以及提取包括确定的DCT系数中的至少一个作为元素的特征向量。7.根据权利要求1所述的方法,其中,语音识别模型基于通过使用音频训练信号的频谱重新合成的音频训练信号的特征向量被预训练,其中,在音频训练信号的频谱中,针对每个帧单元获得的音频训练信号的频谱的频率轴被变换,以表示多个说话者的不同声道长度的变化。8.根据权利要求7所述的方法,其中,音频训练信号的频谱的频率轴基于针对每帧随机生成的扭曲系数和扭曲函数被变换,其中,所述扭曲函数用于...

【专利技术属性】
技术研发人员:金燦佑达哈南加亚
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1