语音识别装置和方法制造方法及图纸

技术编号：30189090 阅读：36 留言：0更新日期：2021-09-29 08:26

本公开涉及一种用于识别用户语音的电子装置和由电子装置识别用户语音的方法。根据一个实施例，识别用户语音的方法包括步骤：获得被分割成多个帧单元的音频信号；通过将根据预设标度分布的滤波器组应用于以帧单元分割的音频信号的频谱来确定针对每个滤波器组的能量分量；对确定的针对每个滤波器组的能量分量进行平滑；基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量；以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。频信号中的用户语音。频信号中的用户语音。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】语音识别装置和方法

[0001]本公开涉及一种语音识别装置和方法。更具体地，本公开涉及一种处理用于语音识别的音频数据的方法。

技术介绍

[0002]与传统的基于规则的智能系统不同，人工智能(AI)系统是自己学习和确定的智能系统。AI系统被使用的越多，识别率越高，因此，可更准确地理解用户偏好。因此，传统的基于规则的智能系统逐渐被基于深度学习的AI系统所取代。
[0003]AI技术包括机器学习(深度学习)和使用机器学习的元素技术。机器学习是对输入数据的特征进行分类/学习的算法技术，并且元素技术是利用诸如深度学习等的机器学习算法的技术，并且由包括语言理解、视觉理解、推理/预测、知识表达、运动控制等的
组成。
[0004]人工智能技术应用于如下各种领域。语言理解是识别并应用/处理人类语言/文本的技术，并且包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。视觉理解是对诸如人类视觉的对象进行识别和处理的技术，并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推断和预测是通过...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种识别用户语音的方法，所述方法包括：获得被分割成多个帧单元的音频信号；通过将根据预设标度分布的滤波器组应用于被分割成所述多个帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量；对确定的针对每个滤波器组的能量分量进行平滑；基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量；以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。2.根据权利要求1所述的方法，其中，获得音频信号的步骤包括：确定将分割成所述多个帧单元的窗口的窗口长度；以预定窗口间隔重叠具有确定的窗口长度的窗口；以及通过使用重叠的窗口将音频信号分割成所述多个帧单元。3.根据权利要求1所述的方法，其中，确定针对每个滤波器组的能量分量的步骤包括：将分布式滤波器组应用于音频信号的频谱；将应用了滤波器组的频谱的值转换为对数标度；以及通过使用被转换为对数标度的频谱的所述值来确定针对每个滤波器组的能量分量。4.根据权利要求1所述的方法，其中，对确定的针对每个滤波器组的能量分量进行平滑的步骤包括：针对每个滤波器组，基于均匀分布的目标能量分量训练用于对针对每个滤波器组的能量分量进行平滑的平滑系数；以及通过使用针对每个滤波器组训练的平滑系数来对针对每个滤波器组的能量分量进行平滑。5.根据权利要求1所述的方法，其中，对确定的针对每个滤波器组的能量分量进行平滑的步骤包括：产生与音频信号的针对每个滤波器组的能量分量的大小相关的直方图；确定用于将产生的直方图映射到目标直方图的映射函数，其中，在目标直方图中，针对每个滤波器组的能量分量的大小均匀分布；以及通过使用确定的映射函数转换音频信号的针对每个滤波器组的能量分量来对针对每个滤波器组的能量分量进行平滑。6.根据权利要求1所述的方法，其中，提取音频信号的特征向量的步骤包括：通过对针对每个滤波器组的平滑后的能量分量执行离散余弦变换DCT来确定DCT系数；以及提取包括确定的DCT系数中的至少一个作为元素的特征向量。7.根据权利要求1所述的方法，其中，语音识别模型基于通过使用音频训练信号的频谱重新合成的音频训练信号的特征向量被预训练，其中，在音频训练信号的频谱中，针对每个帧单元获得的音频训练信号的频谱的频率轴被变换，以表示多个说话者的不同声道长度的变化。8.根据权利要求7所述的方法，其中，音频训练信号的频谱的频率轴基于针对每帧随机生成的扭曲系数和扭曲函数被变换，其中，所述扭曲函数用于...

【专利技术属性】
技术研发人员：金燦佑，达哈南加亚，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人