一种语言识别方法及装置制造方法及图纸

技术编号：35942787 阅读：49 留言：0更新日期：2022-12-14 10:32

本发明专利技术提供一种语言识别方法及装置，该识别方法包括：从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征；基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征，并转为彩色视觉图像；将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别，输出识别结果。通过上述方式，可以提高识别效果及精度。别效果及精度。别效果及精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语言识别方法及装置

[0001]本专利技术涉及语音识别
，特别涉及一种语言识别方法及装置。

技术介绍

[0002]语音交互是人类最直接和便捷的沟通方式之一，可在短时间内传递丰富信息内容，满足人们对信息表达和交互的需要。为了提高来自不同地区的人之间的沟通，往往需要对来自不同区域的语音进行识别。
[0003]现有技术中，语言类型识别的过程包括几个方面：语言数据预处理、特征提取和分类。其中，特征提取是最重要的部分，甚至直接影响到最终的识别率。在以往的研究中，基于语言知识的特征提取被广泛应用于语言类型识别。例如采用提取声音特征的方式来进行语言识别，这种采用单一特征的方式来进行语言识别的效果不佳。

技术实现思路

[0004]本专利技术提供一种语言识别方法及装置，解决现有技术中语言识别效果不佳的技术问题。
[0005]本专利技术的技术方案为：提供了一种语言识别方法，所述方法包括：从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征；基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征，并转为彩色视觉图像；将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别，输出识别结果。
[0006]在一种可选的方式中，所述从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征，包括：
[0007]从所述待识别语音信号中提取梅尔频率倒谱系数特征及伽马倒谱系数特征。
[0008]在一种可选的方式中，所述基于所提取的第一系数特征及第二系数特征生成图像特征，并转...

【技术保护点】

【技术特征摘要】
1.一种语言识别方法，其特征在于，所述方法包括：从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征；基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征，并转为彩色视觉图像；将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别，输出识别结果。2.根据权利要求1所述的语言识别方法，其特征在于，所述从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征，包括：从所述待识别语音信号中提取梅尔频率倒谱系数特征及伽马倒谱系数特征。3.根据权利要求2所述的语言识别方法，其特征在于，所述基于所提取的第一系数特征及第二系数特征生成图像特征，并转为彩色视觉图像，包括：将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并；将合并的特征进行可视化处理，得到彩色视觉图像。4.根据权利要求3所述的语言识别方法，其特征在于，所述将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并，具体包括：基于预设公式将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并，所述预设公式：I
GMCC
＝αI
MFCC
+βI
GTCC
，其中，所述I
GMCC
为合并系数特征，所述I
MFCC
为梅尔频率倒谱系数特征，所述I
GTCC
为伽马倒谱系数特征，所述α为第一参数，β为第二参数，所述α＝β。5.根据权利要求4所述的语言识别方法，其特征在于，所述将合并的特征进行可视化处理，得到彩色视觉图像，包括：将所述合并的特征设置为目标尺寸，得到对应的彩色视觉图...

【专利技术属性】
技术研发人员：吴雅林，石宇，蔡翔宇，闫林杨，尉明华，
申请(专利权)人：智汇元宇深圳医学科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人