一种语言识别方法及装置制造方法及图纸

技术编号:35942787 阅读:49 留言:0更新日期:2022-12-14 10:32
本发明专利技术提供一种语言识别方法及装置,该识别方法包括:从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征;基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征,并转为彩色视觉图像;将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别,输出识别结果。通过上述方式,可以提高识别效果及精度。别效果及精度。别效果及精度。

【技术实现步骤摘要】
一种语言识别方法及装置


[0001]本专利技术涉及语音识别
,特别涉及一种语言识别方法及装置。

技术介绍

[0002]语音交互是人类最直接和便捷的沟通方式之一,可在短时间内传递丰富信息内容,满足人们对信息表达和交互的需要。为了提高来自不同地区的人之间的沟通,往往需要对来自不同区域的语音进行识别。
[0003]现有技术中,语言类型识别的过程包括几个方面:语言数据预处理、特征提取和分类。其中,特征提取是最重要的部分,甚至直接影响到最终的识别率。在以往的研究中,基于语言知识的特征提取被广泛应用于语言类型识别。例如采用提取声音特征的方式来进行语言识别,这种采用单一特征的方式来进行语言识别的效果不佳。

技术实现思路

[0004]本专利技术提供一种语言识别方法及装置,解决现有技术中语言识别效果不佳的技术问题。
[0005]本专利技术的技术方案为:提供了一种语言识别方法,所述方法包括:从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征;基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征,并转为彩色视觉图像;将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别,输出识别结果。
[0006]在一种可选的方式中,所述从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征,包括:
[0007]从所述待识别语音信号中提取梅尔频率倒谱系数特征及伽马倒谱系数特征。
[0008]在一种可选的方式中,所述基于所提取的第一系数特征及第二系数特征生成图像特征,并转为彩色视觉图像,包括:
[0009]将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并;
[0010]将合并的特征进行可视化处理,得到彩色视觉图像。
[0011]在一种可选的方式中,所述将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并,具体包括:
[0012]基于预设公式将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并,所述预设公式:I
GMCC
=αI
MFCC
+βI
GTCC
,其中,所述I
GMCC
为合并系数特征,所述I
MFCC
为梅尔频率倒谱系数特征,所述I
GTCC
为伽马倒谱系数特征,所述α为第一参数,β为第二参数,所述α=β。
[0013]在一种可选的方式中,所述将合并的特征进行可视化处理,得到彩色视觉图像,包括:
[0014]将所述合并的特征设置为目标尺寸,得到对应的彩色视觉图像。
[0015]在一种可选的方式中,所述从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征之前,还包括:
[0016]对采集的目标语音信号进行预处理;
[0017]将经过预处理的目标语音信号进行分帧处理;
[0018]将经过分帧处理的语音信号进行加窗处理,形成待识别语音信号。
[0019]在一种可选的方式中,所述对采集的目标语音信号进行预处理,包括:
[0020]对所采集的目标语音信号进行预加重处理;
[0021]基于加工公式对预加重处理后的语音信号进行加工处理,所述加工公式为:其中,大于或等于0.9,且小于或等于1,x[n]表示第n个采样点的语音信号,y[n]表示加工后的第n个采样点的语音信号,n表示大于1的自然数。
[0022]本专利技术实施例还提供了一种语言识别装置,所述装置包括:
[0023]提取模块,用于从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征;
[0024]转化模块,用于基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征,并转为彩色视觉图像;
[0025]识别模块,用于将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别,输出识别结果。
[0026]本专利技术还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0027]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述语言识别方法的步骤。
[0028]本专利技术还提供一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述语言识别方法的步骤。
[0029]本专利技术相较于现有技术,其有益效果为:将声音信号转为彩色视觉图像来进行分类识别,可以提高识别效果及精度。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面对实施例中所需要使用的附图作简单的介绍,下面描述中的附图仅为本专利技术的部分实施例相应的附图。
[0031]图1示出了本专利技术一实施例提供的一种语言识别方法的流程示意图;
[0032]图2示出了本专利技术实施例的一种语言识别装置的结构示意图;
[0033]图3示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]本专利技术中所提到的方向用语,例如「上」、「下」、「前」、「后」、「左」、「右」、「内」、「外」、「侧面」、「顶部」以及「底部」等词,仅是参考附图的方位,使用的方向用语是用以说明及理解本专利技术,而非用以限制本专利技术。
[0036]本专利技术术语中的“第一”“第二”等词仅作为描述目的,而不能理解为指示或暗示相对的重要性,以及不作为对先后顺序的限制。
[0037]在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0038]请参见图1,本专利技术优选实施例提供了一种语言识别方法的流程示意图,该方法包括:
[0039]步骤S1,从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征;
[0040]具体地,从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征,该第一倒谱系数特征为梅尔频率倒谱系数(MFCC),第二倒谱系数为伽马倒谱系数(GTCC)。
[0041]步骤S2,基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征,并转为彩色视觉图像;
[0042]具体地,将所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征,并转为彩色视觉图像。
[0043]在本专利技术的一个可选方式中,该步骤S2具体包括:
[0044本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言识别方法,其特征在于,所述方法包括:从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征;基于所提取的第一倒谱系数特征及第二倒谱系数特征生成图像特征,并转为彩色视觉图像;将所述彩色视觉图像的特征输入深度学习模型进行语言分类识别,输出识别结果。2.根据权利要求1所述的语言识别方法,其特征在于,所述从待识别语音信号中分别提取第一倒谱系数特征及第二倒谱系数特征,包括:从所述待识别语音信号中提取梅尔频率倒谱系数特征及伽马倒谱系数特征。3.根据权利要求2所述的语言识别方法,其特征在于,所述基于所提取的第一系数特征及第二系数特征生成图像特征,并转为彩色视觉图像,包括:将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并;将合并的特征进行可视化处理,得到彩色视觉图像。4.根据权利要求3所述的语言识别方法,其特征在于,所述将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并,具体包括:基于预设公式将所述梅尔频率倒谱系数特征及伽马倒谱系数特征进行合并,所述预设公式:I
GMCC
=αI
MFCC
+βI
GTCC
,其中,所述I
GMCC
为合并系数特征,所述I
MFCC
为梅尔频率倒谱系数特征,所述I
GTCC
为伽马倒谱系数特征,所述α为第一参数,β为第二参数,所述α=β。5.根据权利要求4所述的语言识别方法,其特征在于,所述将合并的特征进行可视化处理,得到彩色视觉图像,包括:将所述合并的特征设置为目标尺寸,得到对应的彩色视觉图...

【专利技术属性】
技术研发人员:吴雅林石宇蔡翔宇闫林杨尉明华
申请(专利权)人:智汇元宇深圳医学科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1