基于支持向量机的语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:23346375 阅读:21 留言:0更新日期:2020-02-15 04:54
本发明专利技术实施例公开了一种基于支持向量机的语音识别方法、装置、设备及存储介质,其中,所述方法包括:从语音数据中提取梅尔频率倒谱系数的特征量;对所述语音数据进行去噪处理;对所述特征量根据贡献量进行加权处理;获取所述语音数据中的语音时序特征,并与经过加权处理后的特征量进行组合;将组合后的特征量输入训练完成后的语音识别支持向量机,得到语音识别结果。不仅可以对干扰信息实现过滤,增强真实语音信号,同时考虑到发声的特征,能够在复杂的外界环境下增强对语音的识别。

Speech recognition method, device, equipment and storage medium based on support vector machine

【技术实现步骤摘要】
基于支持向量机的语音识别方法、装置、设备及存储介质
本专利技术涉及语音识别
,尤其涉及一种基于支持向量机的语音识别方法、装置、设备及存储介质。
技术介绍
语音识别技术是人机接口应用的前沿技术之一,作为语音信号处理的一个研究方向,近年来语音识别得到了迅速发展,在国际化浪潮以及多民族和多文化的相互交织的大背景下,语音识别越来越受到人们的关注。语音识别在军事情报侦察领域具有十分重要的意义,可以侦察敌情,预警国家安全,预防突发事件的效用。在实现本专利技术的过程中,专利技术人发现如下技术问题:由于在军事领域,其较容易受到外界环境噪声的干扰,而噪声的干扰会严重影响语音识别的效果,导致识别准确率低,无法有效识别语音类别。
技术实现思路
本专利技术实施例提供了一种基于支持向量机的语音识别方法、装置、设备及存储介质,以解决上述提及的至少一个技术问题。第一方面,本专利技术实施例提供了一种基于支持向量机的语音识别方法,包括:从语音数据中提取梅尔频率倒谱系数的特征量;对所述语音数据进行去噪处理;对所述特征量根据贡献量进行加权处理;获取所述语音数据中的语音时序特征,并与经过加权处理后的特征量进行组合;将组合后的特征量输入训练完成后的语音识别支持向量机,得到语音识别结果。进一步的,所述从语音数据中提取梅尔频率倒谱系数的特征量,包括:对语音数据进行预加重处理;对预加重处理后的语音数据进行加窗分帧;对各帧数据进行快速傅里叶变换;对变换后的数据进行三角波滤波,并计算对数能量谱;对对数能量谱进行余弦变换,输出梅尔频率倒谱系数的特征量。进一步的,所述对所述语音数据进行去噪处理包括:利用训练完成后的去噪支持向量机对语音数据进行去噪。进一步的,所述语音时序特征包括:幅值和过零率。进一步的,所述对所述特征量根据贡献量进行加权处理包括:对所述特征参数求取类间方差或类内方差,根据类间方差或类内方差确定加权值;根据所述加权值对特征参数进行加权处理。更进一步的,所述方法还包括:利用非语音样本和语音样本对语音识别支持向量机进行MFCC特征训练。第二方面,本专利技术实施例还提供了一种基于支持向量机的语音识别装置,包括:提取模块,用于从语音数据中提取梅尔频率倒谱系数的特征量;去噪模块,用于对所述语音数据进行去噪处理;加权模块,用于对所述特征量根据贡献量进行加权处理;组合模块,用于获取所述语音数据中的语音时序特征,并与经过加权处理后的特征量进行组合;识别模块,用于将组合后的特征量输入训练完成后的语音识别支持向量机,得到语音识别结果。进一步的,所述提取模块用于:对语音数据进行预加重处理;对预加重处理后的语音数据进行加窗分帧;对各帧数据进行快速傅里叶变换;对变换后的数据进行三角波滤波,并计算对数能量谱;对对数能量谱进行余弦变换,输出梅尔频率倒谱系数的特征量。进一步的,所述去噪模块用于:利用训练完成后的去噪支持向量机对语音数据进行去噪。进一步的,所述语音时序特征包括:幅值和过零率。进一步的,所述加权模块用于:对所述特征参数求取类间方差或类内方差,根据类间方差或类内方差确定加权值;根据所述加权值对特征参数进行加权处理。更进一步的,所述装置还包括:训练模块,用于利用非语音样本和语音样本对语音识别支持向量机进行MFCC特征训练。第三方面,本专利技术实施例还提供了一种服务器,所述服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述实施例提供的任一所述的基于支持向量机的语音识别方法。第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的任一所述的基于支持向量机的语音识别方法。本专利技术实施例提供的基于支持向量机的语音识别方法、装置、服务器及存储介质,通过从语音数据中提取梅尔频率倒谱系数的特征量,并对所述语音数据进行去噪处理。并通过对所述特征量根据贡献量进行加权处理,以及将语音时序特征加入到特征量组合中。可以根据语音和外界噪声的不同特点,通过滤波,放大语音信号,并且考虑个人发声特点加入语音时序特征,不仅可以对干扰信息实现过滤,增强真实语音信号,同时考虑到发声的特征,能够在复杂的外界环境下增强对语音的识别。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术实施例一提供的基于支持向量机的语音识别方法的流程示意图;图2是本专利技术实施例二提供的基于支持向量机的语音识别装置的结构示意图;图3是本专利技术实施例三提供的设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供基于支持向量机的语音识别方法的流程示意图,本实施例可适用于对复杂环境,特别是军事环境下的语音识别的情况,该方法可以由基于支持向量机的语音识别装置来执行,可通过软件\硬件方式实现。并可集成各种语音识别设备中,具体包括如下步骤:S110,从语音数据中提取梅尔频率倒谱系数的特征量。梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。示例性的,所述从语音数据中提取梅尔频率倒谱系数的特征量,可以包括:对语音数据进行预加重处理;对预加重处理后的语音数据进行加窗分帧;本文档来自技高网...

【技术保护点】
1.一种基于支持向量机的语音识别方法,其特征在于,包括:/n从语音数据中提取梅尔频率倒谱系数的特征量;/n对所述语音数据进行去噪处理;/n对所述特征量根据贡献量进行加权处理;/n获取所述语音数据中的语音时序特征,并与经过加权处理后的特征量进行组合;/n将组合后的特征量输入训练完成后的语音识别支持向量机,得到语音识别结果。/n

【技术特征摘要】
1.一种基于支持向量机的语音识别方法,其特征在于,包括:
从语音数据中提取梅尔频率倒谱系数的特征量;
对所述语音数据进行去噪处理;
对所述特征量根据贡献量进行加权处理;
获取所述语音数据中的语音时序特征,并与经过加权处理后的特征量进行组合;
将组合后的特征量输入训练完成后的语音识别支持向量机,得到语音识别结果。


2.根据权利要求1所述的方法,其特征在于,所述从语音数据中提取梅尔频率倒谱系数的特征量,包括:
对语音数据进行预加重处理;
对预加重处理后的语音数据进行加窗分帧;
对各帧数据进行快速傅里叶变换;
对变换后的数据进行三角波滤波,并计算对数能量谱;
对对数能量谱进行余弦变换,输出梅尔频率倒谱系数的特征量。


3.根据权利要求2所述的方法,其特征在于,所述对所述语音数据进行去噪处理包括:
利用训练完成后的去噪支持向量机对语音数据进行去噪。


4.根据权利要求3所述的方法,其特征在于,所述语音时序特征包括:
幅值和过零率。


5.根据权利要求4所述的方法,其特征在于,所述对所述特征量根据贡献量进行加权处理包括:
对所述特征参数求取类间方差或类内方差,根据类间方差或类内方差确定加权值;
根据所述加权值对特征参数进行加权处理。

【专利技术属性】
技术研发人员:褚孝鹏李萌赵辰龚政邱惠昌
申请(专利权)人:天津光电通信技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1