一种基于高维声学特征的语音识别方法及模型训练方法技术

技术编号:32906047 阅读:12 留言:0更新日期:2022-04-07 11:56
本申请公开了一种基于高维声学特征的语音识别方法及模型训练方法,涉及语音识别技术领域。该方法包括:获取待识别音频;基于预先训练的声学特征提取模型,获取待识别音频对应的高维特征,作为待识别音频的高维声学特征;获取待识别音频对应的识别场景,作为目标识别场景;将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型,得到待识别音频对应的文本识别结果。如此,通过提取包含了更多有助于语音识别的特征信息,使得基于高维声学特征识别到的文本识别结果更准确,提高了语音识别的准确性;并且,调用与待识别音频的识别场景对应的语音识别模型,实现更具有针对性的语音识别,也提高了文本识别结果的准确性。也提高了文本识别结果的准确性。也提高了文本识别结果的准确性。

【技术实现步骤摘要】
一种基于高维声学特征的语音识别方法及模型训练方法


[0001]本申请涉及语音识别
,更具体地,涉及一种基于高维声学特征的语音识别方法及模型训练方法。

技术介绍

[0002]语音识别是一种涵盖了声学与语言学、数学与统计学计算机与人工智能等学科的技术,是人机自然交互技术中的关键环节。通过语音识别技术,来识别说话人说出的语音中的文本内容信息。语音识别技术在多场景有所应用,如电话,手机,应用程序,门禁系统,智能音响,机器人等。
[0003]在相关技术中,一般是通过模型训练的方式,预先训练出用于语音识别的语音识别模型。但是,针对例如垂直领域以及特征口音等特定识别领域,语音识别模型的识别准确率会下降,导致无法准确识别出在上述特定识别领域下的语音中的文本内容信息。

技术实现思路

[0004]有鉴于此,本申请提出了一种基于高维声学特征的语音识别方法及模型训练方法。
[0005]第一方面,本申请实施例提供了一种基于高维声学特征的语音识别方法,所述方法包括:获取待识别音频;基于预先训练的声学特征提取模型,获取所述待识别音频对应的高维特征,作为所述待识别音频的高维声学特征;获取所述待识别音频对应的识别场景,作为目标识别场景;将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型,得到所述待识别音频对应的文本识别结果。
[0006]第二方面,本申请实施例提供了一种基于高维声学特征的语音识别模型的训练方法,所述方法包括:获取第一音频样本集,所述第一音频样本集中包含的第一音频样本均为同一识别场景下的;基于预先训练的声纹特征提取模型,获取所述第一音频样本集对应的高维特征,得到多个高维声学特征,所述多个高维声学特征中的每个高维声学特征与所述第一音频样本集中的每个第一音频样本一一对应;基于所述多个高维声学特征,对第一初始模型进行训练,直至所述第一初始模型满足第一预设条件,得到与所述第一音频样本集对应的识别场景下的语音识别模型。
[0007]本申请提供的方案中,获取待识别音频;基于预先训练的声学特征提取模型,获取待识别音频对应的高维特征,作为待识别音频的高维声学特征;获取待识别音频对应的识别场景,作为目标识别场景;将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型,得到待识别音频对应的文本识别结果。如此,通过预先训练的声学特征提取模型提取出待识别音频中的高维声学特征,包含了更多有助于语音识别的特征信息,即对待识别音频有更好的表征,进而使得基于高维声学特征识别到的文本识别结果更准确,提高了语音识别的准确性;并且,调用与待识别音频的识别场景对应的语音识别模型,对该待识别音频进行语音识别,即选择更适配于待识别音频的语音识别模型进行语音识别,实现更
具有针对性的语音识别,进而也进一步提高了文本识别结果的准确性。
附图说明
[0008]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0009]图1示出了本申请一实施例提供的基于高维声学特征的语音识别方法的流程示意图。
[0010]图2示出了本申请另一实施例提供的基于高维声学特征的语音识别方法的流程示意图。
[0011]图3示出了本申请中声学特征提取模型的网络结构示意图。
[0012]图4示出了本申请中transformer模块的网络结构示意图。
[0013]图5示出了了本申请另一实施例提供的基于高维声学特征的语音识别模型的训练方法的流程示意图。
[0014]图6示出了图5中步骤S330在一种实施方式中的子步骤流程示意图。
[0015]图7是根据本申请一实施例提供的一种基于高维声学特征的语音识别装置的框图。
[0016]图8是根据本申请一实施例提供的一种基于高维声学特征的语音识别模型的训练装置的框图。
[0017]图9是本申请实施例的用于执行根据本申请实施例的基于高维声学特征的语音识别方法的计算机设备的框图。
[0018]图10是本申请实施例的用于保存或者携带实现根据本申请实施例的基于高维声学特征的语音识别方法的程序代码的存储单元。
具体实施方式
[0019]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0020]语音识别是一种涵盖了声学与语言学、数学与统计学计算机与人工智能等学科的技术,是人机自然交互技术中的关键环节。通过语音识别技术,来识别说话人说出的语音中的文本内容信息。语音识别技术在多场景有所应用,如电话,手机,应用程序,门禁系统,智能音响,机器人等。
[0021]在相关技术中,一般是模型训练的方式,预先训练出用于语音识别的语音识别模型。但是,一般是通过模型训练的方式,预先训练出用于语音识别的语音识别模型。但是,针对例如垂直领域以及特征口音等特定识别领域,语音识别模型的识别准确率会下降,导致无法准确识别出在上述特定识别领域下的语音中的文本内容信息。
[0022]并且,由于模型训练对海量训练数据样本的依赖,当需要对一个语音识别模型做小范围内数据优化时,如垂直领域、特殊口音等,模型需要重新训练,且训练模型的相关参数也不一定能复用,导致优化成本高。
[0023]针对上述问题,专利技术人提出一种基于高维声学特征的语音识别方法及模型训练方法,基于预先训练的声学特征提取模型,提取待识别音频的高维声学特征,再将高维声学特征输入至与待识别音频对应的目标识别场景对应的语音识别模型,得到待识别音频对应的文本识别结果。下面对该内容进行详细描述。
[0024]请参照图1,图1为本申请一实施例提供的一种基于高维声学特征的语音识别方法的流程示意图。下面将结合图1对本申请实施例提供的基于高维声学特征的语音识别方法进行详细阐述。该基于高维声学特征的语音识别方法可以包括以下步骤:
[0025]步骤S110:获取待识别音频。
[0026]在本实施例中,待识别音频可以是通过计算机设备自身配置的音频采集设备采集得到;也可以是接收的由外置音频采集设备所采集的音频;还可以是通过网络下载的音频,本实施例对此不作限制。
[0027]步骤S120:基于预先训练的声学特征提取模型,获取所述待识别音频对应的高维特征,作为所述待识别音频的高维声学特征。
[0028]在本实施例中,在获取到待识别音频后,可以提取待识别音频的音频特征,再将提取到的音频特征输入至上述预先训练的声学特征模型中,并将该声学特征模型输出的高维特征,作为待识别音频的高维声学特征。其中,音频特征是通过信号处理方式提取的二维的频谱特征,例如梅尔倒谱系数(Mel

Frequency Cepstral Coefficients,MFCC)特征或滤波器组(FilterBank,Fban本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高维声学特征的语音识别方法,其特征在于,所述方法包括:获取待识别音频;基于预先训练的声学特征提取模型,获取所述待识别音频对应的高维特征,作为所述待识别音频的高维声学特征;获取所述待识别音频对应的识别场景,作为目标识别场景;将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型,得到所述待识别音频对应的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述声学特征提取模型包括特征提取模块、编码模块、对齐模块以及解码模块,所述基于预先训练的声学特征提取模型,获取所述待识别音频对应的高维特征,作为所述待识别音频的高维声学特征,包括:通过所述特征提取模块获取所述待识别音频的高维特征;通过所述编码模块对所述高维特征进行编码,得到第一编码结果;通过所述对齐模块对所述第一编码结果进行对齐处理,得到第二编码结果,所述第二编码结果中的高维特征的时间戳与所述待识别音频对应的音频特征的时间戳保持一致;通过所述解码模块对所述第二编码结果进行解码,得到解码后的高维特征,作为所述高维声学特征。3.根据权利要求1或2所述的方法,其特征在于,所述高维声学特征的帧数为多帧,所述将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型,得到所述待识别音频对应的文本识别结果,包括:对多帧高维声学特征中的每帧高维声学特征进行归一化;将进行归一化后的多帧高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型中进行语音识别,得到所述待识别音频对应的文本识别结果。4.根据权利要求3所述的方法,其特征在于,所述对多帧高维声学特征中的每帧高维声学特征进行归一化,包括:其中,A[i]为所述每帧高维声学特征中的第i个特征值,A[i]

为所述每帧高维声学特征中第i个特征值归一化后的特征值,M为所述每帧高维声学特征中的最大值,N为所述每帧高维声学特征中的最小值,u为所述每帧高维声学特征中的特征值均值。5.根据权利要求1所述的方法,其特征在于,所述获取所述待识别音频对应的识别场景,作为目标识别场景,包括:获取所述待识别音频的环境声纹特征;判断预设声纹特征库中是否存在与所述环境声纹特征匹配的预设声纹特征;若存在,则获取与所述环境声纹特征相匹配的预设声纹特征对应的识别场景,作为所述目标识别...

【专利技术属性】
技术研发人员:郑颖龙赖蔚蔚吴广财郑杰生周昉昉林嘉鑫陈颖璇叶杭梁运德黄宏恩
申请(专利权)人:广东电力信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1