一种语音识别方法、系统及存储介质和终端设备技术方案

技术编号:33121261 阅读:13 留言:0更新日期:2022-04-17 00:20
本发明专利技术实施例公开了一种语音识别方法、系统及存储介质和终端设备,应用于基于人工智能的信息处理技术领域。语音识别系统会根据预训练的语音识别模型对待识别语音数据进行识别得到对应的文本信息,其中,预训练语音识别模型时,可以先用不带标注的第二语音样本对特征提取模块和注意力编码模块进行首次训练,对特征提取模块和注意力编码模块进行初始化,然后再用带标注的第一语音样本训练得到语音识别模型,包括:二次训练的特征提取模块、二次训练的注意力编码模块、训练后的注意力解码模块和语音分类模块。由于第二语音样本不带标注,比较容易得到,这样可以充分地利用大量的第二语音样本,进而使得得到的语音识别模型的准确性比较高。比较高。比较高。

【技术实现步骤摘要】
一种语音识别方法、系统及存储介质和终端设备


[0001]本专利技术涉及基于人工智能的信息处理
,特别涉及一种语音识别方法、系统及存储介质和终端设备。

技术介绍

[0002]现如今语音识别技术已应用到较多的业务场景下,比如语音搜索、语音交互过程或语音翻译等场景,随着用户对基于语音技术的业务需求不断增长,需要更精确的语音识别技术来满足用户需求。
[0003]现有的语音识别技术中可以通过基于人工智能的语音识别模型进行语音识别,进而再将语音识别的结果应用到各个业务场景中。其中,语音识别模型是通过一定的训练方法训练得到的,具体地,需要采用大量的带有标注的训练样本对语音识别模型进行训练。但是带有标注的训练样本是有限的,使得训练得到的语音识别模型的准确性也限制在一定范围内。

技术实现思路

[0004]本专利技术实施例提供一种语音识别方法、系统及存储介质和终端设备,提高了语音识别的准确性。
[0005]本专利技术实施例一方面提供一种语音识别方法,包括:
[0006]获取待识别语音数据;
[0007]调用预训练的语音识别模型对所述待识别语音数据进行识别,得到对应的文信息;
[0008]其中,所述语音识别模型在预训练时:
[0009]确定训练样本,所述训练样本中包括:带有标注的第一语音样本及不带标注的第二语音样本;
[0010]确定语音识别初始模型,所述语音识别初始模型包括:特征提取模块、特征离散模块、注意力编码模块、注意力解码模块及语音分类模块;
[0011]其中,所述特征提取模块用于提取任一语音样本的语音特征信息,所述特征离散模块用于对所述语音特征信息进行离散处理,所述注意力编码模块用于对所述语音特征信息进行上下文信息的编码得到编码后特征,所述注意力解码模块用于根据所述编码后特征进行解码得到解码后特征,所述语音分类模块用于根据所述解码后特征对所述任一语音样本进行语音分类,得到所述任一语音样本对应的文本信息;
[0012]根据所述第二语音样本、所述语音识别初始模型中的特征提取模块、特征离散模块及注意力编码模块,训练所述特征提取模块和注意力编码模块,得到首次训练的特征提取模块和首次训练的注意力编码模块;
[0013]根据所述第一语音样本、所述首次训练的特征提取模块和首次训练的注意力编码模块、注意力解码模块及语音分类模块,训练得到所述语音识别模型,所述语音识别模型包
括:二次训练的特征提取模块、二次训练的注意力编码模块、训练后的注意力解码模块和语音分类模块。
[0014]本专利技术实施例一方面提供一种语音识别系统,包括:
[0015]数据获取单元,用于获取待识别语音数据;
[0016]识别单元,用于调用预训练的语音识别模型对所述待识别语音数据进行识别,得到对应的文信息;
[0017]其中,所述语音识别模型通过训练单元进行预训练:
[0018]所述训练单元,用于确定训练样本,所述训练样本中包括:带有标注的第一语音样本及不带标注的第二语音样本;确定语音识别初始模型,所述语音识别初始模型包括:特征提取模块、特征离散模块、注意力编码模块、注意力解码模块及语音分类模块;其中,所述特征提取模块用于提取任一语音样本的语音特征信息,所述特征离散模块用于对所述语音特征信息进行离散处理,所述注意力编码模块用于对所述语音特征信息进行上下文信息的编码得到编码后特征,所述注意力解码模块用于根据所述编码后特征进行解码得到解码后特征,所述语音分类模块用于根据所述解码后特征对所述任一语音样本进行语音分类,得到所述任一语音样本对应的文本信息;根据所述第二语音样本、所述语音识别初始模型中的特征提取模块、特征离散模块及注意力编码模块,训练所述特征提取模块和注意力编码模块,得到首次训练的特征提取模块和首次训练的注意力编码模块;根据所述第一语音样本、所述首次训练的特征提取模块和首次训练的注意力编码模块、注意力解码模块及语音分类模块,训练得到所述语音识别模型,所述语音识别模型包括:二次训练的特征提取模块、二次训练的注意力编码模块、训练后的注意力解码模块和语音分类模块。
[0019]本专利技术实施例另一方面还提供一种计算机可读存储介质,所述计算机可读存储介质储存多个计算机程序,所述计算机程序适于由处理器加载并执行如本专利技术实施例一方面所述的语音识别方法。
[0020]本专利技术实施例另一方面还提供一种终端设备,包括处理器和存储器;
[0021]所述存储器用于储存多个计算机程序,所述计算机程序用于由处理器加载并执行如本专利技术实施例一方面所述的语音识别方法;所述处理器,用于实现所述多个计算机程序中的各个计算机程序。
[0022]可见,在本实施例的方法中,语音识别系统会根据预训练的语音识别模型对待识别语音数据进行识别得到对应的文本信息,其中,预训练语音识别模型时,可以先用不带标注的第二语音样本对特征提取模块和注意力编码模块进行首次训练,对特征提取模块和注意力编码模块进行初始化,然后再用带标注的第一语音样本训练得到语音识别模型,包括:二次训练的特征提取模块、二次训练的注意力编码模块、训练后的注意力解码模块和语音分类模块。由于第二语音样本不带标注,比较容易得到,这样在训练语音识别模型可以充分地利用大量的第二语音样本,进而使得得到的语音识别模型的准确性比较高。
附图说明
[0023]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可
以根据这些附图获得其他的附图。
[0024]图1是本专利技术实施例提供的一种语音识别方法所应用于的示意图;
[0025]图2是本专利技术一个实施例提供的一种语音识别方法的流程图;
[0026]图3是本专利技术一个实施例中确定的语音识别初始模型的逻辑结构示意图;
[0027]图4是本专利技术一个实施例中首次训练特征提取模块和注意力编码模块的方法流程图;
[0028]图5是本专利技术一个实施例中训练语音识别模型的方法流程图;
[0029]图6是本专利技术一个应用实施例中确定的语音识别初始模型的逻辑结构示意图;
[0030]图7是本专利技术一个应用实施例中自监督地训练特征提取模块和注意力编码模块的示意图;
[0031]图8是本专利技术一个应用实施例中进行语音识别的示意图;
[0032]图9是本专利技术另一应用实施例中语音识别方法所应用于的分布式系统的示意图;
[0033]图10是本专利技术另一应用实施例中区块结构的示意图;
[0034]图11是本专利技术实施例提供的一种语音识别系统的逻辑结构示意图;
[0035]图12是本专利技术实施例提供的一种终端设备的逻辑结构示意图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音数据;调用预训练的语音识别模型对所述待识别语音数据进行识别,得到对应的文信息;其中,所述语音识别模型在预训练时:确定训练样本,所述训练样本中包括:带有标注的第一语音样本及不带标注的第二语音样本;确定语音识别初始模型,所述语音识别初始模型包括:特征提取模块、特征离散模块、注意力编码模块、注意力解码模块及语音分类模块;其中,所述特征提取模块用于提取任一语音样本的语音特征信息,所述特征离散模块用于对所述语音特征信息进行离散处理,所述注意力编码模块用于对所述语音特征信息进行上下文信息的编码得到编码后特征,所述注意力解码模块用于根据所述编码后特征进行解码得到解码后特征,所述语音分类模块用于根据所述解码后特征对所述任一语音样本进行语音分类,得到所述任一语音样本对应的文本信息;根据所述第二语音样本、所述语音识别初始模型中的特征提取模块、特征离散模块及注意力编码模块,训练所述特征提取模块和注意力编码模块,得到首次训练的特征提取模块和首次训练的注意力编码模块;根据所述第一语音样本、所述首次训练的特征提取模块和首次训练的注意力编码模块、注意力解码模块及语音分类模块,训练得到所述语音识别模型,所述语音识别模型包括:二次训练的特征提取模块、二次训练的注意力编码模块、训练后的注意力解码模块和语音分类模块。2.如权利要求1所述的方法,其特征在于,所述根据所述第二语音样本、所述语音识别初始模型中的特征提取模块、特征离散模块及注意力编码模块,训练所述特征提取模块和注意力编码模块,具体包括:通过所述特征提取模块和注意力编码模块确定所述第二语音样本的编码后特征,及通过所述特征提取模块和特征离散模块确定所述第二语音样本的离散化特征;根据所述第二语音样本的编码后特征及离散化特征,计算与所述特征提取模块和注意力编码模块相关的第一损失函数;根据所述第一损失函数调整所述特征提取模块和注意力编码模块中参数的参数值,以得到首次训练的特征提取模块和首次训练的注意力编码模块。3.如权利要求2所述的方法,其特征在于,所述第二语音样本的离散化特征包括多个时刻的离散化特征,所述编码后特征包括所述多个时刻对应的编码后特征;则所述根据所述第二语音样本的编码后特征及离散化特征,计算与所述特征提取模块和注意力编码模块相关的第一损失函数,具体包括:计算所述第一损失函数包括:所述多个时刻中任一时刻对应的离散化特征与编码后特征之间的相关性。4.如权利要求2所述的方法,其特征在于,当对所述特征提取模块和注意力编码模块中参数值的调整次数等于预置的次数时,或若当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时,则停止对所述固定参数值的调整。5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一语音样本、所述首次训练的特征提取模块和首次训练的注意力编码模块、注意力解码模块及语音分类模
块,训练得到所述语音识别模型,具体包括:通过所述首次训练的特征提取模块、首次训练的注意力编码模块...

【专利技术属性】
技术研发人员:邓克琦曹松军马龙
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1