语音识别方法及相关装置、电子设备、存储介质制造方法及图纸

技术编号:33646874 阅读:41 留言:0更新日期:2022-06-02 20:23
本申请公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:获取待识别语音;利用语音识别模型对待识别语音进行识别,得到待识别语音的识别文本;其中,语音识别模型在训练过程中,基于样本语音的若干样本识别文本的第一分值调整网络参数,第一分值表示样本识别文本的混淆度,若干样本识别文本均由语音识别模型对样本语音识别得到。上述方案,能够提升语音识别模型的识别精度,并降低语音识别模型的训练代价。并降低语音识别模型的训练代价。并降低语音识别模型的训练代价。

【技术实现步骤摘要】
语音识别方法及相关装置、电子设备、存储介质


[0001]本申请涉及语音识别
,特别是涉及一种语音识别方法及相关装置、电子设备、存储介质。

技术介绍

[0002]随着电子信息技术的飞速发展,通过机器识别说话人语音,已经在诸如会议、采样、授课、人机交互等诸多场景得到广泛应用。
[0003]目前,语音识别模型的性能依赖于高质量的训练数据。然而,在现实场景中,高质量的训练数据又往往并不富余。现有的模型训练方式虽然在一定程度上,可以弥补高质量训练数据不足的缺陷,但训练代价较大,且训练效果也欠佳。有鉴于此,如何提升语音识别模型的识别精度,并降低语音识别模型的训练代价成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备、存储介质,能够提升语音识别模型的识别精度,并降低语音识别模型的训练代价。
[0005]为了解决上述技术问题,本申请第一方面提供了一种语音识别方法,包括:获取待识别语音;利用语音识别模型对待识别语音进行识别,得到待识别语音的识别文本;其中,语音识别模型在训练过程中,基于样本语音的若干样本识别文本的第一分值调整网络参数,第一分值表示样本识别文本的混淆度,若干样本识别文本均由语音识别模型对样本语音识别得到。
[0006]为了解决上述技术问题,本申请第二方面提供了一种语音识别装置,包括:获取模块和识别模块,获取模块,用于获取待识别语音;识别模块,用于利用语音识别模型对待识别语音进行识别,得到待识别语音的识别文本;其中,语音识别模型在训练过程中,基于样本语音的若干样本识别文本的第一分值调整网络参数,第一分值表示样本识别文本的混消度,若干样本识别文本均由语音识别模型对样本语音识别得到。
[0007]为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音识别方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音识别方法。
[0009]上述方案,获取待识别语音,并利用语音识别模型对待识别语音进行识别,得到待识别语音的识别文本,且语音识别模型在训练过程中,基于样本语音的若干样本识别文本的第一分值调整网络参数,第一分值表示样本识别文本的混淆度,而若干样本识别文本均由语音识别模型对样本语音识别得到,即在语音识别模型的训练过程中,能够根据样本语音的各个样本识别文本的混淆度来调整网络参数,从而能够额外引入混淆度作为打分惩罚来进行区分性训练,以强化模型学习,进而有利于提升语音识别模型的识别精度,并降低语
音识别模型的训练代价。
附图说明
[0010]图1是本申请语音识别方法一实施例的流程示意图;
[0011]图2是训练语音识别模型一实施例的流程示意图;
[0012]图3是本申请语音识别装置一实施例的框架示意图;
[0013]图4是本申请电子设备一实施例的框架示意图;
[0014]图5是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0015]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0016]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0017]本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0018]请参阅图1,图1是本申请语音识别方法一实施例的流程示意图。具体而言,可以包括如下步骤:
[0019]步骤S11:获取待识别语音。
[0020]在一个实施场景中,待识别语音可以是实时采集得到的。示例性地,可以实时采集说话人的语音数据,作为待识别语音,以实时进行语音识别。也就是说,在对语音识别的实时性要求较高的场景下,可以采用实时采集并识别的方式,具体可以包括但不限于如下场景:会议、人机交互等。例如,在会议场景下,说话人在发言的同时,可以对说话人的语音数据进行识别,得到识别文本,从而在参会人员因数据传输不稳定等原因导致在会议过程中漏听的情况下,依然能够通过识别文本实时获悉发言人的发言内容。其他场景可以以此类推,在此不再一一举例。
[0021]在一个实施场景中,待识别语音也可以非实时采集。示例性地,在采集完成说话人全部的发言语音之后,可以将上述全部的发言数据作为待识别语音,以对其进行识别。也就是说,在不要求实时识别的场景下,可以在发言语音全部采集完成之后,再统一进行识别,具体可以包括但不限于如下场景:采访、授课等。例如,在采访场景下,可以将采访人以及被采访人的发言语音全部存储,并在采访完毕之后,对全部的发言数据作为待识别语音进行识别,得到识别文本,从而能够自动形成文字版的采访记录。其他场景可以以此类推,在此不再一一举例。
[0022]步骤S12:利用语音识别模型对待识别语音进行识别,得到待识别语音的识别文本。
[0023]在一个实施场景中,语音识别模型可以包括但不限于:LSTM(Long Short Term Memory,长短期记忆网络)、RNN(Recurrent Neural Network,循环神经网络)等等。当然,语音识别模型具体可以采用基于Encoder

Decoder(即编码器

解码器)架构的端到端模型,在
此对语音识别模型的网络结构不做限定。
[0024]本公开实施例中,语音识别模型在训练过程中,可以基于样本语音的若干样本识别文本的第一分值调整网络参数,第一分值表示样本识别文本的混淆度,若干样本识别文本均由语音识别模型对样本语音识别得到。示例性地,语音识别模型可以对样本语音进行识别,得到M个样本识别文本,则可以选择其中N个样本识别文本作为前述若干识别文本,当然,N小于或等于M,即可以仅选择其中部分样本识别文本,或者可以选择全部样本识别文本,在此不做限定。
[0025]在一个实施场景中,可以采用诸如BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)等预训练语言模型分别对若干样本识别文本进行处理,得到样本识别文本的混淆度(perplexity,PPL),作为样本识别文本的第一分值。需要说明的是,混淆度表示预训练语言模型对样本识别文本的确信度,混淆度越高,表示预训练语言模型对样本识别文本的确信度越低,即预训练语言模型认为样本识别文本越不合理,反之混淆度越低,表示预训练语言模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音;利用语音识别模型对所述待识别语音进行识别,得到所述待识别语音的识别文本;其中,所述语音识别模型在训练过程中,基于样本语音的若干样本识别文本的第一分值调整网络参数,所述第一分值表示所述样本识别文本的混淆度,所述若干样本识别文本均由所述语音识别模型对所述样本语音识别得到。2.根据权利要求1所述的方法,其特征在于,所述语音识别模型的训练步骤包括:基于所述若干样本识别文本的第一分值,获取所述若干样本识别文本的第一权重;基于所述样本识别文本的第一权重对所述样本识别文本的识别概率值进行加权,得到第一损失;其中,所述识别概率值表示所述语音识别模型预测所述样本语音对应文本为所述样本识别文本的可能性;基于所述第一损失,调整所述语音识别模型的网络参数。3.根据权利要求2所述的方法,其特征在于,所述样本识别文本的第一权重基于所述样本识别文本的第一分值与第一参考值之间的差值得到,且所述第一参考值表示所述若干样本识别文本的第一分值的平均值。4.根据权利要求2所述的方法,其特征在于,所述若干样本识别文本基于各个所述样本识别文本的第二分值选择得到,所述第二分值表示所述样本识别文本的词错率,且所述词错率基于所述样本识别文本和所述样本语音的样本标注文本之间的差异得到。5.根据权利要求4所述的方法,其特征在于,在所述基于所述第一损失,调整所述语音识别模型的网络参数之前,所述方法还包括:基于所述若干样本识别文本的第二分值,获取所述若干样本识别文本的第二权重;基于所述样本识别文本的第二权重对所述样本识别文本的识别概率值进行加权,得到第二损失;所述基于所述第一损失,调整所述语音识别模型的网络参数,包括:基于所述第一损失和所述第二损失,调整所述语音识别模型的网络参数。6.根据权利要求5所述的方法,其特征在于,所述样本识别文本的第二权重基于所述样本识别文本的第二分值与第二参考值之间的差值得到,且所述第二参考值表示所述若干样本识别文本的第二分值的平均值。7.根据权利要求1所述的方法,其特征在于,所述样本语音至少包含第一语音和第二语音,所述第一语音由第一标注文本合成得到,所...

【专利技术属性】
技术研发人员:万根顺潘嘉高建清刘聪胡国平刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1