一种语音识别方法、计算机程序产品及电子设备技术

技术编号:30635165 阅读:54 留言:0更新日期:2021-11-04 00:18
本申请提供一种语音识别方法、计算机程序产品及电子设备,所述方法应用于端到端语音识别模型,所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型;所述方法通过将经过解码子模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽,并利用语言子模型根据编码子模型输出的特征序列对掩蔽序列解码得到识别文本。在端到端语音识别模型中引入语言子模型,可以有效减少多音字对识别结果的影响,从而提升了语音识别准确率。从而提升了语音识别准确率。从而提升了语音识别准确率。

【技术实现步骤摘要】
一种语音识别方法、计算机程序产品及电子设备


[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、计算机程序产品及电子设备。

技术介绍

[0002]自动语音识别技术(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术。相关技术中,端到端语音识别模型的建模过程较简单,语音信号通过该语音识别模型后可以直接映射到文本序列。其中一种较主流的端到端语音识别模型为基于CTC(Connectionist Temporal Classification)以及预测掩码的非自回归端到端语音识别模型,然而该模型输出识别结果准确率受限。

技术实现思路

[0003]本申请提供了一种语音识别方法、计算机程序产品及电子设备,可有效提高语音识别准确率。
[0004]根据本申请实施例的第一方面,提供一种语音识别方法,所述方法应用于端到端语音识别模型,所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型;所述方法包括:
[0005]获取语音特征通过所述编码子模型进行编码后输出的特征序列,所述语音特征为语音信号进行特征提取后的特征;
[0006]获取所述特征序列通过所述解码子模型进行解码后输出的文本序列,所述文本序列包括至少一个文本单元;
[0007]至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元,得到掩蔽序列;
[0008]将所述掩蔽序列和所述特征序列输入所述语言子模型,以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码;
[0009]获取所述语言子模型输出的识别文本。
[0010]在一些例子中,所述语言子模型为经过利用口语化文本优化后的模型,所述口语化文本包括至少一个文本单元,所述所述语言子模型的优化过程包括:
[0011]针对所述口语化文本,按照预设的选中概率选定至少一个文本单元进行掩蔽处理;
[0012]将掩蔽处理后的口语化文本输入待优化的语言子模型;
[0013]根据损失函数更新所述待优化的语言子模型的参数。
[0014]在一些例子中,所述目标文本单元的数量不超过预设的数量阈值。
[0015]在一些例子中,所述语言子模型的训练过程包括:
[0016]将用于训练的文本进行分词处理;
[0017]按照预设的选中概率选定所述文本中的至少一个词语进行掩蔽处理;
[0018]将掩蔽处理后的文本输入待训练的语言子模型;
[0019]根据损失函数更新所述待训练的语言子模型的参数。
[0020]在一些例子中,所述掩蔽序列至少包括如下三类序列:
[0021]掩蔽所述目标文本单元的序列;
[0022]掩蔽所述目标文本单元以及其中一个与其相邻的文本单元的序列;
[0023]掩蔽所述目标文本单元以及另外一个与其相邻的文本单元的序列。
[0024]在一些例子中,所述语言子模型的解码过程包括:
[0025]所述语言子模型根据所述特征序列分别对所述三类序列解码,并确定各解码后的序列中置信度最高的为所述识别文本。
[0026]在一些例子中,所述语言子模型的解码过程包括不超过次数阈值的循环,所述解码过程的终止条件为:
[0027]所述循环的次数达到所述次数阈值;或
[0028]所述循环输出的文本序列中各文本单元的置信度均大于预设阈值。
[0029]在一些例子中,所述预设的选中概率根据所述解码子模型的解码准确率确定。
[0030]根据本申请实施例的第二方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。
[0031]根据本申请实施例的第三方面,提供一种电子设备,所述电子设备包括:
[0032]处理器;
[0033]用于存储处理器可执行指令的存储器;
[0034]其中,所述处理器被配置为:
[0035]获取语音特征通过编码子模型进行编码后输出的特征序列,所述语音特征为语音信号进行特征提取后的特征;
[0036]获取所述特征序列通过解码子模型进行解码后输出的文本序列,所述文本序列包括至少一个文本单元;
[0037]至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元,得到掩蔽序列;
[0038]将所述掩蔽序列和所述特征序列输入语言子模型,以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码;
[0039]获取所述语言子模型输出的识别文本。
[0040]本申请的实施例提供的技术方案可以包括以下有益效果:
[0041]本申请提供了一种语音识别方法、计算机程序产品及电子设备,将经过解码子模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽,并利用语言子模型解码掩蔽序列得到识别文本。在端到端语音识别模型中引入语言子模型,可以有效减少多音字对识别结果的影响,从而提升了语音识别准确率。
[0042]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0043]此处的附图被并入说明书中并构成本申请的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0044]图1是本申请根据一实施例示出的一种端到端语音识别模型的示意图。
[0045]图2是本申请根据一实施例示出的一种语音识别方法的流程图。
[0046]图3是本申请根据一实施例示出的文本序列和掩蔽序列示意图。
[0047]图4是本申请根据另一实施例示出的一种语音识别方法的流程图。
[0048]图5(a)是本申请根据一实施例示出的BERT语言模型解码过程的示意图。
[0049]图5(b)是本申请根据另一实施例示出的BERT语言模型解码过程的示意图。
[0050]图6(a)是本申请根据另一实施例示出的一种语音识别方法的流程图。
[0051]图6(b)是本申请根据另一实施例示出的BERT语言模型解码过程的示意图。
[0052]图7是本申请根据另一实施例示出的一种语音识别方法的流程图。
[0053]图8是本申请根据一实施例示出的一种电子设备的硬件结构图。
具体实施方式
[0054]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0055]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法应用于端到端语音识别模型,所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型;所述方法包括:获取语音特征通过所述编码子模型进行编码后输出的特征序列,所述语音特征为语音信号进行特征提取后的特征;获取所述特征序列通过所述解码子模型进行解码后输出的文本序列,所述文本序列包括至少一个文本单元;至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元,得到掩蔽序列;将所述掩蔽序列和所述特征序列输入所述语言子模型,以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码;获取所述语言子模型输出的识别文本。2.根据权利要求1所述的方法,其特征在于,所述语言子模型为经过利用口语化文本优化后的模型,所述口语化文本包括至少一个文本单元,所述所述语言子模型的优化过程包括:针对所述口语化文本,按照预设的选中概率选定至少一个文本单元进行掩蔽处理;将掩蔽处理后的口语化文本输入待优化的语言子模型;根据损失函数更新所述待优化的语言子模型的参数。3.根据权利要求1所述的方法,其特征在于,所述目标文本单元的数量不超过预设的数量阈值。4.根据权利要求1所述的方法,其特征在于,所述语言子模型的训练过程包括:将用于训练的文本进行分词处理;按照预设的选中概率选定所述文本中的至少一个词语进行掩蔽处理;将掩蔽处理后的文本输入待训练的语言子模型;根据损失函数更新所述待训练的语言子模型的参数。5.根据权利要求4所述的方法,其特征在于,所述掩蔽序列至少包括如下三类序列:掩蔽所述目标文...

【专利技术属性】
技术研发人员:吴振宗徐易楠康世胤许佳
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1