语音处理方法、装置、存储介质、电子设备及系统制造方法及图纸

技术编号:37581635 阅读:21 留言:0更新日期:2023-05-15 07:56
本申请公开了一种语音处理方法、装置、存储介质、电子设备及系统。其中,该方法包括:获取待识别语音信号;采用预设语音识别方式将待识别语音信号转换为目标文本,其中,预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式;显示目标文本。本申请解决了相关技术中由于进行端到端语音识别处理时采用非自回归方式进行数据解码而导致语音识别效果较差的技术问题。而导致语音识别效果较差的技术问题。而导致语音识别效果较差的技术问题。

【技术实现步骤摘要】
语音处理方法、装置、存储介质、电子设备及系统


[0001]本申请涉及语音处理
,具体而言,涉及一种语音处理方法、装置、存储介质、电子设备及系统。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition,ASR)技术的目标是将语音中的词汇内容转换为计算机可读的输入内容,例如按键、二进制编码或者字符序列。随着移动互联网的快速普及,ASR技术可以广泛应用于工业、家电、通信、消费电子产品等多个领域,对实现人机自然交互具有重要意义。
[0003]相关技术中,采用基于序列到序列(Sequence to Sequence,Seq2Seq)模型的端到端语音识别系统进行语音识别处理,Seq2Seq模型由编码器和带有注意力机制的解码器构成。在Seq2Seq模型的解码阶段,通常是以从左到右的自回归方式进行解码,即当前的解码结果需要依赖前面的历史解码结果,这种解码方式虽然能够保证语音识别处理的识别准确率,但由于各个时刻的解码结果互相依赖,导致解码效率低下,进一步会对端到端语音识别系统的识别效率产生较大影响。为提升解码效率,相关技术中还可以采用非自回归的端到端语音识别系统进行语音识别处理,然而非自回归解码相比于自回归解码虽然在解码效率上有很大提升,但在识别效果上却有较大幅度的下降。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法、装置、存储介质、电子设备及系统,以至少解决相关技术中由于进行端到端语音识别处理时采用非自回归方式进行数据解码而导致语音识别效果较差的技术问题。
[0006]根据本申请其中一实施例,提供了一种语音处理方法,包括:获取待识别语音信号;采用预设语音识别方式将待识别语音信号转换为目标文本,其中,预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式;显示目标文本。
[0007]根据本申请其中一实施例,还提供了一种语音处理方法,包括:接收来自于客户端的待识别语音信号;采用预设语音识别方式将待识别语音信号转换为目标文本,其中,预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式;将目标文本反馈至客户端。
[0008]根据本申请其中一实施例,还提供了一种语音处理装置,包括:获取模块,用于获取待识别语音信号;处理模块,用于采用预设语音识别方式将待识别语音信号转换为目标文本,其中,预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式;显示模块,用于显示目标文本。
[0009]根据本申请其中一实施例,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行本申请
实施例中任意一项的语音处理方法。
[0010]根据本申请其中一实施例,还提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行本申请实施例中任意一项的语音处理方法。
[0011]根据本申请其中一实施例,还提供了一种语音处理系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待识别语音信号;采用预设语音识别方式将待识别语音信号转换为目标文本,其中,预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式;显示目标文本。
[0012]在本申请实施例中,通过获取待识别语音信号,进而采用预设语音识别方式将待识别语音信号转换为目标文本,其中,预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式,最后对目标文本进行显示,达到了对待识别语音信号进行高效准确地识别的目的,从而实现了在保证解码效率的同时提升语音识别效果的技术效果,进而解决了相关技术中由于进行端到端语音识别处理时采用非自回归方式进行数据解码而导致语音识别效果较差的技术问题。
[0013]容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
[0014]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0015]图1是根据本申请实施例的一种用于实现语音处理方法的计算机终端(或移动设备)的硬件结构框图;
[0016]图2是根据本申请实施例的一种语音处理方法的流程图;
[0017]图3是根据本申请实施例的一种语音处理方法的示意图
[0018]图4是根据本申请实施例的一种可选的语音处理方法的流程图;
[0019]图5是根据本专利技术实施例的一种在云端服务器进行语音处理方法的示意图;
[0020]图6是根据本申请实施例的一种语音处理装置的结构框图;
[0021]图7是根据本申请实施例的一种可选的语音处理装置的结构框图;
[0022]图8是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
[0023]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0024]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025]首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
[0026]基于自注意力机制的编码器

解码器结构(Attention

Encoder

Decoder,AED):可用于构造基于Seq2Seq模型的端到端语音识别系统,目前主流的端到端语音识别框架之一转换器(Transformer)就属于这种结构。
[0027]连接时序分类(Connectionist Temporal Classification,CTC):一种可用于构造基于CTC模型的端到端语音识别系统的算法。
[0028]非自回归语音识别(Non

Autoregressive Automatic Speech Recog本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取待识别语音信号;采用预设语音识别方式将所述待识别语音信号转换为目标文本,其中,所述预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式;显示所述目标文本。2.根据权利要求1所述的语音处理方法,其特征在于,采用所述预设语音识别方式将所述待识别语音信号转换为所述目标文本包括:采用第一语音识别模型对所述待识别语音信号进行语音识别,得到所述目标文本,其中,所述第一语音识别模型为目标非自回归语音识别模型,所述第一语音识别模型基于编辑距离的最低贝叶斯风险区分性准则训练得到。3.根据权利要求2所述的语音处理方法,其特征在于,所述语音处理方法还包括:采用第二语音识别模型对语音样本数据进行特征编码,得到第一编码结果,其中,所述第二语音识别模型为初始非自回归语音识别模型;通过预训练语言模型和所述第一编码结果确定目标损失,其中,所述预训练语言模型为预先训练的自回归形式的语言模型,所述目标损失为基于编辑距离的最低贝叶斯风险区分性损失;基于所述目标损失对所述第二语音识别模型的模型参数进行优化,得到所述第一语音识别模型。4.根据权利要求3所述的语音处理方法,其特征在于,通过所述预训练语言模型和所述第一编码结果确定所述目标损失包括:采用所述预训练语言模型对所述第一编码结果进行解码,生成预设语音预测序列;基于所述预设语音预测序列计算所述目标损失。5.根据权利要求3所述的语音处理方法,其特征在于,所述预训练语言模型基于文本样本数据训练得到,且所述预训练语言模型的模型参数保持不变。6.根据权利要求2所述的语音处理方法,其特征在于,采用所述第一语音识别模型对所述待识别语音信号进行语音识别,得到所述目标文本包括:采用所述第一语音识别模型对所述待识别语音信号进行特征编码,得到第二编码结果;采用第一解码方式对所述第二编码结果进行特征解码,得到所述目标文本,其中,所述第一解码方式为非自回归解码方式。7.根据权利要求6所述的语音处理方法,其特征在于,采用所述第一解码方式对所述第二编码结果进行特征解码,得到所述目标文本包括:采用贪婪搜索解码方式对所述第二编码结果进行特征解码,在语音特征...

【专利技术属性】
技术研发人员:黄健张仕良
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1