语音识别方法、系统及终端技术方案

技术编号:37798154 阅读:15 留言:0更新日期:2023-06-09 09:28
本公开提供了一种语音识别方法、系统及终端,其中方法可包括:接收待识别语音;对所述待识别语音进行声学特征提取并进行编码;使用拼音解码器对经编码的声学特征进行解码以输出拼音;以及使用汉字解码器对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上,其中所述方法进一步包括:对所述拼音解码器的性能进行评估;以及在所述拼音解码器的性能被评估为满足要求之前,至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。拼音代替所述拼音解码器输出的拼音。拼音代替所述拼音解码器输出的拼音。

【技术实现步骤摘要】
语音识别方法、系统及终端


[0001]本专利技术主要涉及语音识别技术,更具体地,涉及语音识别方法、系统及终端。

技术介绍

[0002]语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR)。随着人工智能技术的发展,语音识别技术也取得了长足进步,其中端到端(end to end)语音识别(e2e

asr)是近年来开发的一种区别于传统语音识别的框架,并逐渐成为一种趋势。传统语音识别一般分为声学模型与语言模型,声学模型负责将音频序列转化为音素序列,常见的音素比如汉语拼音、英文音标等,语言模型则负责将这些音素序列转化成文字序列。声学模型和语言模型在训练时并不需要耦合,可以独立训练,传统语音模型的劣势在于需要有发音字典,需要有音素的标注。
[0003]与传统语音识别不同,端到端语音识别系统直接将音频序列转化为文字序列。然而,目前的直接对文字进行建模的端到端语音识别系统,存在较多的非近音字的替换错误。一个语音识别系统的非近音字错误越多,该语音识别系统的声学性能就越差,用户体验也越差。

技术实现思路

[0004]为解决上述技术问题,本公开提供了一种语音识别方法和系统,相对于现有的中文端到端语音识别系统,本公开的系统除了用的编码器以及汉字解码器外,增加一个拼音解码器,并且将拼音解码器的输出作为一种特征叠加到汉字解码器的输入上,能够有效改善非近音字替换错误。
[0005]在本公开的一方面,提供了一种语音识别方法,包括:接收待识别语音;对所述待识别语音进行声学特征提取并进行编码;使用拼音解码器对经编码的声学特征进行解码以输出拼音;以及使用汉字解码器对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上,其中方法进一步包括:对拼音解码器的性能进行评估;以及在拼音解码器的性能被评估为满足要求之前,至少部分地使用与声学特征对应的真实拼音代替拼音解码器输出的拼音。
[0006]根据本公开的进一步实施例,所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。
[0007]根据本公开的进一步实施例,对所述拼音解码器的性能进行评估进一步包括:将从字典获取的拼音与所述经训练的拼音解码器的相应输出结果进行对照;以及如果从字典获取的拼音在所述拼音解码器所输出的多个候选结果中的排序处于概率最高的前阈值数量个候选结果之内,则将所述拼音解码器的性能评估为满足要求。
[0008]根据本公开的进一步实施例,使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括:对用于训练的语料音频文本对执行对齐,以逐汉字地对音频划界并与文本中的对应汉字对齐;通过查字典获取与文本中的汉字对应的真实拼音;以
及将所获取的真实拼音通过嵌入叠加在输入给所述汉字解码器的对应的经编码的声学特征上。
[0009]根据本公开的进一步实施例,所述方法进一步包括:在所述拼音解码器的性能满足要求之后,在训练所述汉字解码器时将部分从字典获取的拼音替换为由所述拼音解码器输出的拼音。
[0010]根据本公开的进一步实施例,将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括:将拼音转换成one

hot编码;以及将与汉字对应的one

hot编码叠加在输入给所述汉字解码器的经编码的声学特征上。
[0011]根据本公开的进一步实施例,使用汉字解码器对经编码的声学特征进行解码以输出汉字进一步包括:在汉字解码器的输出结果中,针对相似发音进行概率平滑。
[0012]根据本公开的进一步实施例,所述拼音被进一步拆分为声母和韵母。
[0013]在本专利技术的另一方面,提供了一种语音识别系统,包括:接收模块,所述接收模块被配置成接收待识别语音;特征提取模块,所述特征提取模块被配置成对所述待识别语音进行声学特征提取并进行编码;拼音解码器,所述拼音解码器被配置成对经编码的声学特征进行解码以输出拼音,其中在拼音解码器的性能被评估为满足要求之前,至少部分地使用与声学特征对应的真实拼音代替拼音解码器输出的拼音;以及汉字解码器,所述汉字解码器被配置成对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上。
[0014]根据本公开的进一步实施例,所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。
[0015]根据本公开的进一步实施例,将拼音通过嵌入进一步包括:将拼音转换为one

hot编码;以及将与汉字对应的one

hot编码叠加到所述汉字解码器的输入。
[0016]根据本公开的进一步实施例,所述汉字解码器的输出结果中针对相似发音进行概率平滑。
[0017]根据本公开的进一步实施例,所述拼音被进一步拆分为声母和韵母。
[0018]在本专利技术的又一方面,提供了一种终端,包括:如本公开所描述的语音识别系统。
[0019]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
附图说明
[0020]本公开的以上
技术实现思路
以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的专利技术的示例。在附图中,相同的附图标记代表相同或类似的元素。
[0021]图1示出根据本公开一实施例的语音识别系统的示例构建过程;
[0022]图2是示出根据本公开一实施例的语音识别方法的流程图;
[0023]图3是示出根据本公开一实施例的语音识别系统的示例框图;
[0024]图4是示出根据本公开一实施例的终端的示例框图。
具体实施方式
[0025]为使得本公开的上述目的、特征和优点能更加明显易懂,以下结合附图对本公开的具体实施方式作详细说明。
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但是本公开还可以采用其它不同于在此描述的其它方式来实施,因此本公开不受下文公开的具体实施例的限制。
[0027]近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,已逐渐应用于日常生活的各个方面,例如语音识别听写器、智能客服、实时字幕等等。近年来,端到端(E2E)模型开始被广泛应用于语音识别领域。不同于传统语音识别系统中的发音字典、声学模型和语言模型,E2E语音识别只分为输入端的语音特征和输出端的文本信息。在传统的语音识别框架中,整个自动语音识别系统由多个模块组成,包括声学模型、发音词典和语言建模。为了避免这些复杂的建模过程,端到端模型从输入端(语音波形或特征序列)到输出端(单词或字符序列)直接用一个神经网络相连,用这个神经网络承担了原先所有模块的功能。通过训练直接优化最终结果,极大程度上简化了语音识别任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:接收待识别语音;对所述待识别语音进行声学特征提取并进行编码;使用拼音解码器对经编码的声学特征进行解码以输出拼音;以及使用汉字解码器对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上,其中所述方法进一步包括:对所述拼音解码器的性能进行评估;以及在所述拼音解码器的性能被评估为满足要求之前,至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。2.如权利要求1所述的方法,其中所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。3.如权利要求1所述的方法,其中对所述拼音解码器的性能进行评估进一步包括:将从字典获取的拼音与所述经训练的拼音解码器的相应输出结果进行对照;以及如果从字典获取的拼音在所述拼音解码器所输出的多个候选结果中的排序处于概率最高的前阈值数量个候选结果之内,则将所述拼音解码器的性能评估为满足要求。4.如权利要求1所述的方法,其中使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括:对用于训练的语料音频文本对执行对齐,以逐汉字地对音频划界并与文本中的对应汉字对齐;通过查字典获取与文本中的汉字对应的真实拼音;以及将所获取的真实拼音通过嵌入叠加在输入给所述汉字解码器的对应的经编码的声学特征上。5.如权利要求1所述的方法,其中所述方法进一步包括:在所述拼音解码器的性能满足要求之后,在训练所述汉字解码器时将部分从字典获取的拼音替换为由所述拼音解码器输出的拼音。6.如权利要求1所述的方法,其中将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括:将拼音转换成one

...

【专利技术属性】
技术研发人员:王涛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1