语音识别方法、系统及终端技术方案

技术编号：37798154 阅读：15 留言：0更新日期：2023-06-09 09:28

本公开提供了一种语音识别方法、系统及终端，其中方法可包括：接收待识别语音；对所述待识别语音进行声学特征提取并进行编码；使用拼音解码器对经编码的声学特征进行解码以输出拼音；以及使用汉字解码器对经编码的声学特征进行解码以输出汉字，其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上，其中所述方法进一步包括：对所述拼音解码器的性能进行评估；以及在所述拼音解码器的性能被评估为满足要求之前，至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。拼音代替所述拼音解码器输出的拼音。拼音代替所述拼音解码器输出的拼音。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、系统及终端

[0001]本专利技术主要涉及语音识别技术，更具体地，涉及语音识别方法、系统及终端。

技术介绍

[0002]语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)。随着人工智能技术的发展，语音识别技术也取得了长足进步，其中端到端(end to end)语音识别(e2e
‑
asr)是近年来开发的一种区别于传统语音识别的框架，并逐渐成为一种趋势。传统语音识别一般分为声学模型与语言模型，声学模型负责将音频序列转化为音素序列，常见的音素比如汉语拼音、英文音标等，语言模型则负责将这些音素序列转化成文字序列。声学模型和语言模型在训练时并不需要耦合，可以独立训练，传统语音模型的劣势在于需要有发音字典，需要有音素的标注。
[0003]与传统语音识别不同，端到端语音识别系统直接将音频序列转化为文字序列。然而，目前的直接对文字进行建模的端到端语音识别系统，存在较多的非近音字的替换错误。一个语音识别系统的非近音字错误越多，该语音识别系统的声学性能就越差，用户体验也越差。

技术实现思路

[0004]为解决上述技术问题，本公开提供了一种语音识别方法和系统，相对于现有的中文端到端语音识别系统，本公开的系统除了用的编码器以及汉字解码器外，增加一个拼音解码器，并且将拼音解码器的输出作为一种特征叠加到汉字解码器的输入上，能够有效改善非近音字替换错误。
[0005]在本公开的一方面，提供了一种语音识别方法，包括：接收待识别语音；对...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，包括：接收待识别语音；对所述待识别语音进行声学特征提取并进行编码；使用拼音解码器对经编码的声学特征进行解码以输出拼音；以及使用汉字解码器对经编码的声学特征进行解码以输出汉字，其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上，其中所述方法进一步包括：对所述拼音解码器的性能进行评估；以及在所述拼音解码器的性能被评估为满足要求之前，至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。2.如权利要求1所述的方法，其中所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。3.如权利要求1所述的方法，其中对所述拼音解码器的性能进行评估进一步包括：将从字典获取的拼音与所述经训练的拼音解码器的相应输出结果进行对照；以及如果从字典获取的拼音在所述拼音解码器所输出的多个候选结果中的排序处于概率最高的前阈值数量个候选结果之内，则将所述拼音解码器的性能评估为满足要求。4.如权利要求1所述的方法，其中使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括：对用于训练的语料音频文本对执行对齐，以逐汉字地对音频划界并与文本中的对应汉字对齐；通过查字典获取与文本中的汉字对应的真实拼音；以及将所获取的真实拼音通过嵌入叠加在输入给所述汉字解码器的对应的经编码的声学特征上。5.如权利要求1所述的方法，其中所述方法进一步包括：在所述拼音解码器的性能满足要求之后，在训练所述汉字解码器时将部分从字典获取的拼音替换为由所述拼音解码器输出的拼音。6.如权利要求1所述的方法，其中将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括：将拼音转换成one
‑
...

【专利技术属性】
技术研发人员：王涛，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人