语音识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：27689315 阅读：31 留言：0更新日期：2021-03-17 04:24

本申请提供了一种语音识别方法、装置、电子设备及可读存储介质，应用于语音识别技术领域，其中该方法包括：通过基于目标语音识别模型集中的语音识别模型对待识别语音进行语音识别，得到候选文本集，然后基于预训练的字符错误检测器对候选文本集中的候选文本进行字符错误检测，得到各个候选文本的字符错误检测结果，继而基于各个候选文本的字符错误检测结果确定对待识别语音进行语音识别的目标文本。即通过多个语音识别模型对待识别语音进行识别得到多个候选文本，然后基于字符错误检测器对多个候选文本的检测结果确定最终的目标识别文本，从而不需要进行语境检测，即使在语境比较模糊的情形下也能得到精确的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备及可读存储介质
本申请涉及语音识别
，具体而言，本申请涉及一种语音识别方法、装置、电子设备及可读存储介质。
技术介绍
语音识别通常含两部分，即语音模型和语言模型。语音模型负责把音频转换成文字序列并输出相应的概率，如发音chifan可能输出为(吃0.99,此0.01),(饭0.8,番0.1)，其中的数字表示该文字与发音匹配的概率。语言模型负责把对语音模型的输出进行路径搜索，比如前述输出共有四个可能的组合：吃饭，吃番，此饭，此番。语言模型分别对这四个候选组合进行打分，最后结合语言语法的概率和发音的概率最后选择“吃饭”作为最终的输出。如果chifan的面还有后续发音，如chifanqianlai，则语言模型较大概率会选择“此番”作为输出，使得最后的语句为“此番前来”。由此可见，语言模型有助于解决语音识别中的文本选择问题，特别是遇到一些存在歧义的发音时，需要语言模型参与最终决策。为更加精确了解说话人的意图并实现准确转写，现有技术在转写前，先确定用户所在的语境，如在医院环境，则使用与医学相关的...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：/n基于目标语音识别模型集中的语音识别模型对待识别语音进行语音识别，得到候选文本集；/n基于预训练的字符错误检测器对所述候选文本集中的候选文本进行字符错误检测，得到各个候选文本的字符错误检测结果；/n基于各个候选文本的字符错误检测结果确定对待识别语音进行语音识别的目标文本。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
基于目标语音识别模型集中的语音识别模型对待识别语音进行语音识别，得到候选文本集；
基于预训练的字符错误检测器对所述候选文本集中的候选文本进行字符错误检测，得到各个候选文本的字符错误检测结果；
基于各个候选文本的字符错误检测结果确定对待识别语音进行语音识别的目标文本。

2.根据权利要求1所述的方法，其特征在于，所述目标语音识别模型集包括至少两个不同语境下的语音识别模型。

3.根据权利要求1所述的方法，其特征在于，所述基于目标语音识别模型集中的语音识别模型对待识别语音进行语音识别，得到候选文本集，包括：
基于目标语音识别模型集中的任一语音识别模型对待识别语音进行语音识别，得到至少一个候选文本。

4.根据权利要求1所述的方法，其特征在于，所述基于预训练的字符错误检测器对所述候选文本集中的候选文本进行字符错误检测，包括：
将所述候选文本输入至预训练的Transformer网络，得到所述候选文本的状态向量；
将所述候选文本的状态向量作为循环神经网络的输入，并经过一个全连接网络后输入至分类器，得到各个字符的正确概率值。

5.根据权利要求1所述的方法，其特征在于，所述基于各个候选文本的字符错误检测结果确定对待识别语音进行语音识别的目标文本，包括：
确定各个候选文本的字符错误率；
将字符错误率低的候选文本作为对待识别语音进行语音识别的目标文本。

<...

【专利技术属性】
技术研发人员：赖勇铨，
申请(专利权)人：中信银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人