语音识别方法、装置和设备制造方法及图纸

技术编号：37636402 阅读：18 留言：0更新日期：2023-05-20 08:56

本发明专利技术提供一种语音识别方法、装置和设备，属于语音识别领域，该方法包括：获取待识别的语音数据；将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；语音识别模型，包括：预处理层；预处理层用于获取语音数据的频域特征；编码层；编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；解码层；解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本。本发明专利技术的方法实现了语音数据的准确识别。语音数据的准确识别。语音数据的准确识别。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置和设备

[0001]本专利技术涉及语音识别
，尤其涉及一种语音识别方法、装置和设备。

技术介绍

[0002]随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。一般来讲,人与机器的语言通信大致分为两种情况:第一种情况就是机器讲话,人听话。这就是“人工嘴巴”即语音的人工合成;第二种情况就是人讲话,机器听话。这即是“人工耳朵”,即语音的人工识别和理解。
[0003]相关技术中，语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。因而如此准确地进行语音识别是本领域技术人员亟需解决的技术问题。

技术实现思路

[0004]针对现有技术中的问题，本专利技术实施例提供一种语音识别方法、装置和设备。
[0005]具体地，本专利技术实施例提供了以下技术方案：第一方面，本专利技术实施例提供了一种语音识别方法，包括：获取待识别的语音数据；将所述语音数据输入训练后的语音识别模型，得到所述语音数据对应的目标文本；所述语音识别模型，包括：预处理层；所述预处理层用于获取语音数据的频域特征；编码层；所述编码层用于对所述语音数据的频域特征进行编码，得到所述语音数据对应的局部特征和上下文时序特征；所述编码层基于卷积神经网络CNN和循环神经网络RNN构建；所述CNN基于门控线性单元GLU构建；解码层；所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码，得到所述语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待识别的语音数据；将所述语音数据输入训练后的语音识别模型，得到所述语音数据对应的目标文本；所述语音识别模型，包括：预处理层；所述预处理层用于获取语音数据的频域特征；编码层；所述编码层用于对所述语音数据的频域特征进行编码，得到所述语音数据对应的局部特征和上下文时序特征；所述编码层基于卷积神经网络CNN和循环神经网络RNN构建；所述CNN基于门控线性单元GLU构建；解码层；所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码，得到所述语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定所述语音数据对应的目标文本。2.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别模型基于如下方式进行训练：将语音数据样本输入初始语音识别模型，得到预测文本样本；根据所述预测文本样本和所述语音数据样本对应的字符序列进行训练，得到训练后的所述语音识别模型。3.根据权利要求2所述的语音识别方法，其特征在于，所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码，得到所述语音数据对应的各个字符的各个候选字的概率值；根据语音数据样本生成多个词组；各个所述词组包括第一字符和第二字符；将多个所述词组根据第一字符进行分组，将第一字符作为键，将第一字符对应的第二字符所组成的第一序列作为键值，根据所述键和键值生成词语集合；根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重，组成权重集合；将目标文本中第一个字符对应的各个候选字的概率值进行降序排列，将概率值最大的候选字作为目标文本中第一个字符的识别结果；将所述第一个字符的识别结果作为已识别字符；步骤a、将已识别字符和所述词语集合中的键进行匹配，得到所述已识别字符对应的第一序列;步骤b、根据目标文本中各个字符的各个候选字的概率值，确定待识别字符所对应的各个候选字的概率值；所述待识别字符为所述已识别字符之后紧邻的一个字符；步骤c、根据所述待识别字符所对应的各个候选字的概率值，确定所述待识别字符对应的K个候选字，生成候选字序列；步骤d、将所述候选字序列中的K个候选字分别与所述第一序列中的字符进行比对，根据权重集合更新待识别字符的...

【专利技术属性】
技术研发人员：王金桥，孔清培，黄文俊，曾关生，朱贵波，谭大伦，
申请(专利权)人：杰创智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人