语音识别方法、装置和设备制造方法及图纸

技术编号:37636402 阅读:18 留言:0更新日期:2023-05-20 08:56
本发明专利技术提供一种语音识别方法、装置和设备,属于语音识别领域,该方法包括:获取待识别的语音数据;将语音数据输入训练后的语音识别模型,得到语音数据对应的目标文本;语音识别模型,包括:预处理层;预处理层用于获取语音数据的频域特征;编码层;编码层用于对语音数据的频域特征进行编码,得到语音数据对应的局部特征和上下文时序特征;解码层;解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定语音数据对应的目标文本。本发明专利技术的方法实现了语音数据的准确识别。语音数据的准确识别。语音数据的准确识别。

【技术实现步骤摘要】
语音识别方法、装置和设备


[0001]本专利技术涉及语音识别
,尤其涉及一种语音识别方法、装置和设备。

技术介绍

[0002]随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。一般来讲,人与机器的语言通信大致分为两种情况:第一种情况就是机器讲话,人听话。这就是“人工嘴巴”即语音的人工合成;第二种情况就是人讲话,机器听话。这即是“人工耳朵”,即语音的人工识别和理解。
[0003]相关技术中,语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。因而如此准确地进行语音识别是本领域技术人员亟需解决的技术问题。

技术实现思路

[0004]针对现有技术中的问题,本专利技术实施例提供一种语音识别方法、装置和设备。
[0005]具体地,本专利技术实施例提供了以下技术方案:第一方面,本专利技术实施例提供了一种语音识别方法,包括:获取待识别的语音数据;将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;所述语音识别模型,包括:预处理层;所述预处理层用于获取语音数据的频域特征;编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。
[0006]进一步地,所述语音识别模型基于如下方式进行训练:将语音数据样本输入初始语音识别模型,得到预测文本样本;根据所述预测文本样本和所述语音数据样本对应的字符序列进行训练,得到训练后的所述语音识别模型。
[0007]进一步地,所述解码层用于对语音数据对应的局部特征和上下文时序特征进行解码,得到语音数据对应的各个字符的各个候选字的概率值;根据语音数据样本生成多个词组;各个词组包括第一字符和第二字符;将多个词组根据第一字符进行分组,将第一字符作为键,将第一字符对应的第二字符所组成的第一序列作为键值,根据键和键值生成词语集合;根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,组成
权重集合;将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果;将第一个字符的识别结果作为已识别字符;步骤a、将已识别字符和词语集合中的键进行匹配,得到已识别字符对应的第一序列;步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;待识别字符为已识别字符之后紧邻的一个字符;步骤c、根据待识别字符所对应的各个候选字的概率值,确定待识别字符对应的K个候选字,生成候选字序列;步骤d、将候选字序列中的K个候选字分别与第一序列中的字符进行比对,根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值;步骤e、根据待识别字符的各个目标候选字的目标概率值,得到待识别字符的识别结果;将待识别字符的识别结果,作为已识别字符,重复执行步骤a

e,直至已识别字符为目标文本中的最后一个字符。
[0008]进一步地,所述根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,包括:基于如下公式确定词组的权重:;其中,ρ(x)表示词组的权重;ε代表初始权重;
µ
表示一个比例系数,表示词组出现频率对词组权重的影响程度;β表示权重阈值;x表示词组的出现次数。
[0009]进一步地,所述根据权重集合更新待识别字符的各个目标候选字的概率值,得到待识别字符的各个目标候选字的目标概率值,包括:利用如下公式确定目标候选字的目标概率值:;其中,表示目标候选字的目标概率值;表示权重集合中目标候选词组的权重;表示更新前的目标候选字的概率值。
[0010]第二方面,本专利技术实施例还提供了一种语音识别装置,包括:获取模块,用于获取待识别的语音数据;识别模块,用于将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;所述语音识别模型,包括:预处理层;所述预处理层用于获取语音数据的频域特征;编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;
解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。
[0011]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述语音识别方法。
[0012]第四方面,本专利技术实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述语音识别方法。
[0013]第五方面,本专利技术实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述语音识别方法。
[0014]本专利技术实施例提供的语音识别方法、装置和设备,通过获取待识别的语音数据,并通过语音识别模型提取语音数据的局部特征和上下文时序特征,并对语音数据的局部特征和上下文时序特征进行解码,也就可以得到语音数据对应的各个字符的各个候选字的概率,进而根据各个字符的各个候选字的概率,也就可以得到语音数据对应的目标文本。另一方面,本专利技术实施例中采用GLU门控线性单元和GLU激活函数构建编码层,相较于Relu效果要好,使得语音识别模型的收敛速度比其他模型和激活函数更快,从而使得语音识别模型可以更加准确地进行用户语音数据的识别。
附图说明
[0015]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术实施例提供的语音识别方法的流程示意图;图2是本专利技术实施例提供的语音识别装置的结构示意图;图3是本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0017]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别的语音数据;将所述语音数据输入训练后的语音识别模型,得到所述语音数据对应的目标文本;所述语音识别模型,包括:预处理层;所述预处理层用于获取语音数据的频域特征;编码层;所述编码层用于对所述语音数据的频域特征进行编码,得到所述语音数据对应的局部特征和上下文时序特征;所述编码层基于卷积神经网络CNN和循环神经网络RNN构建;所述CNN基于门控线性单元GLU构建;解码层;所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;基于马尔可夫假设的中文同音字辅助识别算法,更新各个候选字的概率值,确定所述语音数据对应的目标文本。2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型基于如下方式进行训练:将语音数据样本输入初始语音识别模型,得到预测文本样本;根据所述预测文本样本和所述语音数据样本对应的字符序列进行训练,得到训练后的所述语音识别模型。3.根据权利要求2所述的语音识别方法,其特征在于,所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码,得到所述语音数据对应的各个字符的各个候选字的概率值;根据语音数据样本生成多个词组;各个所述词组包括第一字符和第二字符;将多个所述词组根据第一字符进行分组,将第一字符作为键,将第一字符对应的第二字符所组成的第一序列作为键值,根据所述键和键值生成词语集合;根据各个词组和各个词组在语音数据样本中的概率,得到各个词组的权重,组成权重集合;将目标文本中第一个字符对应的各个候选字的概率值进行降序排列,将概率值最大的候选字作为目标文本中第一个字符的识别结果;将所述第一个字符的识别结果作为已识别字符;步骤a、将已识别字符和所述词语集合中的键进行匹配,得到所述已识别字符对应的第一序列;步骤b、根据目标文本中各个字符的各个候选字的概率值,确定待识别字符所对应的各个候选字的概率值;所述待识别字符为所述已识别字符之后紧邻的一个字符;步骤c、根据所述待识别字符所对应的各个候选字的概率值,确定所述待识别字符对应的K个候选字,生成候选字序列;步骤d、将所述候选字序列中的K个候选字分别与所述第一序列中的字符进行比对,根据权重集合更新待识别字符的...

【专利技术属性】
技术研发人员:王金桥孔清培黄文俊曾关生朱贵波谭大伦
申请(专利权)人:杰创智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1