语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38526860 阅读:8 留言:0更新日期:2023-08-19 17:02
本发明专利技术涉及语音识别和数字医疗领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。其方法包括:获取待识别语音数据;通过语音识别模型的语音编码器对待识别语音数据进行编码处理,得到语音特征;通过语音识别模型的语音词嵌入器对语音特征进行词嵌入处理,得到词嵌入特征;根据语音特征和词嵌入特征,对待识别语音数据进行语音识别,得到语音识别结果。本发明专利技术的获得的语音识别结果不仅仅局限于用于语音识别模型训练的训练数据集中的词信息,还考虑了输入数据的隐藏词信息,可提高语音识别过程中语法分析和语音分析的效果,从而提高语音识别的准确率。而提高语音识别的准确率。而提高语音识别的准确率。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音识别和数字医疗领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语音技术的持续发展和越来越多的行业应用到语音识别技术,使得行业对语音识别技术的研究越来越深入。比如,在数字医疗相关场景下,比如智能诊疗、远程会诊时,经常需要使用到语音识别技术。
[0003]目前,语音识别
一般通过将语音数据输入训练完成的语音识别模型进行语音识别,得到文字文本。其中,语音识别模型包括声学模型和语言模型。在对语音识别模型进行端到端的训练学习的过程中时,该语音识别模型的训练既包含了声学模型的信息,也包含了语言模型的信息,使得语音识别模型耦合了训练数据中的语言信息。由于语音识别模型耦合了训练数据中的语言信息,故而,在通过该训练完成的语音识别模型应用到与训练数据不同的场景时,很容易导致该训练完成的语音识别模型的识别准确率较低。因此,现有的语音识别技术在针对与训练数据不同的应用场景的语音识别时,存在识别准确率较低的问题,而在智能诊疗、远程会诊时,若语音识别准确率较低,将导致问诊效率低和问诊效果差。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种语音识别方法、装置、计算机设备及存储介质,以解决现有语音识别技术中识别准确率较低的问题。
[0005]一种语音识别方法,包括:
[0006]获取待识别语音数据;
[0007]通过语音识别模型的语音编码器对所述待识别语音数据进行编码处理,得到语音特征;
[0008]通过所述语音识别模型的语音词嵌入器对所述语音特征进行词嵌入处理,得到词嵌入特征;
[0009]根据所述语音特征和词嵌入特征,对所述待识别语音数据进行语音识别,得到语音识别结果。
[0010]一种语音识别装置,包括:
[0011]待识别语音数据模块,用于获取待识别语音数据;
[0012]语音特征模块,用于通过语音识别模型的语音编码器对所述待识别语音数据进行编码处理,得到语音特征;
[0013]词嵌入特征模块,用于通过所述语音识别模型的语音词嵌入器对所述语音特征进行词嵌入处理,得到词嵌入特征;
[0014]语音识别结果模块,用于根据所述语音特征和词嵌入特征,对所述待识别语音数
据进行语音识别,得到语音识别结果。
[0015]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音识别方法。
[0016]一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述语音识别方法。
[0017]上述语音识别方法、装置、计算机设备及存储介质,通过获取待识别语音数据;通过语音识别模型的语音编码器对所述待识别语音数据进行编码处理,得到语音特征;通过所述语音识别模型的语音词嵌入器对所述语音特征进行词嵌入处理,得到词嵌入特征;根据所述语音特征和词嵌入特征,对所述待识别语音数据进行语音识别,得到语音识别结果。本专利技术的语音识别结果基于语音特征和词嵌入特征获取,而词嵌入特征包含了待识别语音数据中的隐藏词信息,使得该语音识别结果不仅仅局限于用于语音识别模型训练的训练数据集中的词信息,还考虑了输入数据的隐藏词信息,可提高语音识别过程中语法分析和语音分析的效果,从而提高语音识别的准确率。上述语音识别方法可应用于智能诊疗、远程会诊,如此,可以提升问诊双方的提高语音识别的准确率,进而提升问诊效率和效果。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例中语音识别方法的一应用环境示意图;
[0020]图2是本专利技术一实施例中语音识别方法的一流程示意图;
[0021]图3是本专利技术一实施例中语音识别装置的一结构示意图;
[0022]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]本实施例提供的语音识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0025]在一实施例中,如图2所示,提供一种语音识别方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
[0026]S10、获取待识别语音数据。
[0027]可理解地,待识别语音数据是指待转换为文字文本的语音。
[0028]S20、通过语音识别模型的语音编码器对所述待识别语音数据进行编码处理,得到语音特征。
[0029]可理解地,语音识别模型为训练完成的神经网络模型,该语音识别模型包括语音编码器。其中,语音编码器用于对输入的待识别语音数据进行编码处理,将待识别语音数据转换为编码数据。该语音识别模型用于对待识别语音数据进行语音特征的提取,获得语音特征。具体地,通过语音识别模型的语音编码器对待识别语音数据进行编码处理,将待识别语音数据转换为编码数据。语音特征为待识别语音数据中语音的特征,可通过编码数据获得。
[0030]S30、通过所述语音识别模型的语音词嵌入器对所述语音特征进行词嵌入处理,得到词嵌入特征。
[0031]可理解地,词嵌入的方法包括但不限于神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等。在此,语音词嵌入器为神经网络模型,该语音词嵌入器用于对语音特征进行词嵌入处理,以将语音特征进行降维转换,得到词嵌入特征。其中,词嵌入特征中包含待识别语音数据中的隐藏词信息。具体地,词嵌入特征可包含待识别语音数据中的音译词信息。例如,待识别语音数据中有发音为“yin”的语音,则词嵌入特征可包含若干发音为“yin”的词的信息。
[0032]S40、根据所述语音特征和词嵌入特征,对所述待识别语音数据进行语音识别,得到语音识别结果。
[0033]可理解地,对待识别语音数据进行语音识别是指通过语音识别模型的文本解码器对语音特征和词嵌入特征进行解码为文本数据的过程。语音识别结果为将待识别语音数据转换为文本数据的结果。其中,词嵌入特征包含了待识别语音数据中的隐藏词信息,而非局限于用于语音识别模型训练的训练数据集中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音数据;通过语音识别模型的语音编码器对所述待识别语音数据进行编码处理,得到语音特征;通过所述语音识别模型的语音词嵌入器对所述语音特征进行词嵌入处理,得到词嵌入特征;根据所述语音特征和词嵌入特征,对所述待识别语音数据进行语音识别,得到语音识别结果。2.如权利要求1所述的语音识别方法,其特征在于,所述通过所述语音识别模型的语音词嵌入器对所述语音特征进行词嵌入处理,得到词嵌入特征,包括:对所述语音特征进行线性归一化处理,得到归一化语音特征;通过所述语音词嵌入器对所述归一化语音特征进行词嵌入处理,得到与所述待识别语音数据对应的词嵌入向量;通过所述词嵌入器的词向量解码器对所述词嵌入向量进行解码处理,得到所述词嵌入特征。3.如权利要求1所述的语音识别方法,其特征在于,在所述通过语音识别模型对所述待识别语音数据进行语言特征提取,得到语言特征之前,包括:获取语音数据样本和与所述语音数据样本对应的文本数据样本;通过初始语音识别模型的初始语音编码器对所述语音数据样本进行样本编码处理,得到语音特征样本;通过所述初始语音识别模型的语音词嵌入器对所述语音特征样本进行样本词嵌入处理,得到词嵌入特征样本;对所述文本数据样本进行词向量转换处理,得到词向量样本;将所述语音特征样本、所述词向量样本和所述词嵌入特征样本输入所述初始语音识别模型的初始文本解码器中进行解码处理,得到初始识别结果;根据所述语音数据样本、所述语音特征样本、所述文本数据样本和所述初始识别结果确定所述初始语音识别模型的总损失值;在所述总损失值未达到预设的收敛条件时,迭代更新所述初始语音识别模型的初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始语音识别模型作为所述语音识别模型。4.如权利要求3所述的语音识别方法,其特征在于,所述根据所述语音数据样本、所述语音特征样本、所述文本数据样本和所述初始识别结果确定所述初始语音识别模型的总损失值,包括:根据所述语音数据样本和所述语音特征样本确定所述初始语音编码器的第一损失值;根据所述文本数据样本和所述初始识别结果确定所述初始文本解码器的第二损失值;根据所述第一损失值和所述第二损失值,确定所述初始语音识别...

【专利技术属性】
技术研发人员:赵梦原王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1