支持多语言混合的语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:29493880 阅读:26 留言:0更新日期:2021-07-30 19:06
本发明专利技术涉及人工智能,提供一种支持多语言混合的语音识别方法,包括:获取训练数据的语音特征;通过至少两个平行网络获取与所述语音特征分别对应的高维特征;对所述平行网络输出的高维特征进行特征拼接,并获取与所述训练数据对应的拼接特征;基于所述拼接特征训练神经网络模型,直至所述神经网络模型收敛至预设范围内,形成语音识别模型;通过所述语音识别模型对待识别的多语言混合信号进行语音识别。本发明专利技术可以提高多语言混合语音的识别精度。

【技术实现步骤摘要】
支持多语言混合的语音识别方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种支持多语言混合的语音识别的方法、装置、设备、电子设备及计算机可读存储介质。
技术介绍
伴随着人工智能技术的发展,越来越多的智能硬件进入人们的生活,而语音输入作为人机交互中最自然、最便捷的方式,逐渐成为主流的交互方式。因此,语音识别的性能直接决定了交互质量的高低。同时,由于全球化的不断深入,不同地区的文化、语言交流日益频繁,人们的语音中经常混合着不同语种,如普通话-英语、粤语-英语、普通话-粤语等。目前的语音识别系统在单一语种的识别任务上具备较好的性能,但在多语种混合识别的场景中还有很大的提升空间。目前,能够实现多语种混合语音识别的技术方案主要包括以下几种:1、基于两套单一语种的声学建模单元,先采用两个支持单一语种的语音识别模型分别对语音进行识别,再结合语种分类器对识别结果进行选取、整合;2、将上述方法中的单一语种识别模型进行合并,进行参数共享,共享后的模型依然具有两个语种的输出,同样使用语种分类器对识别结果进行选取、整合;3、将两套单一语种的声学建模单元进行合并,使用一个统一的识别模型对语音进行识别,不再需要语种分类器,输出结果即为混合语音的识别结果。在上述各方案中,方案1和方案2需要依赖高质量的语种分类器,且计算资源消耗较大,而方案3虽然系统设计简单,计算复杂度较小,但对于语种的区分度不够,尤其对于相近的发音单元,以及在训练语料中时长占比较少的语种,其识别性能普遍较差,导致识别精度低,效果差。
技术实现思路
本专利技术提供一种支持多语言混合的语音识别方法、装置、设备、电子设备及计算机可读存储介质,其主要目的在于提高多语言混合的语音识别的准确度。为实现上述目的,本专利技术提供的一种支持多语言混合的语音识别方法,其特征在于,所述方法包括:获取训练数据的语音特征;通过至少两个平行网络获取与所述语音特征分别对应的高维特征;对所述平行网络输出的高维特征进行特征拼接,并获取与所述训练数据对应的拼接特征;基于所述拼接特征训练神经网络模型,直至所述神经网络模型收敛至预设范围内,形成语音识别模型;通过所述语音识别模型对待识别的多语言混合信号进行语音识别。可选地,所述获取训练数据的语音特征的步骤包括:对所述训练数据进行频谱分析,获取与所述训练数据对应的语谱图;利用预设卷积神经网络对所述语谱图进行特征提取,获取与所述训练数据对应的所述语音特征。可选地,所述获取训练数据的语音特征的步骤包括:预先训练语音特征提取模型;将所述训练数据输入所述语音特征提取模型,通过所述语音特征提取模型对所述训练数据进行编码,以获取所述训练数据的隐层特征;对所述隐层特征进行非线性空间映射,获取与所述训练数据对应的所述语音特征。可选地,所述训练数据包括有标注的语音信号数据以及无标注的语音信号数据;所述有标注的语音信号数据采用数据集或语料库中的标注数据,或者人工、标注模型完成标注的标注数据。可选地,所述通过至少两个平行网络获取与所述语音特征分别对应的高维特征的步骤包括:基于预设的单一语种的语料一,获取与所述语料一对应的语音特征一,基于所述语音特征一训练所述平行网络中的一个网络;同时,基于预设的另一语种的语料二,获取与所述语料二对应的语音特征二,基于所述语音特征二训练所述平行网络中的另一网络,循环执行上述步骤,直至所有平行网络训练完成;基于训练完成的平行网络,获取与所述训练数据的语音特征分别对应的高维特征。可选地,所述对所述平行网络输出的高维特征进行特征拼接的步骤包括:对各高维特征进行加和平拼接和/或串联拼接;并且,所述各高维特征在所述拼接特征中的占比可调。可选地,所述通过所述语音识别模型对待识别的多语言混合信号进行语音识别的识别结果包括:所述待识别的多语言混合信号中不同语种的发音单元进行合并,且所述各不同语种之间相互独立;或者,所述待识别的多语言混合信号中不同语种且相似度符合预设要求的发音单元重新映射到共同的目标发音单元,形成不同语种的部分独立和部分融合;或者,所述待识别的多语言混合信号中不同语种全部映射到预设通用发音规则上,形成不同语种的完全融合。可选地,所述语音识别模型包括长短期记忆网络、双向长短期记忆网络、卷积神经网络中的至少一种或至少两组的组合。为了解决上述问题,本专利技术还提供一种支持多语言混合的语音识别装置,所述装置包括:语音特征获取单元,用于获取训练数据的语音特征;高维特征获取单元,用于通过至少两个平行网络获取与所述语音特征分别对应的高维特征;拼接特征获取单元,用于对所述平行网络输出的高维特征进行特征拼接,并获取与所述训练数据对应的拼接特征;语音识别模型形成单元,用于基于所述拼接特征训练神经网络模型,直至所述神经网络模型收敛至预设范围内,形成语音识别模型;语音识别单元,用于通过所述语音识别模型对待识别的多语言混合信号进行语音识别。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的支持多语言混合的语音识别方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的支持多语言混合的语音识别方法。本专利技术实施例通过获取训练数据的语音特征,然后通过至少两个平行网络获取与语音特征分别对应的高维特征,对平行网络输出的高维特征进行特征拼接,并获取与训练数据对应的拼接特征;基于拼接特征训练神经网络模型,直至神经网络模型收敛至预设范围内,形成语音识别模型;通过语音识别模型对待识别的多语言混合信号进行语音识别,能够实现对多语种混合语音的高准确度语音识别,识别准确度高、计算消耗小、可适用范围广。附图说明图1为本专利技术一实施例提供的支持多语言混合的语音识别方法的流程示意图;图2为本专利技术一实施例提供的神经网络模型的结构图;图3为本专利技术一实施例提供的支持多语言混合的语音识别装置的模块示意图;图4为本专利技术一实施例提供的实现支持多语言混合的语音识别方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种支持多语言混合的语音识别方法。参照图1所示,为本专利技术一实施例提供的支持多语言混合的语音识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本专利技术实施例中,支持多语言混合的语音识别方法主要包括:获取训练数据的语音特征;通过至少两个平行网络获取与所述语音特征分别对应的本文档来自技高网
...

【技术保护点】
1.一种支持多语言混合的语音识别方法,其特征在于,所述方法包括:/n获取训练数据的语音特征;/n通过至少两个平行网络获取与所述语音特征分别对应的高维特征;/n对所述平行网络输出的高维特征进行特征拼接,并获取与所述训练数据对应的拼接特征;/n基于所述拼接特征训练神经网络模型,直至所述神经网络模型收敛至预设范围内,形成语音识别模型;/n通过所述语音识别模型对待识别的多语言混合信号进行语音识别。/n

【技术特征摘要】
1.一种支持多语言混合的语音识别方法,其特征在于,所述方法包括:
获取训练数据的语音特征;
通过至少两个平行网络获取与所述语音特征分别对应的高维特征;
对所述平行网络输出的高维特征进行特征拼接,并获取与所述训练数据对应的拼接特征;
基于所述拼接特征训练神经网络模型,直至所述神经网络模型收敛至预设范围内,形成语音识别模型;
通过所述语音识别模型对待识别的多语言混合信号进行语音识别。


2.如权利要求1所述的支持多语言混合的语音识别方法,其特征在于,所述获取训练数据的语音特征的步骤包括:
对所述训练数据进行频谱分析,获取与所述训练数据对应的语谱图;
利用预设卷积神经网络对所述语谱图进行特征提取,获取与所述训练数据对应的所述语音特征。


3.如权利要求1所述的支持多语言混合的语音识别方法,其特征在于,所述获取训练数据的语音特征的步骤包括:
预先训练语音特征提取模型;
将所述训练数据输入所述语音特征提取模型,通过所述语音特征提取模型对所述训练数据进行编码,以获取所述训练数据的隐层特征;
对所述隐层特征进行非线性空间映射,获取与所述训练数据对应的所述语音特征。


4.如权利要求3所述的支持多语言混合的语音识别方法,其特征在于,
所述训练数据包括有标注的语音信号数据以及无标注的语音信号数据;
所述有标注的语音信号数据采用数据集或语料库中的标注数据,或者人工、标注模型完成标注的标注数据。


5.如权利要求1所述的支持多语言混合的语音识别方法,其特征在于,所述通过至少两个平行网络获取与所述语音特征分别对应的高维特征的步骤包括:
基于预设的单一语种的语料一,获取与所述语料一对应的语音特征一,基于所述语音特征一训练所述平行网络中的一个网络;同时,
基于预设的另一语种的语料二,获取与所述语料二对应的语音特征二,基于所述语音特征二训练所述平行网络中的另一网络,循环执行上述步骤,直至所有平行网络训练完成;
基于训练完成的平行网络,获取与所述训练数据的语音特征分别对应...

【专利技术属性】
技术研发人员:鄢楷强魏韬马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1