一种模型训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号:22886077 阅读:20 留言:0更新日期:2019-12-21 08:03
本申请实施例公开了一种模型训练方法、装置、存储介质及电子设备,其中,方法包括:获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。采用本申请实施例,可以提升模型的鲁棒性,提高模型的识别准确率。

A model training method, device, storage medium and electronic equipment

【技术实现步骤摘要】
一种模型训练方法、装置、存储介质及电子设备
本申请涉及计算机
,尤其涉及一种模型训练方法、装置、存储介质及电子设备。
技术介绍
随着通信技术的发展和智能终端的普及,一种新兴智能求救方式-求救语音识别方式越来越受到人们的欢迎,人们可以在出现意外或危险而无人知晓的情况下通过发出求救语音,用户终端接收到求救语音之后,识别求救语音的求救信息,基于求救信息进行求救预警。为了对求救语音进行精准识别,通常是通过训练好的求救语音模型,基于求救语音模型对求救语音进行识别。在创建求救语音模型的过程中需要对求救语音模型进行训练。目前,一般是对带噪语音数据和求救语音数据提取语音特征,将带噪语音数据的语音特征以及求救语音数据的语音特征共同输入到求救语音模型中进行训练,然而,在对带噪语音数据和求救语音数据提取语音特征的过程中,带噪语音数据的语音特征与求救语音数据的语音特征会存在过拟合的情况,在过拟合的情况下,训练的求救语音模型中的参数会难以收敛,从而导致训练出的模型参数鲁棒性不稳定而使得识别准确率较低。
技术实现思路
本申请实施例提供了一种模型训练方法、装置、存储介质及电子设备,可以提升模型的鲁棒性,提高模型的识别准确率。所述技术方案如下:第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:第一声学模型生成模块,用于获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;第二声学模型生成模块,用于获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。第四方面,本申请实施例提供一种服务器,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。本申请一些实施例提供的技术方案带来的有益效果至少包括:在本申请一个或多个实施例中,用户终端获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型,获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。通过先将带噪语音数据输入神经网络模型训练生成第一声学模型,再将求救语音数据输入第一声学模型进行迁移学习以得到第二声学模型(求救语音模型),可以避免在训练求救语音模型时模型参数难以收敛的情况,提升了求救语音模型的鲁棒性,提高了求救语音模型的识别准确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种模型训练方法的流程示意图;图2是本申请实施例提供的另一种模型训练方法的流程示意图;图3是本申请实施例提供的一种模型训练方法涉及的提取语音特征的示意图;图4是本申请实施例提供的模型训练方法涉及的一种深度神经网络模型的示意图;图5是本申请实施例提供的一种模型训练装置的结构示意图;图6是本申请实施例提供的一种第一声学模型生成模块的结构示意图;图7是本申请实施例提供的一种第二声学模型生成模块的结构示意图;图8是本申请实施例提供的另一种模型训练装置的结构示意图;图9是本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。下面结合具体的实施例对本申请进行详细说明。在一个实施例中,如图1所示,特提出了一种模型训练方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的模型训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的模型训练装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。具体的,该模型训练方法包括:步骤101:获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;所述带噪语音数据是指实际语言环境下所采集的含有噪声的真实录音数据,在本实施例中所述带噪语音数据可以理解为由各种实际语言环境下所采集的含有噪声的真实录音数据组成的海量样本数据,其中该样本数据中噪声类型和噪声强度各异,采用带噪语音数据训练神经网络模型,可以很好的覆盖实际使用环境。其中,所述带噪语音数据可以是来自于已有的海量现场真实录音数据库中的部分或全部带噪语音数据,例如,可采用维基百科语料库、VoxCeleb语料库、LibriSpeech语料库、THCHS-30语料库等等,可以是实际噪声环境中收集的带噪语音数据,等等。所述神经网络模型是由许多节点中各节点的简单非线性模拟处理要素密集互连配置而成的,是一种模仿了生物神经元的系统模型。所述神经网络模型通过使至少一个节点的输入与每一个节点的输出连接形成,类似于真实神经元的突触连接。每个神经元表达了一种特定的输出函数,即激励函数,每两个神经元之间的连接都包含一个连接强度,即作用于通过该连接的信号的加权值。在本实施例中,将带噪语音数据输入至神经网络模型进行训练,得到训练之后的第一声学模型,该第一声学模型具有带噪语音信息特征抽取、带噪语音知识概本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;/n获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成第一声学模型;
获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型。


2.根据权利要求1所述的方法,其特征在于,所述获取带噪语音数据,将所述带噪语音数据输入至神经网络进行训练,生成第一声学模型,包括:
获取带噪语音数据,提取所述带噪语音数据的第一语音特征;
创建神经网络模型,将所述第一语音特征输入至所述神经网络模型中,输出所述第一语音特征对应的第一语音标识,基于所述第一语音标识对所述神经网络模型进行训练,得到所述第一声学模型。


3.根据权利要求1所述的方法,其特征在于,所述获取求救语音数据,将所述求救语音数据输入至所述第一声学模型进行迁移学习,生成第二声学模型,包括:
获取求救语音数据,提取所述求救语音数据的第二语音特征;
将所述第二语音特征输入至所述第一声学模型中,输出所述第二语音特征对应的第二语音标识,基于所述第二语音标识对所述第一声学模型进行训练,得到训练后的所述第二声学模型。


4.根据权利要求1所述的方法,其特征在于,所述对所述第一声学模型进行训练,得到训练后的所述第一声学模型之后,还包括:
接收求救语音信号,获取所述求救语音信号携带的目标语音数据,将所述目标语音数据输入到所述第二声学模型进行识别,输出所述目标语音数据对应的目标文本信息。


5.根据权利要求4所述的方法,其特征在于,所述输出所述目标求救语音数据对应的目标语音标识之后,还包括:
输出包含所述目标文本信息的报警求救信号。


6.根据权利要求4所述的方法,其特征在于,所述输出所述目标求救语音数据对应的目标语音标识之后,还包括:
向服务器发送包含所述目标文本信息的所述报警求救信号,以使所述服务器基于预设紧急联系表,向所述预设紧急联系表中的紧急联系人发送所述报警求救信号。


7.一种模型训练装置,其特征在于,所述装置包括:
第一声学模型生成模块,用于获取带噪语音数据,将所述带噪语音数据输入至神经网络模型进行训练,生成...

【专利技术属性】
技术研发人员:汤志淼
申请(专利权)人:深圳酷派技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1