模型训练方法和装置制造方法及图纸

技术编号:19697446 阅读:19 留言:0更新日期:2018-12-08 12:38
本发明专利技术提供一种模型训练方法和装置。该方法,包括:接收终端发送的语音数据;通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。该方法提高了语义模型输出结果准确度。

【技术实现步骤摘要】
模型训练方法和装置
本专利技术涉及人工智能
,尤其涉及一种模型训练方法和装置。
技术介绍
在涉及到语音和语义的人工智能应用场景中,除了需要训练语音模型,还需训练语义模型。比如用户通过语音输入一个命令,系统不仅需要识别语音,还要根据该语音识别用户的意图,这种场景下就需要保证语音识别和语义识别都有很高的准确率。现有技术中,一方面,通过人工听写的方式获取语音样本对应的文本,然后对该文本进行训练,得到语音模型;另一方面,在得到上述文本的基础上,通过人工方式对该文本进行语义标注,然后对标注后的文本进行训练,得到语义模型。在实际应用时,首先将待处理的语音输入上述语音模型,得到对应的文本,然后再将该文本输入上述语义模型中,获得用户通过上述待处理语音想要表达的意图。但是,由于上述语义模型是在人工听写的“完美”文本的基础上训练得到的,而在实际应用过程中,输入该语义模型的是由语音模型输出的存在信息折损的文本,因此,现有技术中的语义模型在实际应用过程中,会由于输入信息的不对称而导致输出结果不准确。
技术实现思路
本专利技术提供一种模型训练方法和装置,用于提高语义模型输出结果准确度。第一方面,本专利技术提供一种模型训练方法,包括:步骤A:接收终端发送的语音数据;步骤B:通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;步骤C:接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;步骤D:对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。可选的,所述接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息之前,所述方法还包括:将所述第一文本信息发送给所述终端。可选的,所述对所述语音数据进行识别,获得第一文本信息之前,所述方法还包括:对所述语音数据进行切分处理,获得至少一个语音片;所述对所述语音数据进行识别,获得第一文本信息,包括:分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;将所述至少一个文本信息确定为所述第一文本信息。可选的,所述语音数据包括至少两路音频数据;所述对所述语音数据进行切分处理,获得至少一个语音片之前,包括:对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;所述对所述语音数据进行切分处理,获得至少一个语音片,包括:对处理后的语音数据进行切分处理,获得至少一个语音片。可选的,所述通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息,包括:确定各所述语音片的起始时间;根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;将所述上下文信息作为所述第一文本信息。可选的,所述得到第二语音识别模型之后,所述方法还包括:将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。第二方面,本专利技术提供一种模型训练装置,包括:接收模块,用于接收终端发送的语音数据。获取模块,用于通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;所述接收模块,用于接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;训练模块,用于对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。可选的,所述装置,还包括:发送模块,用于将所述第一文本信息发送给所述终端。可选的,所述装置,还包括:切片模块,用于对所述语音数据进行切分处理,获得至少一个语音片;所述获取模块具体用于,分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;将所述至少一个文本信息确定为所述第一文本信息。可选的,所述语音数据包括至少两路音频数据;所述装置,还包括,处理模块;所述处理模块,用于对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;相应的,所述切片模块,具体用于对处理后的语音数据进行切分处理,获得至少一个语音片。可选的,所述获取模块包括:确定单元和处理单元;所述确定单元,用于确定各所述语音片的起始时间;所述处理单元,用于根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;将所述上下文信息作为所述第一文本信息。可选的,所述装置,还包括:迭代模块;所述迭代模块,用于将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。第四方面,本专利技术提供一种服务器,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来实现上述模型训练方法。本专利技术提供的模型训练方法,服务器在接收到终端发送的语音数据的基础上,首先通过第一语音识别模型能够对该语音数据进行识别,得到第一文本信息,然后接收用户输入的上述语音数据对应的第二文本信息和第一文本信息对应的语义信息,最后对该第二文本信息进行训练,得到第二语音识别模型,对语义信息进行训练,得到语义识别模型;使得在实际应用过程中,通过上述语义识别模型得到的语义信息准确度更高。附图说明图1为本专利技术提供的模型训练方法涉及到的系统框架图;图2为本专利技术提供的模型训练方法的实施例一的流程图;图3为本专利技术提供的模型训练方法的实施例二的流程图;图4为本专利技术提供的一路音频数据示意图;图5为本专利技术提供的另一路音频数据示意图;图6为本专利技术提供的处理后的语音数据示意图;图7为本专利技术提供的模型训练装置的实施例一的结构示意图;图8为本专利技术提供的模型训练装置的实施例二的结构示意图;图9为本专利技术提供的服务器的硬件结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。现有技术中,通过如下方式实现语音识别和语义识别:第一步、获取语音模型,具体的,通过人工听写的方式获取语音样本对应的文本,然后对该文本进行训练,得到语音模型;第二步、获取语义模型,具体的,在第一步通过人工听写的方式获取语音样本对应的文本的基础上,采用人工方式对该文本进行语义标注,然后对标注后的文本进行训练,得到语义模型。第三步、在实际应用时,首先将待处理的语音输入上述语音模型,得到对应的文本,然后再将该文本输入上述语义模型中,获得该文本对应的语义,即用户通过上述待处理语音想要表达的意图。但是,由于上述语义模型是在人工听写的“完美”文本的基础上训练得到的,而在实际应用过程中,输入该语义模型的是由语音模型输出的存在信息折损的文本,因此,现有技术中的语义模型在实际应用过程中,会由于输入信息的不对称而导致输出结果不准确。本专利技术提供一种模型训练方法,通过将语音数据输入第一语音识别模型中,得到可能已经发生折损的第一文本信息,然后对该第一文本信息对应的语义信息进行训练得到语本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,应用于服务器,包括:步骤A:接收终端发送的语音数据;步骤B:通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;步骤C:接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;步骤D:对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。

【技术特征摘要】
1.一种模型训练方法,其特征在于,应用于服务器,包括:步骤A:接收终端发送的语音数据;步骤B:通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;步骤C:接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;步骤D:对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。2.根据权利要求1所述的方法,其特征在于,所述接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息之前,所述方法还包括:将所述第一文本信息发送给所述终端。3.根据权利要求1或2所述的方法,其特征在于,所述对所述语音数据进行识别,获得第一文本信息之前,所述方法还包括:对所述语音数据进行切分处理,获得至少一个语音片;所述对所述语音数据进行识别,获得第一文本信息,包括:分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;将所述至少一个文本信息确定为所述第一文本信息。4.根据权利要求3所述的方法,其特征在于,所述语音数据包括至少两路音频数据;所述对所述语音数据进行切分处理,获得至少一个语音片之前,包括:对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;所述对所述语音数据进行切分处理,获得至少一个语音片,包括:对处理后的语音数据进行切分处理,获得至少一个语音片。5.根据权利要求4所述的方法,其特征在于,所述通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息,包括:确定各所述语音片的起始时间;根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;将所述上下文信息作为所述第一文本信息。6.根据权利要求1所述的方法,其特征在于,所述得到第二语音识别模型之后,所述方法还包括:将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。7.一种模型训练装置,其特征在于,包括:接收模块,用...

【专利技术属性】
技术研发人员:戴俊刘瑛先永春常月黄国瑞张伟冬赵亚男
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1