一种语音识别模型的训练方法和装置制造方法及图纸

技术编号:19483205 阅读:22 留言:0更新日期:2018-11-17 10:56
本申请实施例涉及人工智能领域,尤其涉及一种语音识别模型的训练方法和装置。本申请实施例提供一种语音识别模型的训练方法,包括:向语音识别模型输入语音,从语音识别模型的输出侧得到语音对应的N个文本,将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,将语音和目标文本作为语音识别模型的训练数据,对语音识别模型进行训练。由于可以直接通过由语音识别模型得到的N个文本进行删选处理,确定出目标文本,不再需要人工标注得到就可以获取目标文本,如此可以节省人工成本。

【技术实现步骤摘要】
一种语音识别模型的训练方法和装置
本申请实施例涉及人工智能领域,尤其涉及一种语音识别模型的训练方法和装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术即应用系统的一门新的技术科学,人工智能是计算机科学的一个分支,人工智能领域的研究包括机器人、语音识别、图像识别和自然语言处理等等。其中,语音识别作为人工智能领域的一个重要技术,被应用于互联网,通信、智能家居等相关的各行各业。为了得到语音识别模型,需要准备大量的语音数据和与该大量的语音数据对应的文本数据来训练,现有技术中,该文本数据是通过如下的方式获取的:组织大量的人听取语音数据,并写下正确的文本数据。然而,随着算法和计算机能力的进步,语音识别模型允许越来越多的语音数据和对应的文本数据加入训练,以提升语音识别模型的准确度,这使得人工成本成为资源投入的瓶颈。
技术实现思路
本申请实施例提供一种语音识别模型的训练方法和装置,用于节约人工成本。本申请实施例提供一种语音识别模型的训练方法,包括:向语音识别模型输入语音,从语音识别模型的输出侧得到语音对应的N个文本,N为正整数,将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,其中,N个文本与N个匹配程度值一一对应,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,将语音和目标文本作为语音识别模型的训练数据,对语音识别模型进行训练。由于可以直接通过由语音识别模型得到的N个文本进行删选处理,得到N个文本的N个匹配程度值与预设条件的匹配程度,进而确定出目标文本,不再需要人工标注就可以得到目标文本,如此可以节省人工成本。可选的,将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,包括:将N个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个第一匹配程度值,其中,N个文本与N个第一匹配程度值一一对应,从N个第一匹配程度值中确定出大于第一阈值的M个第一匹配程度值,M为不大于N的正整数,根据M个第一匹配程度值对应的M个文本,从M个文本中确定出目标文本。可选的,针对N个文本中的每个文本,文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与文本相匹配的数量确定的。可选的,根据M个第一匹配程度值对应的M个文本,从M个文本中确定出目标文本,包括:将M个第一匹配程度值对应的M个文本与第二预设数据库中存储的多个文本进行匹配,得到M个文本对应的M个第二匹配程度值,其中,M个文本与M个第二匹配程度值一一对应,从M个第二匹配程度值中确定出大于第二阈值的K个第二匹配程度值,K为不大于M的正整数,根据K个第二匹配程度值对应的K个文本,从K个文本中确定出目标文本。可选的,针对M个文本中的每个文本,文本对应的第二匹配程度值是根据第二预设数据库中存储的多个文本与文本相匹配的数量确定的,第二预设数据库中的数据包括语音识别模型的输出侧对应的训练数据。本申请实施例提供一种语音识别模型的训练装置,包括:获取单元,用于向语音识别模型输入语音,从语音识别模型的输出侧得到语音对应的N个文本,N为正整数,确定单元,用于将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,其中,N个文本与N个匹配程度值一一对应,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,训练单元,用于将语音和目标文本作为语音识别模型的训练数据,对语音识别模型进行训练。可选的,确定单元,具体用于:将N个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个第一匹配程度值,其中,N个文本与N个第一匹配程度值一一对应,从N个第一匹配程度值中确定出大于第一阈值的M个第一匹配程度值,M为不大于N的正整数,根据M个第一匹配程度值对应的M个文本,从M个文本中确定出目标文本。可选的,针对N个文本中的每个文本,文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与文本相匹配的数量确定的。可选的,确定单元,具体用于将M个第一匹配程度值对应的M个文本与第二预设数据库中存储的多个文本进行匹配,得到M个文本对应的M个第二匹配程度值,其中,M个文本与M个第二匹配程度值一一对应,从M个第二匹配程度值中确定出大于第二阈值的K个第二匹配程度值,K为不大于M的正整数,根据K个第二匹配程度值对应的K个文本,从K个文本中确定出目标文本。可选的,针对M个文本中的每个文本,文本对应的第二匹配程度值是根据第二预设数据库中存储的多个文本与文本相匹配的数量确定的,第二预设数据库中的数据包括语音识别模型的输出侧对应的训练数据。本申请实施例提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令在被计算机调用时,使计算机执行上述的方法。本申请实施例提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的方法。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供一种语音识别模型的示意图;图2为本申请实施例提供一种语音识别模型的训练方法的流程示意图;图3为本申请实施例提供一种语音识别模型的训练方法的流程示意图;图4为本申请实施例提供一种语音识别模型的训练装置的结构示意图。具体实施方式为了使本申请实施例的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请实施例进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。本申请实施例中,语音识别模型的训练可以分为两个阶段,第一阶段是获得该语音识别模型,第二阶段是对该语音识别模型进行训练。一种可选的得到该语音识别模型的实施方式中,可以先准备第一阶段所需的语音和该语音对应的文本,其中,该第一阶段所需的语音可以是通过录音设备录取而获得的语音,还可以是直接从网上下载获取的语音。而该语音对应的文本可以是由员工听取上述获取的语音后,手动撰写下来的文本,基于此种方式,第一阶段的所需的语音和该语音对应的文本的匹配度非常高。可选的,将第一阶段所需的语音作为输入X0,将该语音对应的文本作出输出Y0,训练得到该语音识别模型。图1示例性示出了本申请实施例适用的一种语音识别模型的示意图,由于输入和输出是已知的,因此可以得到语音识别模型。由于第一阶段中,获取的语音识别模型可以被认为是初始语音识别模型,使用的语音和对应的文本在数量上有一定的局限性,因此,需要更多的语音和文本对该语音识别模型进行训练,使得该语音识别模型可以应用于不同的场景。下面介绍本申请的第二阶段,即对该语音识别模型进行训练,图2示例性示出了本申请实施例适用的一种语音识别模型本文档来自技高网...

【技术保护点】
1.一种语音识别模型的训练方法,其特征在于,包括:向语音识别模型输入语音,从所述语音识别模型的输出侧得到所述语音对应的N个文本,所述N为正整数;将所述N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到所述N个文本对应的N个匹配程度值,其中,所述N个文本与所述N个匹配程度值一一对应;根据所述N个匹配程度值和预设条件,将所述N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本;将所述语音和所述目标文本作为所述语音识别模型的训练数据,对所述语音识别模型进行训练。

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:向语音识别模型输入语音,从所述语音识别模型的输出侧得到所述语音对应的N个文本,所述N为正整数;将所述N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到所述N个文本对应的N个匹配程度值,其中,所述N个文本与所述N个匹配程度值一一对应;根据所述N个匹配程度值和预设条件,将所述N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本;将所述语音和所述目标文本作为所述语音识别模型的训练数据,对所述语音识别模型进行训练。2.如权利要求1所述的方法,其特征在于,所述将所述N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到所述N个文本对应的N个匹配程度值,根据所述N个匹配程度值和预设条件,将所述N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,包括:将所述N个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配,得到所述N个文本对应的N个第一匹配程度值,其中,所述N个文本与所述N个第一匹配程度值一一对应;从所述N个第一匹配程度值中确定出大于第一阈值的M个第一匹配程度值,所述M为不大于所述N的正整数;根据所述M个第一匹配程度值对应的M个文本,从所述M个文本中确定出所述目标文本。3.如权利要求2所述的方法,其特征在于,针对所述N个文本中的每个文本,所述文本对应的第一匹配程度值是根据所述第一预设数据库中存储的多个文本与所述文本相匹配的数量确定的。4.如权利要求2所述的方法,其特征在于,所述根据所述M个第一匹配程度值对应的M个文本,从所述M个文本中确定出所述目标文本,包括:将所述M个第一匹配程度值对应的M个文本与第二预设数据库中存储的多个文本进行匹配,得到所述M个文本对应的M个第二匹配程度值,其中,所述M个文本与所述M个第二匹配程度值一一对应;从所述M个第二匹配程度值中确定出大于第二阈值的K个第二匹配程度值,所述K为不大于所述M的正整数;根据所述K个第二匹配程度值对应的K个文本,从所述K个文本中确定出所述目标文本。5.如权利要求4所述的方法,其特征在于,针对所述M个文本中的每个文本,所述文本对应的第二匹配程度值是根据所述第二预设数据库中存储的...

【专利技术属性】
技术研发人员:张卓
申请(专利权)人:上海依图网络科技有限公司上海图智安网络科技有限公司深圳依图信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1