语言模型的训练方法、语音识别方法及相关装置制造方法及图纸

技术编号:30019439 阅读:12 留言:0更新日期:2021-09-11 06:35
本申请实施例提供的语言模型的训练方法、语音识别方法及相关装置,方法包括:获得口语训练语料集和业务训练语料集;其中,口语训练语料集是在任意场景下采集的文本集;业务数据集是在直播场景下采集的主播用户对应的文本集;根据口语训练语料集,对初始的语言模型进行预训练,获得预训练的语言模型;根据业务训练语料集,对预训练的语言模型进行微调训练,获得训练后的语言模型。本申请的训练样本不仅有业务训练语料,还有口语语料,在训练过程中先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练,从而使得获得的语言模型不仅能够适配业务场景,还能避免出现过拟合。合。合。

【技术实现步骤摘要】
语言模型的训练方法、语音识别方法及相关装置


[0001]本申请涉及语音识别领域,具体而言,涉及一种语言模型的训练方法、语音识别方法及相关装置。

技术介绍

[0002]随着人工智能和自然语言处理技术的不断发展,语音识别技术也得到了快速地发展。采用语音识别技术可以自动将音频信号转变为相应的文本或命令,可以应用在普通的、日常的语音识别场景中,并取得较好的识别效果。
[0003]近年来,端到端语音识别(E2E

ASR)已经逐渐成为主流,但是在具体的应用场景中,端到端语音识别用到的语言模型的训练样本仅仅是业务数据,而业务数据通常呈现出短文本多长文本少的分布状态,训练过程容易过拟合,无法适配业务场景。

技术实现思路

[0004]为了解决上述技术问题,本申请的目的在于提供一种语言模型的训练方法、语音识别方法及相关装置。
[0005]本申请实采用的技术方案如下:
[0006]第一方面,本申请提供一种语言模型的训练方法,所述方法包括:获得口语训练语料集和业务训练语料集;其中,所述口语训练语料集是在任意场景下采集的文本集;所述业务数据集是在直播场景下采集的主播用户对应的文本集;根据所述口语训练语料集,对初始的语言模型进行预训练,获得预训练的所述语言模型;根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。
[0007]第二方面,本申请提供一种语音识别方法,所述方法包括:获得待识别语音;基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本;其中,所述语言模型是基于口语训练语料集和业务训练语料集训练而成;所述口语训练语料集是在任意场景下采集的文本集;所述业务训练语料集是在直播场景下采集的主播用户对应的文本集。
[0008]第三方面,本申请提供一种语言模型的训练装置,包括:获得模块,用于获得口语训练语料集和业务训练语料集;其中,所述口语训练语料集是在任意场景下采集的文本集;所述业务数据集是在直播场景下采集的主播用户对应的文本集;训练模块,用于根据所述口语训练语料集,对初始的语言模型进行预训练,获得预训练的所述语言模型;根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。
[0009]第四方面,本申请提供一种语音识别装置,包括:获得模块,用于获得待识别语音;识别模块,用于基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本;其中,所述语言模型是基于口语训练语料集和业务训练语料集训练而成;所述口语训练语料集是在任意场景下采集的文本集;所述业务数据是在直播场景下采集的主播用户对应的文本集;所述口语训练语料集和所述业务训练语料集中均具有长度大于预设长度的文本。
[0010]第五方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法或者第二方面所述的方法。
[0011]第六方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法或者第二方面所述的方法。
[0012]本申请实施例提供一种语言模型的训练方法、语音识别方法及相关装置,所述方法包括:获得口语训练语料集和业务训练语料集;其中,所述口语训练语料集是在任意场景下采集的文本集;所述业务数据集是在直播场景下采集的主播用户对应的文本集;根据所述口语训练语料集,对初始的语言模型进行预训练,获得预训练的所述语言模型;根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。与现有技术的区别在于,现有技术仅仅采用业务数据训练语言模型,而业务数据通常呈现出短文本多长文本少的分布状态,训练过程容易过拟合,训练得到的语言模型对应长难句的识别准确率较低,而本申请为了解决上述技术问题,训练样本不仅有业务数据,还有口语化语料,在训练过程中采用了先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练,从而使得获得的语言模型不仅能够适配业务场景,避免出现过拟合。
[0013]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0014]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0015]图1为业务数据的分布状态图;
[0016]图2为本申请实施例提供的应用环境;
[0017]图3为本申请实施例提供的语言模型的训练方法的示意性流程图;
[0018]图4为一种语言模型的解码示意图;
[0019]图5为本申请实施例提供的语言模型的训练方法的另一种示意性流程图;
[0020]图6为本申请实施例提供的一种处理长文本的示意图;
[0021]图7为本申请实施例提供的一种语音识别方法的示意性流程图;
[0022]图8为一种语音识别的示意图;
[0023]图9为一种浅融合语音识别示意图;
[0024]图10为一种深融合语音识别示意图;
[0025]图11为本申请实施例提供的一种用户界面的示意性流程图;
[0026]图12为本申请实施例提供的一种语言模型的训练装置的功能模块图;
[0027]图13为本申请实施例提供的一种语音识别装置的功能模块图;
[0028]图14为本申请实施例提供的一种电子设备结构框图。
具体实施方式
[0029]下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0030]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,所述方法包括:获得口语训练语料集和业务训练语料集;其中,所述口语训练语料集是在任意场景下采集的文本集;所述业务训练语料集是在直播场景下采集的主播用户对应的文本集;根据所述口语训练语料集,对初始的语言模型进行预训练,获得预训练的所述语言模型;根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。2.根据权利要求1所述的语言模型的训练方法,其特征在于,在获得口语训练语料集和业务训练语料集的步骤之后,所述方法还包括:获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本;其中,所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度;根据预设截断概率和预设截断长度,分别对所述第一待处理文本和所述第二待处理文本进行截断;将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料,将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料。3.根据权利要求1所述的语言模型的训练方法,其特征在于,获得口语训练语料集和业务训练语料集之后,所述方法还包括:对所述口语训练语料集和所述业务训练语料集中的每个文本进行语料清洗。4.一种语音识别方法,其特征在于,所述方法包括:获得待识别语音;基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本;其中,所述语言模型是基于口语训练语料集和业务训练语料集训练而成;所述口语训练语料集是在任意场景下采集的文本集;所述训练语料集是在直播场景下采集的主播用户对应的文本集。5.根据权利要求4所述的语音识别方法,其特征在于,所述语言模型通过以下方式训练:根据所述口语训练语料集,对初始的所述语言模型进行预训练,获得预训练的所述语言模型;根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。6.根据权利要求4所述的语音识别方法,其特征在于,基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本,包括:获得所述待识别语音对应的音频特征;基于所述语音识别模型,获得所述音频特征对应的文字序列以及...

【专利技术属性】
技术研发人员:吴振宗徐易楠康世胤许佳
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1