样本获取方法、装置、设备和存储介质制造方法及图纸

技术编号:35935612 阅读:10 留言:0更新日期:2022-12-14 10:22
本发明专利技术实施例提供一种样本获取方法、装置、设备和存储介质,该方法包括:获取目标任务领域对应的样本语料集合;通过样本语料集合,对目标预训练语言模型进行微调训练;通过训练后的目标预训练语言模型,生成目标任务领域对应的目标语料集合,以供用户在目标语料集合中选择负样本,负样本用于训练待训练的语言模型。采用本发明专利技术,可以通过训练后的目标预训练语言模型自动生成目标任务领域对应的目标语料集合,目标语料集合中的语料数量是可以无限扩展的。目标预训练语言模型学习到了丰富的语言表达的形式,进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料是优质的。优质的。优质的。

【技术实现步骤摘要】
样本获取方法、装置、设备和存储介质


[0001]本专利技术涉及模型训练
,尤其涉及一种样本获取方法、装置、设备和存储介质。

技术介绍

[0002]相关技术中,用户会在样本库中选择合适的样本作为用于训练语言模型的负样本进行使用。样本库中存储有多个样本,这些样本可以是从网络中抓取获得的,也可以是用户手动编写的。无论采用什么样的方式获得样本库中的样本,样本库中的样本数量是非常有限的、且难以得到有效扩充。另外,样本库中描绘样本的语言表达方式是较为局限的,导致样本的质量不高。样本库中的样本的数量以及质量决定了使用它训练所得的语言模型的性能优劣,而实际应用中用户难以从数量有限且质量不能得到保证的样本库中选择到数量足够且优质的负样本,这会直接导致语言模型的训练效果。

技术实现思路

[0003]本专利技术实施例提供一种样本获取方法、装置、设备和存储介质,用以实现获得数量足够且质量较优的负样本。
[0004]第一方面,本专利技术实施例提供一种样本获取方法,该方法包括:
[0005]获取目标任务领域对应的样本语料集合;
[0006]通过所述样本语料集合,对目标预训练语言模型进行微调训练;
[0007]通过训练后的目标预训练语言模型,生成所述目标任务领域对应的目标语料集合,以供用户在所述目标语料集合中选择负样本,所述负样本用于训练待训练的语言模型。
[0008]可选地,所述目标预训练语言模型为Gpt2模型。
[0009]可选地,所述目标预训练语言模型为多种尺寸的Gpt2模型中的一种;
[0010]在对目标预训练语言模型进行微调训练之前,所述方法还包括:
[0011]确定设备中的处理器的处理性能,所述设备为用于对所述目标预训练语言模型进行微调训练的设备;
[0012]在所述多种尺寸的Gpt2模型中,选择与所述处理性能相匹配的目标尺寸的Gpt2模型。
[0013]可选地,所述通过训练后的目标预训练语言模型,生成所述目标任务领域对应的目标语料集合,包括:
[0014]通过训练后的Gpt2模型,采用无条件文本生成的方式,生成所述目标任务领域对应的目标语料集合。
[0015]可选地,所述负样本包括困难样本。
[0016]可选地,所述通过所述样本语料集合,对目标预训练语言模型进行微调训练,包括:
[0017]通过所述样本语料集合,采用自回归的方式,对目标预训练语言模型进行微调训
练。
[0018]第二方面,本专利技术实施例提供一种样本获取装置,包括:
[0019]获取模块,用于获取目标任务领域对应的样本语料集合;
[0020]训练模块,用于通过所述样本语料集合,对目标预训练语言模型进行微调训练;
[0021]生成模块,用于通过训练后的目标预训练语言模型,生成所述目标任务领域对应的目标语料集合,以供用户在所述目标语料集合中选择负样本,所述负样本用于训练待训练的语言模型。
[0022]可选地,所述目标预训练语言模型为Gpt2模型。
[0023]可选地,所述目标预训练语言模型为多种尺寸的Gpt2模型中的一种;
[0024]所述装置还包括选择模块,所述选择模块,用于:
[0025]确定设备中的处理器的处理性能,所述设备为用于对所述目标预训练语言模型进行微调训练的设备;
[0026]在所述多种尺寸的Gpt2模型中,选择与所述处理性能相匹配的目标尺寸的Gpt2模型。
[0027]可选地,所述生成模块,用于:
[0028]通过训练后的Gpt2模型,采用无条件文本生成的方式,生成所述目标任务领域对应的目标语料集合。
[0029]可选地,所述负样本包括困难样本。
[0030]可选地,所述训练模块,用于:
[0031]通过所述样本语料集合,采用自回归的方式,对目标预训练语言模型进行微调训练。
[0032]第三方面,本专利技术实施例提供一种电子设备,其中包括处理器和存储器,其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现第一方面中的样本获取方法。
[0033]第四方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现第一方面中的样本获取方法。
[0034]采用本专利技术,可以通过训练后的目标预训练语言模型自动生成目标任务领域对应的目标语料集合。由于目标语料集合中的语料是通过训练后的目标预训练语言模型自动生成的,因此理论上目标语料集合中的语料数量是可以无限扩展的。且由于目标预训练语言模型可以是基于规模庞大的样本数据训练而得的,因此目标预训练语言模型学习到了丰富的语言表达的形式,进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料的语言表达的形式也是丰富多彩的。
[0035]当用户从上述目标语料集合中挑选用于训练待训练的语言模型的负样本时,由于目标语料集合中的语料数量较多,且描绘语料的语言表达的形式较为丰富,因此极大提高了挑选到数量足够且质量较优的负样本的可能性。更甚至,还可以从目标语料集合中挑选到对训练待训练的语言模型极为有利的困难样本。进而,通过这样的负样本或者困难样本训练待训练的语言模型,能够取得较好的训练效果。
附图说明
[0036]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本专利技术实施例提供的一种样本获取方法的流程示意图;
[0038]图2为本专利技术实施例提供的一种Gpt2

l arge预测token的场景示意图;
[0039]图3为本专利技术实施例提供的一种样本获取装置的结构示意图;
[0040]图4为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0041]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
[0043]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本获取方法,其特征在于,包括:获取目标任务领域对应的样本语料集合;通过所述样本语料集合,对目标预训练语言模型进行微调训练;通过训练后的目标预训练语言模型,生成所述目标任务领域对应的目标语料集合,以供用户在所述目标语料集合中选择负样本,所述负样本用于训练待训练的语言模型。2.根据权利要求1所述的方法,其特征在于,所述目标预训练语言模型为Gpt2模型。3.根据权利要求2所述的方法,其特征在于,所述目标预训练语言模型为多种尺寸的Gpt2模型中的一种;在对目标预训练语言模型进行微调训练之前,所述方法还包括:确定设备中的处理器的处理性能,所述设备为用于对所述目标预训练语言模型进行微调训练的设备;在所述多种尺寸的Gpt2模型中,选择与所述处理性能相匹配的目标尺寸的Gpt2模型。4.根据权利要求2所述的方法,其特征在于,所述通过训练后的目标预训练语言模型,生成所述目标任务领域对应的目标语料集合,包括:通过训练后的Gpt2模型,采用无条件文本生成的方式,生成所述目标任务领域对应的目标语料集合。5.根据权利要求1所述的方法,其特征在于,所述负样本包括困难样本。6.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:罗镇权
申请(专利权)人:达闼机器人股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1