样本获取方法、装置、设备和存储介质制造方法及图纸

技术编号：35935612 阅读：10 留言：0更新日期：2022-12-14 10:22

本发明专利技术实施例提供一种样本获取方法、装置、设备和存储介质，该方法包括：获取目标任务领域对应的样本语料集合；通过样本语料集合，对目标预训练语言模型进行微调训练；通过训练后的目标预训练语言模型，生成目标任务领域对应的目标语料集合，以供用户在目标语料集合中选择负样本，负样本用于训练待训练的语言模型。采用本发明专利技术，可以通过训练后的目标预训练语言模型自动生成目标任务领域对应的目标语料集合，目标语料集合中的语料数量是可以无限扩展的。目标预训练语言模型学习到了丰富的语言表达的形式，进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料是优质的。优质的。优质的。

全部详细技术资料下载

【技术实现步骤摘要】
样本获取方法、装置、设备和存储介质

[0001]本专利技术涉及模型训练
，尤其涉及一种样本获取方法、装置、设备和存储介质。

技术介绍

[0002]相关技术中，用户会在样本库中选择合适的样本作为用于训练语言模型的负样本进行使用。样本库中存储有多个样本，这些样本可以是从网络中抓取获得的，也可以是用户手动编写的。无论采用什么样的方式获得样本库中的样本，样本库中的样本数量是非常有限的、且难以得到有效扩充。另外，样本库中描绘样本的语言表达方式是较为局限的，导致样本的质量不高。样本库中的样本的数量以及质量决定了使用它训练所得的语言模型的性能优劣，而实际应用中用户难以从数量有限且质量不能得到保证的样本库中选择到数量足够且优质的负样本，这会直接导致语言模型的训练效果。

技术实现思路

[0003]本专利技术实施例提供一种样本获取方法、装置、设备和存储介质，用以实现获得数量足够且质量较优的负样本。
[0004]第一方面，本专利技术实施例提供一种样本获取方法，该方法包括：
[0005]获取目标任务领域对应的样本语料集合；
[0006]通过所述样本语料集合，对目标预训练语言模型进行微调训练；
[0007]通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。
[0008]可选地，所述目标预训练语言模型为Gpt2模型。
[0009]可选地，所述目标预训练语言模型为多种尺寸的Gpt2...

【技术保护点】

【技术特征摘要】
1.一种样本获取方法，其特征在于，包括：获取目标任务领域对应的样本语料集合；通过所述样本语料集合，对目标预训练语言模型进行微调训练；通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。2.根据权利要求1所述的方法，其特征在于，所述目标预训练语言模型为Gpt2模型。3.根据权利要求2所述的方法，其特征在于，所述目标预训练语言模型为多种尺寸的Gpt2模型中的一种；在对目标预训练语言模型进行微调训练之前，所述方法还包括：确定设备中的处理器的处理性能，所述设备为用于对所述目标预训练语言模型进行微调训练的设备；在所述多种尺寸的Gpt2模型中，选择与所述处理性能相匹配的目标尺寸的Gpt2模型。4.根据权利要求2所述的方法，其特征在于，所述通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，包括：通过训练后的Gpt2模型，采用无条件文本生成的方式，生成所述目标任务领域对应的目标语料集合。5.根据权利要求1所述的方法，其特征在于，所述负样本包括困难样本。6.根据权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：罗镇权，
申请(专利权)人：达闼机器人股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人