语料生成方法、模型训练方法、装置、电子设备和介质制造方法及图纸

技术编号:40317670 阅读:20 留言:0更新日期:2024-02-07 21:00
本公开提供了一种语料生成方法、模型训练方法、装置、电子设备和介质。所述语料生成方法,包括:确定与目标语种匹配的n个候选语种,其中,所述n为大于0的整数,所述候选语种与所述目标语种的目标属性信息相匹配,所述目标属性信息包括以下至少一项:语法结构类别和谱系类别;在目标语料库中获取与所述n个候选语种对应的语料,得到n个初始语料集,所述n个初始语料集与所述n个候选语种一一对应;将所述n个初始语料集中的语料转换为所述目标语种,得到n个目标语料集。本公开有利于提高语料转换的转换效果。

【技术实现步骤摘要】

本公开涉及自然语言处理领域,尤其涉及一种语料生成方法、模型训练方法、装置、电子设备和介质


技术介绍

1、目前,ai业务的发展空间在很大程度上取决于语言资源的丰富程度。在对ai模型进行训练之前,通常需要挖掘大量的语料以生成训练样本。然而,相关技术中,对于本国语言的语料通常较为容易获取,而对于外语(尤其是小语种),则能够获取到的语料极为有限。从而导致所获取的语料中,呈现语种种类少、分布不平衡的现象,进而影响后续的模型训练效果。


技术实现思路

1、本公开提供的一种语料生成方法、模型训练方法、装置、电子设备和介质,可以提高语料转换的转换效果。

2、第一方面,本公开实施例提供了一种语料生成方法,包括:

3、确定与目标语种匹配的n个候选语种,其中,所述n为大于0的整数,所述候选语种与所述目标语种的目标属性信息相匹配,所述目标属性信息包括以下至少一项:语法结构类别和谱系类别;

4、在目标语料库中获取与所述n个候选语种对应的语料,得到n个初始语料集,所述n个初始语料集与所述n个候选语种一本文档来自技高网...

【技术保护点】

1.一种语料生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定与目标语种匹配的n个候选语种,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语种集和所述第二语种集,确定所述n个候选语种,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述n个初始语料集中的语料转换为所述目标语种,得到n个目标语料集,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第四语料集生成所述第一语料集对应的目标语料集,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述第四语料集...

【技术特征摘要】

1.一种语料生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定与目标语种匹配的n个候选语种,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语种集和所述第二语种集,确定所述n个候选语种,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述n个初始语料集中的语料转换为所述目标语种,得到n个目标语料集,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第四语料集生成所述第一语料集对应的目标语料集,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述第四语料集中每条语料进行自然度评分,得到所述第四语料集中每条语料的自然度评分值...

【专利技术属性】
技术研发人员:白安琪蒋宁陆全夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1