【技术实现步骤摘要】
本公开涉及自然语言处理领域,尤其涉及一种语料生成方法、模型训练方法、装置、电子设备和介质。
技术介绍
1、目前,ai业务的发展空间在很大程度上取决于语言资源的丰富程度。在对ai模型进行训练之前,通常需要挖掘大量的语料以生成训练样本。然而,相关技术中,对于本国语言的语料通常较为容易获取,而对于外语(尤其是小语种),则能够获取到的语料极为有限。从而导致所获取的语料中,呈现语种种类少、分布不平衡的现象,进而影响后续的模型训练效果。
技术实现思路
1、本公开提供的一种语料生成方法、模型训练方法、装置、电子设备和介质,可以提高语料转换的转换效果。
2、第一方面,本公开实施例提供了一种语料生成方法,包括:
3、确定与目标语种匹配的n个候选语种,其中,所述n为大于0的整数,所述候选语种与所述目标语种的目标属性信息相匹配,所述目标属性信息包括以下至少一项:语法结构类别和谱系类别;
4、在目标语料库中获取与所述n个候选语种对应的语料,得到n个初始语料集,所述n个初始语料集
...【技术保护点】
1.一种语料生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定与目标语种匹配的n个候选语种,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语种集和所述第二语种集,确定所述n个候选语种,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述n个初始语料集中的语料转换为所述目标语种,得到n个目标语料集,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述第四语料集生成所述第一语料集对应的目标语料集,包括:
6.根据权利要求5所述的方法,其特征在于,
...【技术特征摘要】
1.一种语料生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定与目标语种匹配的n个候选语种,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语种集和所述第二语种集,确定所述n个候选语种,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述n个初始语料集中的语料转换为所述目标语种,得到n个目标语料集,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述第四语料集生成所述第一语料集对应的目标语料集,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述第四语料集中每条语料进行自然度评分,得到所述第四语料集中每条语料的自然度评分值...
【专利技术属性】
技术研发人员:白安琪,蒋宁,陆全,夏粉,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。