语料筛选及语言模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:43379384 阅读:33 留言:0更新日期:2024-11-19 17:56
本公开涉及一种语料筛选及语言模型训练方法、装置、设备及存储介质。基于语料的编码数据中的换行符,将编码数据划分为多段子编码数据;判断子编码数据中是否存在属于第一字符类别的第一字符;针对存在第一字符的第一子编码数据,基于第一比例和/或第二比例判断第一子编码数据对应的解码后语料是否可用,第一比例用于表征第一子编码数据中第一字符所占的比例,第二比例用于表征第一子编码数据对应的解码后语料中的常见字词或非常见字词所占的比例。由此,可以在提升语料质量的同时尽可能多的保留语料中的可用部分。

【技术实现步骤摘要】

本公开涉及数据处理,特别是涉及一种语料筛选及语言模型训练方法、装置、设备及存储介质


技术介绍

1、语料,特别是中文语料,通常存在乱码现象。

2、图1是示出了一段存在乱码现象的中文语料示意图。

3、造成乱码现象的原因可能是编码格式转换过程出错。此外,如果双字节编码的过程中丢失字符,以至于后面的段落整段错误,也会导致乱码。另外,其他未知原因也可能会导致大量错误字符,甚至无法显示的情况,进而出现乱码。

4、已知的常识是更优质的语料能够让训练更容易收敛,同时能够让训练后的模型效果表现得更好。因此,针对语料中存在的乱码现象,需要一种语料筛选方案以提升语料质量。


技术实现思路

1、本公开要解决的一个技术问题是,针对语料中存在的乱码现象,如何设计一种能够提升语料质量的语料筛选方案。

2、根据本公开的第一个方面,提供了一种语料筛选方法,包括:基于语料的编码数据中的换行符,将所述编码数据划分为多段子编码数据;判断所述子编码数据中是否存在属于第一字符类别的第一字符;针对存在所述第本文档来自技高网...

【技术保护点】

1.一种语料筛选方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,

4.根据权利要求1所述的方法,其特征在于,还包括:

5.根据权利要求4所述的方法,其特征在于,还包括:

6.一种语言模型训练方法,其特征在于,包括:

7.一种语料筛选装置,其特征在于,包括:

8.一种语言模型训练装置,其特征在于,包括:

9.一种计算设备,包括:

10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器...

【技术特征摘要】

1.一种语料筛选方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,

4.根据权利要求1所述的方法,其特征在于,还包括:

5.根据权利要求4所述的方法,其特征在于,还包括:

6.一种语言模型训练方法,其特征在...

【专利技术属性】
技术研发人员:王靖淞
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1