【技术实现步骤摘要】
本公开涉及数据处理,特别是涉及一种语料筛选及语言模型训练方法、装置、设备及存储介质。
技术介绍
1、语料,特别是中文语料,通常存在乱码现象。
2、图1是示出了一段存在乱码现象的中文语料示意图。
3、造成乱码现象的原因可能是编码格式转换过程出错。此外,如果双字节编码的过程中丢失字符,以至于后面的段落整段错误,也会导致乱码。另外,其他未知原因也可能会导致大量错误字符,甚至无法显示的情况,进而出现乱码。
4、已知的常识是更优质的语料能够让训练更容易收敛,同时能够让训练后的模型效果表现得更好。因此,针对语料中存在的乱码现象,需要一种语料筛选方案以提升语料质量。
技术实现思路
1、本公开要解决的一个技术问题是,针对语料中存在的乱码现象,如何设计一种能够提升语料质量的语料筛选方案。
2、根据本公开的第一个方面,提供了一种语料筛选方法,包括:基于语料的编码数据中的换行符,将所述编码数据划分为多段子编码数据;判断所述子编码数据中是否存在属于第一字符类别的第一
...【技术保护点】
1.一种语料筛选方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,
4.根据权利要求1所述的方法,其特征在于,还包括:
5.根据权利要求4所述的方法,其特征在于,还包括:
6.一种语言模型训练方法,其特征在于,包括:
7.一种语料筛选装置,其特征在于,包括:
8.一种语言模型训练装置,其特征在于,包括:
9.一种计算设备,包括:
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代
...【技术特征摘要】
1.一种语料筛选方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,
4.根据权利要求1所述的方法,其特征在于,还包括:
5.根据权利要求4所述的方法,其特征在于,还包括:
6.一种语言模型训练方法,其特征在...
【专利技术属性】
技术研发人员:王靖淞,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。