预训练数据的去重方法、电子设备、存储介质及程序产品技术

技术编号:43959564 阅读:23 留言:0更新日期:2025-01-07 21:43
本申请提供的一种预训练数据的去重方法、电子设备、存储介质及程序产品,该方法包括:根据预训练数据集,获取多个待处理的预训练数据;根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批次;根据并行处理策略,为每个处理进程分配对应的数据批次,并控制每个处理进程,对每个数据批次的预训练数据进行双重去重处理,获取处理后的目标数据;在确定每个处理进程均完成双重去重处理后,将每个数据批次内对应的目标数据进行汇总,获取去重后的目标数据集。该方法用以达到提高预训练数据去重效率的技术效果。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种预训练数据的去重方法、电子设备、存储介质及程序产品


技术介绍

1、预训练数据是指在训练模型之前已经收集好的数据,这些数据可能来自于不同的数据源,可能包含了噪声、缺失值、异常值等问题。大规模的高质量语料是训练大语言模型的关键“养料”,这些语料提供了世界性的知识体系,能够提升语言模型的理解能力和生成质量,同时也能够支持多样化的应用场景,高质量的文本对于大语言模型的训练和能力表现具有非常重要的影响,为了保证模型的性能和稳定性,需要对预训练数据进行清洗,因此,预训练数据的去重方法成为一个具有应用前景的方向。

2、在现有技术中,预训练数据的去重方法主要是在单进程模式下单一使用文档间去重或文档内去重方法,去实现对预训练数据的去重。

3、由于现有技术中,通过单进程及单一去重方法处理预训练数据,在面对数据量巨大的预训练数据时,需要花费过多的时间及资源去进行去重处理,并且数据去重不彻底,无法达到准确去重,存在预训练数据去重效率低的技术问题。


技术实现思路

1、本申请实施本文档来自技高网...

【技术保护点】

1.一种预训练数据的去重方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文档间去重包括全局数据哈希去重和最小哈希局部敏感哈希去重,所述文档内去重包括字符级文本去重和词语级文本去重,所述针对所述每个处理进程,对每个所述批次的预训练数据进行双重去重处理,获取处理后的目标数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希值,对多个所述预训练数据进行所述全局数据哈希去重,以去除重复的所述预训练数据,得到去重处理后的多个第一数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一片段序列,对所述第一数...

【技术特征摘要】

1.一种预训练数据的去重方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文档间去重包括全局数据哈希去重和最小哈希局部敏感哈希去重,所述文档内去重包括字符级文本去重和词语级文本去重,所述针对所述每个处理进程,对每个所述批次的预训练数据进行双重去重处理,获取处理后的目标数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希值,对多个所述预训练数据进行所述全局数据哈希去重,以去除重复的所述预训练数据,得到去重处理后的多个第一数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一片段序列,对所述第一数据进行所述字符级文本去重,获取由所述字符级文本去重处理后的多个第二数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本分词列,对所述多个独立词汇进行所述最小哈希局部敏...

【专利技术属性】
技术研发人员:黄贝贝
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1