数据处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:46579881 阅读:0 留言:0更新日期:2025-10-10 21:20
本申请涉及计算机技术领域,尤其公开了一种数据处理方法、装置、电子设备及可读存储介质,方法包括:获取S个分类类目分别对应的主题集合;从语料库中获取与目标主题相关联的文档,将与目标主题相关联的文档添加至目标文档集合,获取目标主题分别与目标文档集合中的文档之间的相关性分数;根据目标主题分别与目标文档集合中的文档之间的相关性分数,从目标文档集合中获取满足检索条件的M个文档;对M个文档进行文档拼接,得到目标主题对应的上下文数据,将上下文数据添加至训练数据集合;训练数据集合用于训练目标大语言模型。本申请可以提高训练数据集合的多样性,提高大语言模型的长上下文建模能力,且提高大语言模型的适用性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质


技术介绍

1、大语言模型(large language model,llm)因其强大的语言理解和生成能力而受到广泛关注。近年来,大语言模型的上下文窗口长度显著扩展,使其能够处理更长的输入信息,例如,llama(large language model meta ai)系列模型的上下文长度从llama2的4ktoken扩展到llama3.1的128k token。

2、现有的长上下文数据(简称上下文数据)合成方法是对文档进行随机拼接,将随机拼接得到的上下文数据添加至训练数据集合(简称训练数据集,也可以称之为长文数据库),进而通过训练数据集合训练大语言模型。然而,随机拼接得到的上下文数据中的文档不一定是语义上相关的文档,聚合语义上不相关的文档难以形成文档之间的长程依赖关系,所以在使用随机拼接得到的上下文数据所组成的训练数据集合训练大语言模型时,会使大语言模型的上下文理解能力受限。此外,现有的上下文数据大多来自于书籍等单一领域,这会降低训练数据集合的多样性,从而难以确保大语言本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取S个分类类目分别对应的主题集合,包括:

3.根据权利要求1所述的方法,其特征在于,所述从语料库中获取与所述目标主题相关联的文档,将与所述目标主题相关联的文档添加至目标文档集合,获取所述目标主题分别与所述目标文档集合中的文档之间的相关性分数,包括:

4.根据权利要求3所述的方法,其特征在于,所述N个分片包括目标分片;

5.根据权利要求4所述的方法,其特征在于,所述文档分词文本的数量为至少两个;

6.根据权利要求3所述的方法,其特征在...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取s个分类类目分别对应的主题集合,包括:

3.根据权利要求1所述的方法,其特征在于,所述从语料库中获取与所述目标主题相关联的文档,将与所述目标主题相关联的文档添加至目标文档集合,获取所述目标主题分别与所述目标文档集合中的文档之间的相关性分数,包括:

4.根据权利要求3所述的方法,其特征在于,所述n个分片包括目标分片;

5.根据权利要求4所述的方法,其特征在于,所述文档分词文本的数量为至少两个;

6.根据权利要求3所述的方法,其特征在于,n个文档子集合包括目标文档子集合,所述目标文档子集合包括目标文档;

7.根据权利要求6所述的方法,其特征在于,所述l个主题分词文本包括目标主题分词文本;

8.根据权利要求6所述的方法,其特征在于,所述l个主题分词文本包括目标主题分词文本;

9.根据权利要求3所述的方法,其特征在于,所述n个分片用于划分至w个分布式表,所述w个分布式表中的每个分布式表均包括n/w个分片;所述w为小于所述n...

【专利技术属性】
技术研发人员:伍星贾俊龙高超尘鱼汇沐陈子洋
申请(专利权)人:薯能生巧科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1