下载一种加速大语言模型训练的数据预处理方法及系统的技术资料

文档序号:41666204

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明提出了一种加速大语言模型训练的数据预处理方法及系统,解决了现有大语言模型训练过程中将数据完全打散,以致数据的随机性缺失的问题。先后通过将用于大语言模型训练的数据打散后进行分块并按照文本数据的长度大小进行排序,实现了在保证数据集一定随机...
该专利属于上海岩芯数智人工智能科技有限公司所有,仅供学习研究参考,未经过上海岩芯数智人工智能科技有限公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。