温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明涉及自然语言处理技术领域,特别涉及一种大语言模型的增量预训练方法。该大语言模型的增量预训练方法,递归式数据收集,利用MinHash算法来估计文本之间的相似度,实现数据的去重;将翻译数据集合并作为增量预训练数据集;生成并扩充词表,调整模...该专利属于山东浪潮科学研究院有限公司所有,仅供学习研究参考,未经过山东浪潮科学研究院有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明涉及自然语言处理技术领域,特别涉及一种大语言模型的增量预训练方法。该大语言模型的增量预训练方法,递归式数据收集,利用MinHash算法来估计文本之间的相似度,实现数据的去重;将翻译数据集合并作为增量预训练数据集;生成并扩充词表,调整模...