当前位置: 首页 > 专利查询>浙江大学专利>正文

基于语义相似性的大语言模型控制型Token初始化与微调方法和装置制造方法及图纸

技术编号:42607512 阅读:37 留言:0更新日期:2024-09-03 18:16
本发明专利技术公开了一种基于语义相似性的大语言模型控制型Token初始化与微调方法和系统,包括:基于预训练的大语言模型扩充加入控制型Token的词表得到扩充词表;获取每个控制型Token对应的语义相似的英文单词Token,并利用英文单词Token在扩充词表对应Embedding矩阵中的Embedding来初始化控制型Token的Embedding;构造包含三类语料的合成数据集,将三类语料进行混合后并进行语料的随机乱序处理;利用处理后的合成数据集对预训练的大语言模型进行微调,使模型能够区分控制型Token和普通单词,这样能提高模型对控制型Token的理解和运用能力,提升输出稳定性和安全性。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及一种基于语义相似性的大语言模型控制型token初始化与微调方法和装置。


技术介绍

1、术语解释:

2、词嵌入(word embedding):将单词等离散变量映射为连续向量表示的方法,常用于将单词转换为稠密向量,用于神经网络的输入。

3、词表(vocabulary):模型在训练和生成文本时可以识别和使用的所有单词或符号的集合。这些单词或符号包括了模型理解和生成语言所必需的词汇,通常是从大量文本数据中提取并优化过的。词表的大小和组成可以直接影响模型的性能,包括它理解和生成文本的能力。

4、大语言模型(large language model,llm)是一种基于海量文本数据训练的深度神经网络模型,能够理解和生成自然语言。在如客服、金融等特殊领域中如文档摘要、问答系统、情感分析等特定任务的实际应用中,通常需要在预训练的通用llm的基础上,针对特定垂直领域进行大语言模型微调,以完成对话、信息抽取、文本生成等任务。

5、为了控制llm在任务中的行为,通常需要引入控制型token(cont本文档来自技高网...

【技术保护点】

1.一种基于语义相似性的大语言模型控制型Token初始化与微调方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语义相似性的大语言模型控制型Token初始化与微调方法,其特征在于,所述控制型Token包括以下Token中的至少一种:

3.根据权利要求1所述的基于语义相似性的大语言模型控制型Token初始化与微调方法,其特征在于,所述预训练的大语言模型包括以下模型中的至少一种:

4.根据权利要求1所述的基于语义相似性的大语言模型控制型Token初始化与微调方法,其特征在于,还包括:

5.根据权利要求1所述的基于语义相似性的大语言模...

【技术特征摘要】

1.一种基于语义相似性的大语言模型控制型token初始化与微调方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法,其特征在于,所述控制型token包括以下token中的至少一种:

3.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法,其特征在于,所述预训练的大语言模型包括以下模型中的至少一种:

4.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法,其特征在于,还包括:

5.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法,其特征在于,还包括:

6.一种基于语义相似性的大语言模型控制型token初...

【专利技术属性】
技术研发人员:陈天楚陈文智
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1