基于语义相似性的大语言模型控制型Token初始化与微调方法和装置制造方法及图纸

技术编号：42607512 阅读：37 留言：0更新日期：2024-09-03 18:16

本发明专利技术公开了一种基于语义相似性的大语言模型控制型Token初始化与微调方法和系统，包括：基于预训练的大语言模型扩充加入控制型Token的词表得到扩充词表；获取每个控制型Token对应的语义相似的英文单词Token，并利用英文单词Token在扩充词表对应Embedding矩阵中的Embedding来初始化控制型Token的Embedding；构造包含三类语料的合成数据集，将三类语料进行混合后并进行语料的随机乱序处理；利用处理后的合成数据集对预训练的大语言模型进行微调，使模型能够区分控制型Token和普通单词，这样能提高模型对控制型Token的理解和运用能力，提升输出稳定性和安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及一种基于语义相似性的大语言模型控制型token初始化与微调方法和装置。

技术介绍

1、术语解释：

2、词嵌入(word embedding)：将单词等离散变量映射为连续向量表示的方法，常用于将单词转换为稠密向量，用于神经网络的输入。

3、词表(vocabulary)：模型在训练和生成文本时可以识别和使用的所有单词或符号的集合。这些单词或符号包括了模型理解和生成语言所必需的词汇，通常是从大量文本数据中提取并优化过的。词表的大小和组成可以直接影响模型的性能，包括它理解和生成文本的能力。

4、大语言模型(large language model，llm)是一种基于海量文本数据训练的深度神经网络模型，能够理解和生成自然语言。在如客服、金融等特殊领域中如文档摘要、问答系统、情感分析等特定任务的实际应用中，通常需要在预训练的通用llm的基础上，针对特定垂直领域进行大语言模型微调，以完成对话、信息抽取、文本生成等任务。

5、为了控制llm在任务中的行为，通常需要引入控制型token(cont本文档来自技高网...

【技术保护点】

1.一种基于语义相似性的大语言模型控制型Token初始化与微调方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义相似性的大语言模型控制型Token初始化与微调方法，其特征在于，所述控制型Token包括以下Token中的至少一种：

3.根据权利要求1所述的基于语义相似性的大语言模型控制型Token初始化与微调方法，其特征在于，所述预训练的大语言模型包括以下模型中的至少一种：

4.根据权利要求1所述的基于语义相似性的大语言模型控制型Token初始化与微调方法，其特征在于，还包括：

5.根据权利要求1所述的基于语义相似性的大语言模...

【技术特征摘要】

1.一种基于语义相似性的大语言模型控制型token初始化与微调方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法，其特征在于，所述控制型token包括以下token中的至少一种：

3.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法，其特征在于，所述预训练的大语言模型包括以下模型中的至少一种：

4.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法，其特征在于，还包括：

5.根据权利要求1所述的基于语义相似性的大语言模型控制型token初始化与微调方法，其特征在于，还包括：

6.一种基于语义相似性的大语言模型控制型token初...

【专利技术属性】
技术研发人员：陈天楚，陈文智，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人