System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及本角色扮演大模型领域,尤其涉及一种基于历史人物作品与生平的大模型构建方法及装置。
技术介绍
1、随着人工智能(ai)和自然语言处理(nlp)技术的快速发展,基于大规模预训练语言模型(如gpt、bert等)的技术已经在多个领域取得了显著成果。这些模型在生成与理解现代语言方面展现出了强大的能力,广泛应用于智能助手、自动翻译、内容生成等领域。
2、随着人工智能技术的进步,特别是在自然语言处理和大模型方面的突破,如何通过技术手段再现或模拟历史人物人格特质、文学风格及思想深度,成为一个具有重大意义的研究课题。
3、现有的大模型虽然在模拟现代语言和行为方面取得了一定的成果,但在再现历史人物,尤其文化深厚、个性鲜明的人物时,仍然面临巨大挑战。例如,如何让模型理解并再现历史人物的思维方式、表达习惯,以及如何在对话中融入特定历史人物的历史背景、典故和思想体系,这些问题在现有技术中尚未得到有效解决。
4、此外,现有的大语言模型由于在预训练过程中学习了大量的现代知识和信息,这些知识涵盖了从科学技术到当代社会文化的广泛领域。然而,对于诸多历史人物而言,这些现代知识是他们所不应知晓和理解的。因此,当大模型在模拟历史人物时,如果生成包含现代知识的内容,就会违背历史真实感,导致模型无法准确再现历史人物的认知水平和思想深度,从而影响模型的逼真度和可信度。现有的方法是在提示语句中提醒模型遗忘相关的知识,但是这样的方法会陷入两个缺点,第一:提示语句的添加并不能完全阻止模型输出相关知识,第二点则是在用户提出相关知识时
技术实现思路
1、本专利技术目的在于针对现有技术的不足,提出一种基于历史人物作品与生平的大模型构建方法。
2、本专利技术的目的是通过以下技术方案来实现的:一种基于历史人物作品与生平的大模型构建方法,该方法包括如下步骤:
3、s1、采集所需要生成的历史人物对应的作品数据和生平数据并进行文本清洗,得到历史人物信息数据;
4、s2、将历史人物信息数据作为知识库,构建历史人物对话数据场景与对话内容,构建对话段落得到对话数据;
5、s3、根据大模型的tokenizer将对话数据中的输入文本进行向量化处理,并对训练数据添加掩码mask标记,得到训练数据,使用所述训练数据对大模型进行微调;
6、s4、将文本清洗后的历史人物作品数据和生平数据输入文档解析器进行解析生成文本块,并使用预训练的大语言模型将每个文本块转换为高维编码,将高维编码储存在向量数据库中用于增强大语言模型输出。
7、进一步地,所述作品数据和生平数据在采集时进行去重、构建标题和内容以及对同标题的不同内容进行编号处理。
8、进一步地,所述构建历史人物对话数据场景与对话内容包括:构建prompt,利用知识库和prompt通过gpt-4的api接口,使用gpt-4生成历史人物与不同行业的人对话背景与对话内容。
9、进一步地,所述对话内容包括不同行业的任务对历史人物的个人信息询问、作品讨论和人物讨论。
10、进一步地,所述根据大模型的tokenizer将对话数据中的输入文本进行向量化处理,具体步骤如下:
11、为每一条数据之前添加段落开头[gmask]<sop>,作为一段新数据的开头提示模型生成这些被掩盖的部分,在数据结尾添加<|endoftext|>作为该段落的文本结束标记;
12、针对于每条数据中的指令和问答对,在每条数据的指令前添加<|system|>来指代该部分数据作为指令,在用户提问前添加<|user|>来指代该部分数据作为用户输入数据,在期望模型输出的数据前添加<|assistant|>作为模型输出;
13、添加完标记以后,通过选定的大模型对应的tokenizer对数据进行编码,将文本转换为向量的形式;
14、根据添加的标记,对<|assistant|>的内容进行损失mask构建,即在模型优化过程中只计算<|assistant|>的内容的损失值,将mask的部分添加对应的向量值作为后续模型计算损失的依据,对非mask部分以-100代表不计算损失。
15、进一步地,在训练过程中如果模型生成的结果在非mask部分出现遗忘词,则该部分的损失将受到惩罚,根据惩罚系数增大惩罚,具体计算公式如下:
16、根据原始的padding_mask获取非mask部分
17、
18、获取模型第i维的输出outputi
19、
20、其中,n代表词表的长度,zi代表预测为模型输出第i维的值,代表模型预测的词;
21、根据的值来评估是否需要惩罚,计算惩罚系数α,公式如下
22、
23、其中vall代表模型的完整词表,v代表可保留词汇表;
24、惩罚值为penalty=eα;
25、根据penalty和padding_mask得到最后的mask,具体公式为
26、penalty_mask=penalty×padding_mask。
27、进一步地,在模型训练过程中根据penalty_mask来放缩mask以达到模型遗忘非vocab中的词汇。
28、进一步地,所述生成文本块的具体步骤如下:
29、根据处理的数据的存储格式,选定对应的文档分类器;
30、使用对应的分类器解析文档并除去干扰项,并保留文档原始的数据结构和关联关系;
31、根据数据的存储格式以及解析提取的内容,对文档进行分块得到文档块,保留原始文件的语义结构。
32、进一步地,所述将每个文本块转换为高维编码的具体操作为:得到文本块后,将文本块进行向量化,并使用选定的大模型的embedding层对输出进行embedding转成高维向量并存入向量知识库。
33、进一步地,所述增强大语言模型输出具体为对用户输入问题在向量库中进行检索,具体过程为:
34、对于用户输入的问题t,转换为嵌入向量表示为e(t)=embeddingmodel(t),其中embeddingmodel是3.3中选择的大模型的embbeding部分
35、根据得到的嵌入向量和存储的向量数据库,根据余弦相似度计算公式:其中q是问题的向量表示,d是文档的向量表示,计算相似度;
36、根据得到的输入问题和文档的相似度,选择前k个或大于相似度阈值的文档作为提示一起输入给模型。
37、另一方面,本专利技术还提供了一种基于历史人物作品与生平的大模型构建装置,包括存储器和一个或多个处理器,所述本文档来自技高网...
【技术保护点】
1.一种基于历史人物作品与生平的大模型构建方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述构建历史人物对话数据场景与对话内容包括:构建Prompt,利用知识库和Prompt通过GPT-4的API接口,使用GPT-4生成历史人物与不同行业的人对话背景与对话内容。
3.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述对话内容包括不同行业的任务对历史人物的个人信息询问、作品讨论和人物讨论。
4.根据权利要求3所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述根据大模型的tokenizer将对话数据中的输入文本进行向量化处理,具体步骤如下:
5.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,
6.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述生成文本块的具体步骤如下:
7.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方
8.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述增强大语言模型输出具体为对用户输入问题在向量库中进行检索,具体过程为:
9.一种基于历史人物作品与生平的大模型构建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-8中任一项所述的一种基于历史人物作品与生平的大模型构建方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-8中任一项所述的一种基于历史人物作品与生平的大模型构建方法。
...【技术特征摘要】
1.一种基于历史人物作品与生平的大模型构建方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述构建历史人物对话数据场景与对话内容包括:构建prompt,利用知识库和prompt通过gpt-4的api接口,使用gpt-4生成历史人物与不同行业的人对话背景与对话内容。
3.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述对话内容包括不同行业的任务对历史人物的个人信息询问、作品讨论和人物讨论。
4.根据权利要求3所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,所述根据大模型的tokenizer将对话数据中的输入文本进行向量化处理,具体步骤如下:
5.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,
6.根据权利要求1所述的一种基于历史人物作品与生平的大模型构建方法,其特征在于,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。