【技术实现步骤摘要】
本专利技术属于自然语言处理,具体涉及一种基于检索增强生成的端到端的大模型微调方法和系统。
技术介绍
1、随着自然语言处理技术的快速发展,预训练语言模型的参数量极具膨胀,表现出如上下文学习能力和零样本学习能力等“涌现能力”,包括上下文学习能力和零样本学习能力等。这些涌现能力在对话机器人中起到了显著的效果,但是预训练语言模型在训练阶段学到的知识以固定参数的形式保存在模型结构中,这些参数不会随着时间的推移而改变,即模型只能获取其在预训练阶段学习的知识,无法在不经过再次训练的情况下更新知识。
2、检索增强生成(retrieval-augmented generation,rag)技术通过向量模型对新的知识进行编码,并将编码后的文本信息存储在向量数据库当中。当用户提问新的知识时,向量模型会对其问题进行编码并与向量数据库中的向量信息进行相似度计算,选择出相似度最好的若干内容,并将这些内容与用户查询问题拼接。当用户提问新的知识时,向量模型会对其问题进行编码并与向量数据库中的向量信息进行相似度计算,选择出相似度最好的若干内容,并将这些内容与
...【技术保护点】
1.一种基于检索增强生成的端到端的大模型微调方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于检索增强生成的端到端的大模型微调方法,其特征在于,S2中所述语义提取模块包括分词器模型和Bi-LSTM骨干网络,所述分词器模型用于将文本信息切分成词,其需要与检索模型的分词器保持一致,所述Bi-LSTM骨干网络用于提取特征后得到生成语义向量信息。
3.根据权利要求2所述的基于检索增强生成的端到端的大模型微调方法,其特征在于,在S2中所述语义提取模块的结构具体包括:
4.根据权利要求1述的基于检索增强生成的端到端的大模型微调
...【技术特征摘要】
1.一种基于检索增强生成的端到端的大模型微调方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于检索增强生成的端到端的大模型微调方法,其特征在于,s2中所述语义提取模块包括分词器模型和bi-lstm骨干网络,所述分词器模型用于将文本信息切分成词,其需要与检索模型的分词器保持一致,所述bi-lstm骨干网络用于提取特征后得到生成语义向量信息。
3.根据权利要求2所述的基于检索增强生成的端到端的大模型微调方法,其特征在于,在s2中所述语义提取模块的结构具体包括:
4.根据权利要求1述的基于检索增强生成的端到端的大模型微调方法,其特征在于,在s3中从数据库中获取编码后的语义向量,具体包括:
5.根据权利要求1所述的基于检索增强生成的端到端的大模型微调方法,其特征在于,在s4中选取代价较小的输入到审查模块包括:
6....
【专利技术属性】
技术研发人员:张宇含,周成祖,赵建强,陈思萌,陈子沣,魏超,
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。