一种基于检索增强的微调问答数据集生成方法技术

技术编号:46590178 阅读:3 留言:0更新日期:2025-10-10 21:24
本发明专利技术涉及大模型微调技术领域,提供一种基于检索增强的微调问答数据集生成方法,包括:将单一领域的文件数据、种子数据集以及问题提示词输入至大语言模型,得到优化问题;种子数据集是基于文件数据生成的问答对;将优化问题、文件数据、种子数据集以及第一答案提示词输入至大语言模型,得到初始答案;在文件数据中确定与优化问题及初始答案相关的原文信息;将原文信息、优化问题、初始答案以及第二答案提示词输入至大语言模型,得到优化答案;根据优化问题和优化答案组成的问答对,确定微调问答数据集。本发明专利技术简单、快捷、成本低,有效地解决微调数据集样本数量少、领域关联性弱的问题,较好的平衡了效率和质量的要求,使其适用于垂直领域。

【技术实现步骤摘要】

本专利技术涉及大模型微调,尤其涉及一种基于检索增强的微调问答数据集生成方法


技术介绍

1、大模型在自然语言处理、计算机视觉等领域展现了强大的能力,其发展前景广阔。随着技术的进步,大模型逐渐被应用到垂直领域(如医疗、金融、法律等),以解决特定领域的问题。然而,大模型在垂直领域的应用通常需要进行微调(fine-tuning),以适应特定任务的需求。

2、微调是指在大规模预训练模型的基础上,使用特定领域的数据进行进一步训练,以使模型更好地适应特定任务。微调的关键在于制作大量合适的样本,这些样本需要准确反映目标领域的特征和任务需求。然而,制作这些样本通常需要耗费大量的人力、时间成本,尤其是在数据稀缺或标注难度较大的垂直领域。


技术实现思路

1、本专利技术提供一种基于检索增强的微调问答数据集生成方法,用以解决现有技术中微调数据集样本数量少、领域关联性弱的问题。

2、本专利技术提供一种基于检索增强的微调问答数据集生成方法,包括:将文件数据、种子数据集以及问题提示词输入至大语言模型,得到大语言模型本文档来自技高网...

【技术保护点】

1.一种基于检索增强的微调问答数据集生成方法,其特征在于,包括:

2.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题,包括:

3.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题之前,还包括:

4.根据权利要求3所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述在所述文件数据中确定与所述优化问题和所述初始答案相关的原文信...

【技术特征摘要】

1.一种基于检索增强的微调问答数据集生成方法,其特征在于,包括:

2.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题,包括:

3.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题之前,还包括:

4.根据权利要求3所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述在所述文件数据中确定与所述优化问题和所述初始答案相关的原文信息,包括:

5.根据权利要求4所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述在所述矢量库中,对所述优化问题和所述初始问答构成的向量进行相似性检索,确定所述文件数据中与所述向量相关的段落集合作为所述原文信息,包括:

6.根据权...

【专利技术属性】
技术研发人员:游博刘宇轩李学恩
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1