【技术实现步骤摘要】
本专利技术涉及大模型微调,尤其涉及一种基于检索增强的微调问答数据集生成方法。
技术介绍
1、大模型在自然语言处理、计算机视觉等领域展现了强大的能力,其发展前景广阔。随着技术的进步,大模型逐渐被应用到垂直领域(如医疗、金融、法律等),以解决特定领域的问题。然而,大模型在垂直领域的应用通常需要进行微调(fine-tuning),以适应特定任务的需求。
2、微调是指在大规模预训练模型的基础上,使用特定领域的数据进行进一步训练,以使模型更好地适应特定任务。微调的关键在于制作大量合适的样本,这些样本需要准确反映目标领域的特征和任务需求。然而,制作这些样本通常需要耗费大量的人力、时间成本,尤其是在数据稀缺或标注难度较大的垂直领域。
技术实现思路
1、本专利技术提供一种基于检索增强的微调问答数据集生成方法,用以解决现有技术中微调数据集样本数量少、领域关联性弱的问题。
2、本专利技术提供一种基于检索增强的微调问答数据集生成方法,包括:将文件数据、种子数据集以及问题提示词输入至大语言
...【技术保护点】
1.一种基于检索增强的微调问答数据集生成方法,其特征在于,包括:
2.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题,包括:
3.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题之前,还包括:
4.根据权利要求3所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述在所述文件数据中确定与所述优化问题和所述
...【技术特征摘要】
1.一种基于检索增强的微调问答数据集生成方法,其特征在于,包括:
2.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题,包括:
3.根据权利要求1所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述将文件数据、种子数据集以及问题提示词输入至大语言模型,得到所述大语言模型输出的优化问题之前,还包括:
4.根据权利要求3所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述在所述文件数据中确定与所述优化问题和所述初始答案相关的原文信息,包括:
5.根据权利要求4所述的基于检索增强的微调问答数据集生成方法,其特征在于,所述在所述矢量库中,对所述优化问题和所述初始问答构成的向量进行相似性检索,确定所述文件数据中与所述向量相关的段落集合作为所述原文信息,包括:
6.根据权...
【专利技术属性】
技术研发人员:游博,刘宇轩,李学恩,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。