System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识蒸馏的低成本养老照护问答对构建方法技术_技高网

一种基于知识蒸馏的低成本养老照护问答对构建方法技术

技术编号:43156775 阅读:35 留言:0更新日期:2024-11-01 19:52
本发明专利技术公开了一种基于知识蒸馏的低成本养老照护问答对构建方法,其特点是该方法调用先进闭源大语言模型ChatGPT作为教师模型,针对养老照护书籍生成一部分问答对并进行不合格数据过滤;然后将教师模型生成问答对的过程作为训练集训练学生模型Qwen1.5‑7B‑Chat,使用学生模型完成余下数据的问答对生成,并对学生模型生成的问答对再次过滤;最后,将学生模型和教师模型生成的问答对合并,指示Qwen1.5‑14B‑Chat模型在不改变问答对原意的情况下将问答对重建优化,得到最终的高质量养老照护问答对集合。本发明专利技术相与现有技术相比具有压缩了构建养老照护问答对所需要的人力成本和金钱成本,且构建出的问答对质量较高,可用于微调语言模型以提升模型的养老照护知识水平。

【技术实现步骤摘要】

本专利技术涉及问答模型,尤其是一种基于知识蒸馏的低成本养老照护问答对构建方法


技术介绍

1、随着人工智能技术的快速发展,集成人工智能算法的会话代理展现出了为老年人获取养老照护知识需求赋能的巨大潜力,尤其是擅长处理长上下文、对自然语言理解能力更强的基于大语言模型的会话代理。

2、然而,即使是使用最先进的大语言模型的会话代理在养老照护领域仍然存在一些问题,例如无法回答、回答过于笼统等。为解决这些问题,需要收集大量养老照护相关的语料,并标注成问答对的形式来训练大语言模型。目前已有的标注方法主要有两种:第一种是通过众包等方式雇佣领域专家手工标注原始语料,这种方法虽然得到的数据质量较高,但费用昂贵且标注时间成本过高,难以满足训练模型的数据量需求。第二种是将原始语料直接切割成段,调用最先进的大语言模型自动生成问答对,尽管有效节约了标注时间,但成本同样昂贵,且不加控制地调用大语言模型生成问答对会产生大量低质量数据。

3、因此,目前亟需提出一种能够结合两种传统方法优势的新方法,以低成本、高效率地构建养老照护问答对,从而训练出专业化更强的养老照护问答模型。


技术实现思路

1、本专利技术的目的是针对现有技术的不足而设计的一种基于知识蒸馏的低成本养老照护问答对构建方法,采用将学生模型和教师模型生成的问答对合并的方法,指示qwen1.5-14b-chat模型在不改变问答对原意的情况下将问答对重建优化,得到最终的高质量养老照护问答对集合。该方法首先调用先进闭源大语言模型chatgpt作为教师模型,针对养老照护书籍生成一部分问答对并进行不合格数据过滤;然后将教师模型生成问答对的过程作为训练集训练学生模型qwen1.5-7b-chat,使用学生模型完成余下数据的问答对生成,并对学生模型生成的问答对再次过滤;最后,将学生模型和教师模型生成的问答对合并,指示qwen1.5-14b-chat模型在不改变问答对原意的情况下将问答对重建优化,得到最终的高质量养老照护问答对集合。方法简便,实用性好,本专利技术有效压缩了构建养老照护问答对所需要的人力成本和金钱成本,且构建出的问答对质量较高,方法简便,实用性好,尤其适用于微调语言模型以提升模型的养老照护知识水平。

2、实现本专利技术目的的具体技术方案是:一种基于知识蒸馏的低成本养老照护问答对构建方法,其特点是该方法包括以下具体步骤:

3、步骤1:对数据集进行预处理操作

4、1.1:使用easyocr将用于生成问答对的原始数据(书籍资料)经过ocr处理成可编辑文字形式,并划分为固定长度的段的集合;

5、1.2:按照书籍本身的类型,批量标注5000条原始数据的文段类型(老年护理、老年医学、老年养生、老年心理学等),使用该数据训练一个基于bert-base-chinese模型的文本多分类模型;

6、1.3:使用文本多分类模型将余下的所有数据分类。

7、步骤2:调用高性能闭源大语言模型chatgpt作为教师模型,生成问答对

8、2.1:对于步骤1.1中集合中的每一类文本,分别设计prompt,充分激发模型生成问答对的能力,具体包括:

9、2.2:将步骤1.1中集合的前20%数据送入教师模型chatgpt,生成问答对,并将此过程完整记录。

10、步骤3:不合格数据的一次过滤

11、3.1:人工标注少量由教师模型chatgpt生成的问答对,一半为正样本,一半为负样本,负样本是无法独立存在的不合格问答对(问题中包含特定的人、事情等),使用该数据训练一个基于bert-base-chinese模型的二分类过滤器;

12、3.2:将3.1中训练的二分类过滤器应用于剩下所有未标注合格情况的数据,根据过滤情况改写步骤2.2中的记录。

13、步骤4:生成学生模型的问答对

14、使用k-means聚类方法将3.2中得到的教师模型生成记录聚类,选取距离类中心点最近的20%数据作为最有代表性的数据,以此数据训练学生模型qwen1.5-7b-chat,将生成问答对的能力蒸馏到学生模型上,随后使用学生模型对步骤1.1中集合的后80%数据生成问答对。

15、步骤5:不合格数据的二次过滤

16、使用步骤3.1中训练的过二分类过滤器应用于步骤4中学生模型生成的问答对,将教师模型和学生模型生成的问答对合并成一个原始问答对集。

17、步骤6:问答对重建

18、设计prompt指示qwen1.5-14b-chat模型在不改变问答对原意的情况下,将步骤5中得到的原始问答对集重建优化,得到最终的养老照护问答对集合。

19、本专利技术与现有技术相比,具有以下有益的技术效果和显著的技术进步:

20、1)本专利技术将先进闭源大语言模型生成问答对的能力有效蒸馏到了参数较小的语言模型上,并设计了两阶段的过滤提高蒸馏效果以及对整个生成的问答对集进行有效质量控制。

21、2)本专利技术的问答对重建模块,仅利用prompt的方式,让语言模型优化润色用于训练语言模型的问答对,有效提高数据集的整体质量,并实现了较好的的数据对齐。

22、3)基于知识蒸馏,仅需在最初阶段少量调用闭源大语言模型生成问答对,随后交由开源小参数模型完成,有效压缩了生成问答对所需要的人工和金钱成本。

23、4)引入两阶段过滤机制,仅需人工标注一部分不合格数据训练过滤器,有效提高知识蒸馏中学生模型的性能以及控制最终生成问答对的质量。

24、5)引入数据重建模块,在保证不改变问答对原意的情况下将原问答对润色补充,有效提高整体数据质量。

本文档来自技高网...

【技术保护点】

1. 一种基于知识蒸馏的低成本养老照护问答对构建方法,其特征在于,该方法具体包括以下步骤:

【技术特征摘要】

1. 一种基于知识蒸馏的低成本养老照护问答对构...

【专利技术属性】
技术研发人员:孙玉灵肖和
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1