System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种大模型微调指令自动化生成方法、装置、设备及介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>华侨大学专利>正文

一种大模型微调指令自动化生成方法、装置、设备及介质制造方法及图纸

技术编号:40455925 阅读:7 留言:0更新日期:2024-02-22 23:13
本发明专利技术提供了一种大模型微调指令自动化生成方法、装置、设备及介质,首先通过模板法构建人工指令集。接着基于提示微调构建MCT对话生成的机器指令,并基于指标度量方法对生成的MCT对话语料进行修正;接着基于最大边缘相关算法进行机器指令采样;接着基于K‑Means算法进行指令池指令采样。提出了一个面向MCT多轮对话的大模型微调指令自动化生成框架,能生成符合MCT等级标准,具有角色、话题和任务等多样性的MCT对话数据集,对医学自然语言处理的新任务以及模型评估具有重要的理论价值和应用效益。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体涉及一种大模型微调指令自动化生成方法、装置、设备及介质


技术介绍

1、语料生成是人工智能领域中一项重要的研究分支,也是文本生成领域的一项子任务;其研究内容可概括为“由各种输入形式的文本中的知识、语料、语义信息等自动生成语料”。其中,语料生成主要被应用于人工智能领域,包括文本生成、语言模型训练、机器翻译等应用场景。随着大型语言模型(llm),如chatgpt和gpt-4的发展,通过给语言模型提供合适的提示词或指令,以引导其生成期望的输出,能大大提升低资源领域零样本生成语料的质量;但是,如何将领域知识和特定任务融入到迭代逻辑设计却成为一个难点。

2、医学汉语水平考试(medical chinese test,简称mct)是一项考查医学汉语应用水平的标准化语言测试。目前,现市面上已有的mct对话语料数据集在质量上参差不齐,原因在于这些对话资源涉及到患者隐私和医学专业性,医疗对话数据的收集和标注相对较为困难,导致对话语料缺少多样性和连贯性。

3、有鉴于此,提出本申请。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种大模型微调指令自动化生成方法、装置、设备及介质,能够有效解决现有技术中的mct对话语料数据集存在在于医疗对话数据的收集和标注相对较为困难,导致对话语料缺少多样性和连贯性的问题。

2、本专利技术公开了一种大模型微调指令自动化生成方法, 包括:

3、构建mct多轮对话语料,通过模板法对所述mct多轮对话语料进行构建预处理,生成人工指令集模板和指令池指令-语料数据库;

4、基于提示微调对所述人工指令集模板进行构建处理,并基于指标度量对处理后的所述人工指令集模板进行修正;

5、使用预训练中文语言模型分别对所述修正机器指令-生成语料数据库和所述指令池指令-语料数据库中的指令和语料进行向量表示处理,计算出两者的加权相似度,并基于最大边缘相关算法进行机器指令采样处理,生成候选机器指令列表;

6、使用k-means算法对所述候选机器指令列表进行聚类处理,按照预设衰减个数从所述指令池istbase中随机地去除相对应的指令,生成聚类候选机器指令列表,再从所述聚类候选机器指令列表随机选取与衰减个数同量的指令,以对指令池istbase进行更新。

7、本专利技术还公开了一种大模型微调指令自动化生成装置,包括:

8、构建单元,用于构建mct多轮对话语料,通过模板法对所述mct多轮对话语料进行构建预处理,生成人工指令集模板和指令池指令-语料数据库;

9、修正单元,用于基于提示微调对所述人工指令集模板进行构建处理,并基于指标度量对处理后的所述人工指令集模板进行修正;

10、候选机器指令列表生成单元,用于使用预训练中文语言模型分别对所述修正机器指令-生成语料数据库和所述指令池指令-语料数据库中的指令和语料进行向量表示处理,计算出两者的加权相似度,并基于最大边缘相关算法进行机器指令采样处理,生成候选机器指令列表;

11、更新单元,用于使用k-means算法对所述候选机器指令列表进行聚类处理,按照预设衰减个数从所述指令池istbase中随机地去除相对应的指令,生成聚类候选机器指令列表,再从所述聚类候选机器指令列表随机选取与衰减个数同量的指令,以对指令池istbase进行更新。

12、本专利技术还公开了一种大模型微调指令自动化生成设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的一种大模型微调指令自动化生成方法。

13、本专利技术还公开了一种可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的一种大模型微调指令自动化生成方法。

14、综上所述,本实施例提供的一种大模型微调指令自动化生成方法、装置、设备及介质,针对mct对话语料匮乏的问题,利用大语言模型的生成能力,在指令池中加入自动更新机制,通过多维度约束的指令有效生成符合的mct对话语料。通过自动选择最具有代表性的机器指令用于更新指令池中的指令,形成能自动地进行mct对话语料资源生成的框架,该框架可以有效的解决mct对话语料生成问题。从而解决现有技术中的mct对话语料数据集存在在于医疗对话数据的收集和标注相对较为困难,导致对话语料缺少多样性和连贯性的问题。

本文档来自技高网...

【技术保护点】

1.一种大模型微调指令自动化生成方法, 其特征在于,包括:

2.根据权利要求1所述的一种大模型微调指令自动化生成方法,其特征在于,构建MCT多轮对话语料,通过模板法对所述MCT多轮对话语料进行构建预处理,生成人工指令集模板和指令池指令-语料数据库,具体为:

3.根据权利要求2所述的一种大模型微调指令自动化生成方法,其特征在于,基于提示微调对所述人工指令集模板进行构建处理,并基于指标度量对处理后的所述人工指令集模板进行修正,具体为:

4.根据权利要求3所述的一种大模型微调指令自动化生成方法,其特征在于,使用预训练中文语言模型分别对所述修正机器指令-生成语料数据库和所述指令池指令-语料数据库中的指令和语料进行向量表示处理,计算出两者的加权相似度,并基于最大边缘相关算法进行机器指令采样处理,生成候选机器指令列表,具体为:

5.根据权利要求4所述的一种大模型微调指令自动化生成方法,其特征在于,使用预训练中文语言模型分别对所述修正机器指令-生成语料数据库和所述指令池指令-语料数据库中的指令和语料进行向量表示处理,计算出两者的加权相似度,并基于最大边缘相关算法进行机器指令采样处理,生成候选机器指令列表,还包括:

6.根据权利要求5所述的一种大模型微调指令自动化生成方法,其特征在于,使用K-Means算法对所述候选机器指令列表进行聚类处理,按照预设衰减个数从所述指令池Istbase中随机地去除相对应的指令,生成聚类候选机器指令列表,再从所述聚类候选机器指令列表随机选取与衰减个数同量的指令,以对指令池Istbase进行更新,具体为:

7.一种大模型微调指令自动化生成装置,其特征在于,包括:

8.一种大模型微调指令自动化生成设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的一种大模型微调指令自动化生成方法。

9.一种可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如权利要求1至6任意一项所述的一种大模型微调指令自动化生成方法。

...

【技术特征摘要】

1.一种大模型微调指令自动化生成方法, 其特征在于,包括:

2.根据权利要求1所述的一种大模型微调指令自动化生成方法,其特征在于,构建mct多轮对话语料,通过模板法对所述mct多轮对话语料进行构建预处理,生成人工指令集模板和指令池指令-语料数据库,具体为:

3.根据权利要求2所述的一种大模型微调指令自动化生成方法,其特征在于,基于提示微调对所述人工指令集模板进行构建处理,并基于指标度量对处理后的所述人工指令集模板进行修正,具体为:

4.根据权利要求3所述的一种大模型微调指令自动化生成方法,其特征在于,使用预训练中文语言模型分别对所述修正机器指令-生成语料数据库和所述指令池指令-语料数据库中的指令和语料进行向量表示处理,计算出两者的加权相似度,并基于最大边缘相关算法进行机器指令采样处理,生成候选机器指令列表,具体为:

5.根据权利要求4所述的一种大模型微调指令自动化生成方法,其特征在于,使用预训练中文语言模型分别对所述修正机器指令-生成语料数据库和所述指令池指令-语料数据库中的指令和语料进...

【专利技术属性】
技术研发人员:王华珍胡渲郎林致中尤海滨何霆李弼程
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1