模型微调训练方法、答案输出方法、装置及电子设备制造方法及图纸

技术编号：43732051 阅读：20 留言：0更新日期：2024-12-20 12:56

本申请提供一种模型微调训练方法、答案输出方法、装置及电子设备，用于改善大语言模型的安全性较低的问题。该方法包括：获取待处理的多个问题文本；针对多个问题文本中的每个问题文本，获取该问题文本对应的原则关键词，并根据该问题文本和该问题文本对应的原则关键词生成该问题文本对应的提示文本；将该问题文本对应的提示文本输入大语言模型，以使大语言模型输出多个答案文本；从多个答案文本中确定安全性最高的答案文本；以每个问题文本对应的提示文本为训练数据，以安全性最高的答案文本为训练标签，对大语言模型进行微调训练，获得微调训练后的大语言模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大语言模型和人工智能的，具体而言，涉及一种模型微调训练方法、答案输出方法、装置及电子设备。

技术介绍

1、目前，大语言模型(large language model，llm)大部分是基于transformer开发训练的，开源的llm例如chatglm、moss-sft等，在具体的实践过程中发现，这些llm生成的内容有时候并不合法合规，有时候不符合社会道德价值观念，因此，对于一个商业应用的大语言模型来说，目前的大语言模型的安全性较低。

技术实现思路

1、本申请实施例的目的在于提供一种模型微调训练方法、答案输出方法、装置及电子设备，用于改善大语言模型的安全性较低的问题。

2、本申请实施例提供了一种模型微调训练方法，包括：获取待处理的多个问题文本；针对多个问题文本中的每个问题文本，获取该问题文本对应的原则关键词，并根据该问题文本和该问题文本对应的原则关键词生成该问题文本对应的提示文本；将该问题文本对应的提示文本输入大语言模型，以使大语言模型输出多个答案文本；从多个答案文本中...

【技术保护点】

1.一种模型微调训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将该问题文本对应的提示文本输入大语言模型，包括：

3.根据权利要求1所述的方法，其特征在于，在所述从所述多个答案文本中确定安全性最高的答案文本之前，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述从所述多个答案文本中确定安全性最高的答案文本之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据该问题文本、该问题文本的安全类别和该安全类别对应的原则关键词确定第二答案文本，包括：

6.根据权利要求1-5任一所述的方法，其...

【技术特征摘要】

1.一种模型微调训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将该问题文本对应的提示文本输入大语言模型，包括：

3.根据权利要求1所述的方法，其特征在于，在所述从所述多个答案文本中确定安全性最高的答案文本之前，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述从所述多个答案文本中确定安全性最高的答案文本之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据该问题文本、该问题文本的安全类别和该安全类别对应的原则关键词确定第二答案文本，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述从所述多个答案文本中确定安全性最高的答案文本，包括：

7.根据权利要求6所述的方法，其特征在于，所述选择结果为答案文本的选择次数；所述根据所述选择结...

【专利技术属性】
技术研发人员：上官致伟，陈坚，
申请(专利权)人：北京天数智芯半导体科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人