模型的训练方法及装置、电子设备和存储介质制造方法及图纸

技术编号：41297053 阅读：17 留言：0更新日期：2024-05-13 14:45

本申请公开了一种模型的训练方法及装置、电子设备和存储介质，属于神经网络技术领域。其中，模型的训练方法包括：根据确定的攻击策略控制攻击网络模型向LLM模型输出攻击向量，攻击向量用于模拟针对LLM模型的攻击行为；控制防御网络模型基于攻击向量和响应数据进行训练，得到更新后的防御网络模型；根据更新后的防御网络模型，更新LLM模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于神经网络，具体涉及一种模型的训练方法及装置、电子设备和存储介质。

技术介绍

1、在相关技术中，如大语言模型(large language model，llm)等神经网络模型被防范应用于各种领域，其面临多种安全威胁。攻击模块可以通过精心设计的攻击输入(即prompt，指引导语言模型进行特定任务的一段文本或一组指令)来操纵llm模型，导致llm模型输出不准确、有偏见的信息，使得llm模型的安全性得不到保证。

技术实现思路

1、本申请实施例的目的是提供一种模型的训练方法及装置、电子设备和存储介质，能够提高llm模型的安全性。

2、第一方面，本申请实施例提供了一种模型的训练方法，方法包括：

3、根据确定的攻击策略控制攻击网络模型向llm模型输出攻击向量，攻击向量用于模拟针对llm模型的攻击行为；

4、控制防御网络模型基于攻击向量和响应数据进行训练，得到更新后的防御网络模型；

5、根据更新后的防御网络模型，更新llm模型。

6、第...

【技术保护点】

1.一种模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的训练方法，其特征在于，所述通过评判网络模型更新所述攻击网络模型、所述更新后的防御网络模型、所述更新后的LLM模型中的至少一种，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述根据确定的攻击策略控制攻击网络模型向LLM模型输出攻击向量之前，所述方法还包括：

5.根据权利要求4所述的训练方法，其特征在于，所述获取所述初始攻击向量对应的适应度值，包括：

6.一种模型的训练装置，其特征在于...

【技术特征摘要】

1.一种模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的训练方法，其特征在于，所述通过评判网络模型更新所述攻击网络模型、所述更新后的防御网络模型、所述更新后的llm模型中的至少一种，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述根据确定的攻击策略控制攻击网络模型向llm模型输出攻击向量之前，所述方法还包括：

5.根据权利要求4所述的训练方法，其特征在于，所述获取所述初始攻击向量对应的适应度值，包括：

6.一种模型的训练装置，其特征在于，所述训...

【专利技术属性】
技术研发人员：张栋，胡志远，李方圆，郑寅锋，翟乐，欧日军，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人