【技术实现步骤摘要】
本申请属于神经网络,具体涉及一种模型的训练方法及装置、电子设备和存储介质。
技术介绍
1、在相关技术中,如大语言模型(large language model,llm)等神经网络模型被防范应用于各种领域,其面临多种安全威胁。攻击模块可以通过精心设计的攻击输入(即prompt,指引导语言模型进行特定任务的一段文本或一组指令)来操纵llm模型,导致llm模型输出不准确、有偏见的信息,使得llm模型的安全性得不到保证。
技术实现思路
1、本申请实施例的目的是提供一种模型的训练方法及装置、电子设备和存储介质,能够提高llm模型的安全性。
2、第一方面,本申请实施例提供了一种模型的训练方法,方法包括:
3、根据确定的攻击策略控制攻击网络模型向llm模型输出攻击向量,攻击向量用于模拟针对llm模型的攻击行为;
4、控制防御网络模型基于攻击向量和响应数据进行训练,得到更新后的防御网络模型;
5、根据更新后的防御网络模型,更新llm模型。
6、第
...【技术保护点】
1.一种模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的训练方法,其特征在于,所述通过评判网络模型更新所述攻击网络模型、所述更新后的防御网络模型、所述更新后的LLM模型中的至少一种,包括:
4.根据权利要求1所述的训练方法,其特征在于,所述根据确定的攻击策略控制攻击网络模型向LLM模型输出攻击向量之前,所述方法还包括:
5.根据权利要求4所述的训练方法,其特征在于,所述获取所述初始攻击向量对应的适应度值,包括:
6.一种模型的
...【技术特征摘要】
1.一种模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的训练方法,其特征在于,所述通过评判网络模型更新所述攻击网络模型、所述更新后的防御网络模型、所述更新后的llm模型中的至少一种,包括:
4.根据权利要求1所述的训练方法,其特征在于,所述根据确定的攻击策略控制攻击网络模型向llm模型输出攻击向量之前,所述方法还包括:
5.根据权利要求4所述的训练方法,其特征在于,所述获取所述初始攻击向量对应的适应度值,包括:
6.一种模型的训练装置,其特征在于,所述训...
【专利技术属性】
技术研发人员:张栋,胡志远,李方圆,郑寅锋,翟乐,欧日军,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。