大语言模型内容安全优化方法、系统、设备及存储介质技术方案

技术编号：41793431 阅读：35 留言：0更新日期：2024-06-24 20:18

本发明专利技术属于人工智能技术领域，涉及一种大语言模型内容安全优化方法、系统、设备及存储介质，所述方法包括：1)训练数据敏感检测；2)训练数据自动改写；3)大语言模型内容安全微调；4)大语言模型微调效果反馈；5)改写规则调整；6)输出内容自动改写；7)大语言模型内容安全再微调。其实质性地解决了大语言模型存在的领域泛化，生成内容安全等方面存在的问题，对大语言模型设计提供了新的方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，涉及一种大语言模型优化方法、系统、设备及存储介质，尤其涉及一种大语言模型内容安全优化方法、系统、设备及存储介质。

技术介绍

1、在现阶段飞速发展的数字化时代，人工智能技术扮演着科技创新和应用的关键角色，特别是大语言模型技术如今具有深远影响力。大语言模型在自然语言处理、计算机视觉、语音识别等关键领域展现出卓越的表现。与此同时，随着大语言模型的不断提升和技术演变，其在商业领域的应用也越来越广泛，例如金融、医疗、广告、音像等行业，都开始使用大语言模型实现精细化服务。

2、随着大语言模型技术的逐步发展和完善，基于此类技术搭建的应用数量正在逐渐增长。新的技术发展，往往会伴随着新的安全风险问题。由于大语言模型在预训练阶段，往往爬取海量互联网数据进行训练，这些训练数据内容繁杂、质量参差不齐，往往导致大语言模型会输出包含恐怖、色情、暴力等敏感内容。

3、为此，需要对大语言模型进行安全优化。但是，大语言模型安全优化还存在如下困难与调整：

4、1、大语言模型本身参数量巨大，敏感内容数据无法在预训练...

【技术保护点】

1.一种大语言模型内容安全优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的大语言模型内容安全优化方法，其特征在于，在所述步骤2)和3)之间，还包括：训练数据敏感复检，对改写后的训练数据进行敏感检测，以检测出改写后的不含敏感内容的训练数据，并且在步骤3)中使用改写后的不含敏感内容的训练数据对大语言模型进行内容安全微调。

3.根据权利要求2所述的大语言模型内容安全优化方法，其特征在于，在进行敏感检测时，通过基于词典的敏感内容匹配来检测敏感内容，或者利用机器学习算法来学习敏感内容的特征并根据这些特征来检测敏感内容。

4.根据权利要求3所述的大语...

【技术特征摘要】

1.一种大语言模型内容安全优化方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的大语言模型内容安全优化方法，其特征在于，在进行训练数据自动改写时，将敏感内容划分成不同的类型，针对每种类型的敏感内...

【专利技术属性】
技术研发人员：李英，王笑尘，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人