基于文本嵌入优化的文生图模型敏感内容过滤和防御方法技术

技术编号:44475163 阅读:16 留言:0更新日期:2025-03-04 17:44
本发明专利技术公开了一种基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,涉及大模型安全技术领域。该方法包括:准备正负样本数据集和普通数据集;调整文本编码器的参数并利用师生模型进行训练;使用普通数据集稳定文本编码器;设计一个综合损失函数,结合多个数据集进行训练优化以生成调整后的学生模型并通过文本嵌入生成最终的安全图像。本发明专利技术通过微调文本编码器,在处理包含敏感词汇的文本输入时,将这些敏感词汇的文本嵌入转换为对应良性词汇的文本嵌入并使用良性的文本嵌入来引导生成安全图像;在不改变模型生成能力的前提下避免文生图模型生成包含敏感色情或其他受版权保护的图像,实现对敏感内容的有效过滤、转换及防御。

【技术实现步骤摘要】

本专利技术属于大模型安全,尤其涉及一种基于文本嵌入优化的文生图模型敏感内容过滤和防御方法


技术介绍

1、近年来,文本到图像生成模型(text-to-image models,t2i)取得了显著进展,允许用户通过输入自然语言描述(即提示词)生成合成图像。这类模型通常由理解输入提示词的语言模型和生成图像的组件组成。例如,对比语言-图像预训练模型(constrastivelanguage-image pre-training,clip)的文本编码器或基于变换器的双向编码表示(bidirectional encoder representations from transformers,bert)作为语言模型,而扩散模型则用于图像生成。以稳定扩散模型(stable diffusion,sd)为例,其图像生成过程从一个潜在噪声向量开始,该噪声向量将文本编码器的输出转换为潜在图像嵌入。随后,sd的图像解码器将潜在图像嵌入解码为图像。这种方法结合了语言模型和图像生成模型的优点,使得生成的图像能够高度契合输入的文本描述。

2、文本到图像模型通常在大量图片数据本文档来自技高网...

【技术保护点】

1.基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:负向样本数据集T包括敏感概念和受版权保护对象的概念;普通数据集D包括常用文本提示;正向样本数据集为负向样本数据集T中负向样本的反义语句的集合。

3.根据权利要求1所述的基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:生成正向样本数据集具体为:

4.根据权利要求1所述的基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:调整文本编码器的参数,具体包括如下内容...

【技术特征摘要】

1.基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:负向样本数据集t包括敏感概念和受版权保护对象的概念;普通数据集d包括常用文本提示;正向样本数据集为负向样本数据集t中负向样本的反义语句的集合。

3.根据权利要求1所述的基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:生成正向样本数据集具体为:

4.根据权利要求1所述的基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,其特征在于:调整文本编码器的参数,具体包括如下内容:

5.根...

【专利技术属性】
技术研发人员:韩蒙潘伊翔陈敏捷骆挺林昶廷邢文鹏王滨
申请(专利权)人:杭州君同未来科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1