一种基于颜文字的生成式人工智能安全测试方法及装置制造方法及图纸

技术编号:44435516 阅读:15 留言:0更新日期:2025-02-28 18:45
本发明专利技术公布了一种基于颜文字的生成式人工智能安全测试方法及装置,涉及颜文字文本生成技术,包括:构建安全关键词库模块;构建颜文字库模块;测试用例生成模块;测试用例评估模块;应用于人工智能领域。通过生成含有颜文字的混合语言测试文本,构造用于生成式人工智能安全测试的内容安全用例,系统化验证生成式人工智能在处理颜文字文本时的内容防御能力。采用本发明专利技术的技术方案,能够评估生成式智能系统内容安全机制的抗颜文字规避能力,有效提升生成式人工智能在复杂文本场景下的安全防御水平。

【技术实现步骤摘要】

本专利技术涉及颜文字文本生成技术,具体涉及一种基于颜文字的生成式人工智能安全测试方法及装置,构造生成式人工智能安全测试用例并实现基于颜文字的安全测试。


技术介绍

1、近年来,大语言模型(large language models, llms)在各类下游任务中得到了广泛应用,其卓越的理解和生成能力为社会发展带来了诸多机遇。然而,在实际应用中,这些模型仍然面临一定的安全风险,特别是在遭到恶意引导时,生成的文本可能包含偏见、歧视或其他有害内容,甚至生成误导性虚假或低质量的信息,进而引发不符合道德规范或法律的行为,威胁社会秩序。

2、现有的攻击方法如低资源语言攻击,是通过将有害提示翻译成大语言模型未覆盖的低资源语言,从而显著提高攻击成功率,这揭示了模型在多语言安全训练中的不足。此外,特殊编码攻击也是常见的手段,攻击者使用base64编码将攻击指令隐藏,要求模型输出相同编码的内容,解码后便能获得有害信息。另一种方法是前缀注入攻击,通过一个看似无害的前缀引导模型生成上下文相关的有害内容。

3、颜文字(emoticon)是一种利用特定字符符号编排本文档来自技高网...

【技术保护点】

1.一种用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,分类类别包括与安全内容相关的五大类。

3.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,对分词后的文本具体是使用词频-逆文档频率TF-IDF方法计算每个词语的重要性评分。

4.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,安全关键词库具体是采用逗号分隔值或字符分隔值csv文件;关键词之间以分隔...

【技术特征摘要】

1.一种用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,分类类别包括与安全内容相关的五大类。

3.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,对分词后的文本具体是使用词频-逆文档频率tf-idf方法计算每个词语的重要性评分。

4.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,安全关键词库具体是采用逗号分隔值或字符分隔值csv文件;关键词之间以分隔符‘|’隔开。

5.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤21)获取已公布颜文字信息的途径包括ascii art one line、颜文字卡、github和微博;步骤23)中,采用保留长度为 2~20 个字符的候选项的方法过滤掉噪音字符。

6.如权利要求5所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤24)中,具体是采用莱文斯坦levenshtein 距离作为度量指标,计算候选颜文字与基准颜文字之间...

【专利技术属性】
技术研发人员:付博雯程超刘海明黄楚皓滕若阑程泽凯蔣建春黄鹂
申请(专利权)人:北京中科卓信软件测评技术中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1