【技术实现步骤摘要】
本专利技术涉及颜文字文本生成技术,具体涉及一种基于颜文字的生成式人工智能安全测试方法及装置,构造生成式人工智能安全测试用例并实现基于颜文字的安全测试。
技术介绍
1、近年来,大语言模型(large language models, llms)在各类下游任务中得到了广泛应用,其卓越的理解和生成能力为社会发展带来了诸多机遇。然而,在实际应用中,这些模型仍然面临一定的安全风险,特别是在遭到恶意引导时,生成的文本可能包含偏见、歧视或其他有害内容,甚至生成误导性虚假或低质量的信息,进而引发不符合道德规范或法律的行为,威胁社会秩序。
2、现有的攻击方法如低资源语言攻击,是通过将有害提示翻译成大语言模型未覆盖的低资源语言,从而显著提高攻击成功率,这揭示了模型在多语言安全训练中的不足。此外,特殊编码攻击也是常见的手段,攻击者使用base64编码将攻击指令隐藏,要求模型输出相同编码的内容,解码后便能获得有害信息。另一种方法是前缀注入攻击,通过一个看似无害的前缀引导模型生成上下文相关的有害内容。
3、颜文字(emoticon)是一种
...【技术保护点】
1.一种用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,分类类别包括与安全内容相关的五大类。
3.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,对分词后的文本具体是使用词频-逆文档频率TF-IDF方法计算每个词语的重要性评分。
4.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,安全关键词库具体是采用逗号分隔值或字符分隔值csv文
...【技术特征摘要】
1.一种用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,分类类别包括与安全内容相关的五大类。
3.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤1)中,对分词后的文本具体是使用词频-逆文档频率tf-idf方法计算每个词语的重要性评分。
4.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,安全关键词库具体是采用逗号分隔值或字符分隔值csv文件;关键词之间以分隔符‘|’隔开。
5.如权利要求1所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤21)获取已公布颜文字信息的途径包括ascii art one line、颜文字卡、github和微博;步骤23)中,采用保留长度为 2~20 个字符的候选项的方法过滤掉噪音字符。
6.如权利要求5所述用于生成式人工智能安全测试的颜文字混合文本生成方法,其特征在于,步骤24)中,具体是采用莱文斯坦levenshtein 距离作为度量指标,计算候选颜文字与基准颜文字之间...
【专利技术属性】
技术研发人员:付博雯,程超,刘海明,黄楚皓,滕若阑,程泽凯,蔣建春,黄鹂,
申请(专利权)人:北京中科卓信软件测评技术中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。