System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的钓鱼邮件检测方法技术_技高网

一种基于大语言模型的钓鱼邮件检测方法技术

技术编号:40533727 阅读:6 留言:0更新日期:2024-03-01 13:55
本发明专利技术提供一种基于大语言模型的钓鱼邮件检测方法,属于人工智能技术领域,大语言模型不需要进行复杂的特征工程,将写有待测邮件的提示模板输入大语言模型,大语言模型就可以直接处理邮件内容,最后由大语言模型判断待测邮件是否为钓鱼邮件;而且,大语言模型具有出色的语义理解能力,可以深入识别和理解邮件的上下文内容,从而更准确地识别钓鱼邮件中应用的社会工程学技术和心理操纵技巧;此外,大语言模型具有强大的多语言处理能力,可以解决语言障碍问题,为其他语言的钓鱼邮件检测提供新的研究思路;最后,本发明专利技术同时使用没有开源的和开源的大语言模型进行钓鱼邮件检测,能够更好地研究开源大语言模型检测钓鱼邮件的性能和探索社会工程学领域的垂直大模型构建。

【技术实现步骤摘要】

本专利技术属于人工智能,尤其涉及一种基于大语言模型的钓鱼邮件检测方法


技术介绍

1、钓鱼邮件攻击一般是指攻击者伪装成银行等权威部门的技术管理员,或者是收件人信任的朋友、家人等,通过发送电子邮件的方式诱导用户点击钓鱼链接或者下载附件,进而窃取用户的敏感信息或者在设备上植入恶意程序。近年来,随着互联网技术的快速发展,钓鱼邮件的数量也在日益增长。2022年apwg的第三季度报告显示,观察到的网络钓鱼攻击数量超过120万次,针对商业电子邮件攻击的数量增加了59%。coremail发布的2023上半年研究报告显示,全国企业邮箱用户共收到1.4亿封钓鱼邮件,同比2022上半年增长40.89%。因此,对于个人和企业来说,如何防范钓鱼邮件攻击是网络安全的重要组成部分。

2、随着生成式大语言模型在各种任务上展现的优异性能,人们也开始探索大语言模型在各个领域中的应用,但也带来了一系列安全风险,例如生成有害内容、数据泄露等。最近,在暗网上出现的基于大语言模型的网络犯罪工具wormgpt,对生成结果没有采取限制和安全过滤,专门用于恶意攻击活动。攻击者不需要掌握特定技能或语言,也能利用该工具生成针对目标的钓鱼邮件,大大提高了网络钓鱼攻击造成的威胁。

3、大语言模型(large language models,llms)生成的钓鱼邮件通常更加自然、语法正确且有深层次的语义关联,传统的机器学习或深度学习算法在检测时存在局限性,尤其是基于文本特征的检测方法。llms可以生成内容和风格具有多样性的钓鱼邮件,现有的检测方法不足以应对这种新兴的网络钓鱼攻击技术。


技术实现思路

1、为解决上述问题,本专利技术提供一种基于大语言模型的钓鱼邮件检测方法,结合提示模板和输入邮件生成提示,可以使llms识别邮件中可疑的钓鱼特征,量化邮件的钓鱼风险程度并判断是否为钓鱼邮件。

2、一种基于大语言模型的钓鱼邮件检测方法,包括以下步骤:

3、将待测邮件进行预处理,使得待测邮件的长度控制在设定范围内;

4、将预处理后的待测邮件写入设定的提示模板中,其中,所述提示模板包括问题部分和邮件部分,且邮件部分用于写入预处理后的待测邮件,问题部分设置为:分析邮件的可疑因素以及是否包含社会工程学技术、分析邮件的url、识别邮件意图、给出邮件是否为钓鱼邮件的结论及理由、以json格式输出判断结果;

5、将写有预处理后的待测邮件的提示模板输入大语言模型,由大语言模型判断待测邮件是否为钓鱼邮件,其中,大语言模型为gpt-4、gpt-3.5或者开源大语言模型llama2、baichuan2、chatglm2。

6、进一步地,所述提示模板具体为:

7、您是一名网络安全专家和社会工程学专家,负责检查电子邮件以确定它是钓鱼邮件还是合法邮件,要完成此任务,请执行以下子任务:

8、1).分析邮件的可疑因素以及是否包含社会工程学技术:分析邮件发件人地址、主题和正文中是否存在用于网络钓鱼攻击的社会工程学技术,指出发件人地址、主题或正文中发现的任何可疑因素;

9、2).分析邮件的url:如果邮件正文包含url链接,提取出url的特征并判断是否可疑,如果邮件正文不包含url链接,则回答无;

10、3).识别邮件意图:结合邮件的上下文内容和关键词来分析发件人的意图是否可疑;

11、4).陈述您对该电子邮件是钓鱼邮件还是合法邮件的结论,并解释理由,如果没有足够的证据做出判断,请回答“未知”;

12、5).以json格式的输出您的判断结果,其中,判断结果包含以下关键字:

13、- phishing_score: int,其中,phishing_score用于表示钓鱼风险,int表示风险等级,等级从低至高分别为0到10;

14、- suspicious_url: boolean,其中,suspicious_url用于表示邮件中的url链接是否可疑,如果可疑则boolean为true,如果不可疑则boolean为false;

15、- phishing: boolean,其中,phishing用于表示该邮件是钓鱼邮件还是合法邮件,如果为钓鱼邮件则boolean为true,如果为合法邮件则boolean为false;

16、限制:

17、- 邮件内容可能被缩短和简化;

18、社会工程学技术举例:

19、- 紧迫感:用时间期限催促收信人立即采取行动;

20、- 威胁恐吓:采用安全警告恐吓收信人;

21、- 欲望诱惑:提供奖励引诱收信人点击链接;

22、- 冒充亲友或同事:获取信任来骗取钱财;

23、email:

24、{预处理后的待测邮件}。

25、进一步地,将待测邮件进行预处理,使得待测邮件的长度控制在设定范围内具体为:

26、计算待测邮件的token长度,如果token长度超出了设定范围,则按照设定范围中的最大长度对待测邮件进行截取,只保留设定范围内的邮件文本。

27、进一步地,采用lora微调技术调整开源大语言模型llama2、baichuan2、chatglm2的网络参数,以此提升开源大语言模型对钓鱼邮件的检测效果,调整方法为:

28、基于acm iwspa 2018的反网络钓鱼试点中提供的iwspa数据集构造初始数据集,其中,iwspa数据集中包括仅包含正文内容的电子邮件iwspa_nh、包含完整邮件头信息和正文内容的电子邮件iwspa_h;

29、剔除初始数据集中长度大于设定范围的邮件,仅保留长度在设定范围内的邮件作为筛选后数据集;

30、将筛选后数据集按照1:1的比例切分成验证数据集和准监督微调数据集,其中,验证数据集用于gpt-3.5、gpt-4、llama2、baichuan2以及chatglm2检测钓鱼邮件性能的比较;

31、将准监督微调数据集输入gpt-4,得到gpt-4对准监督微调数据集中各邮件样本的判断结果和分析回答,去除判断结果错误以及低质量分析回答对应的邮件样本,将剩余邮件样本组成最终的监督微调数据集;

32、将监督微调数据集分别输入开源大语言模型llama2、baichuan2、chatglm2,判断设定的损失函数是否满足要求,若为是,则完成开源大语言模型网络参数的调整,若为否,则通过低秩分解矩阵来更新开源大语言模型中的权重矩阵,再将监督微调数据集分别输入权重矩阵调整后的开源大语言模型,重新判断损失函数是否满足要求;以此类推,直到完成开源大语言模型网络参数的调整。

33、进一步地,采用准确率、精确度、召回率、f1分数、误报率、漏报率作为评估大语言模型检测钓鱼邮件性能的指标,其中,在所述指标的评估下,gpt-4检测钓鱼邮件的性能最优。

34、进一步地,所述待测邮件为带有邮件头的邮件或本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的钓鱼邮件检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,所述提示模板具体为:

3.如权利要求1所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,将待测邮件进行预处理,使得待测邮件的长度控制在设定范围内具体为:

4.如权利要求1所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,采用LoRA微调技术调整开源大语言模型Llama2、BaiChuan2、ChatGLM2的网络参数,以此提升开源大语言模型对钓鱼邮件的检测效果,调整方法为:

5.如权利要求1~4任一权利要求所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,采用准确率、精确度、召回率、F1分数、误报率、漏报率作为评估大语言模型检测钓鱼邮件性能的指标,其中,在所述指标的评估下,GPT-4检测钓鱼邮件的性能最优。

6.如权利要求1~4任一权利要求所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,所述待测邮件为带有邮件头的邮件或者不带有邮件头的邮件,采用准确率、精确度、召回率、F1分数、误报率、漏报率作为评估大语言模型检测钓鱼邮件性能的指标,其中,在所述指标的评估下,大语言模型GPT-3.5、Llama2检测不带有邮件头的钓鱼邮件的性能更优,大语言模型GPT-4、BaiChuan2、ChatGLM2检测带有邮件头的钓鱼邮件的性能更优。

7.如权利要求1~4任一权利要求所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,当发件人的邮件地址来自所属组织机构品牌的其他域名或者合法域名的多个子域名时,或者当邮件正文中提及的组织机构域名与发件人地址不匹配时,或者当邮件主题或正文中出现有关心理引导或操纵的关键词时,或者当合法的组织机构通过邮件进行广告宣传吸引用户时,或者邮件中包含的URL链接大于设定值时,或者邮件中包含的URL链接包含脱敏占位符时,大语言模型GPT-4检测钓鱼邮件的误报率将会提升。

8.如权利要求1~4任一权利要求所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,当邮件不带有邮件头时,或者当邮件使用正式的通知语气且没有任何明显使用社会工程学技术的迹象时,或者GPT-4未能识别邮件中的社会工程学技术时,大语言模型GPT-4检测钓鱼邮件的漏报率将会提升。

...

【技术特征摘要】

1.一种基于大语言模型的钓鱼邮件检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,所述提示模板具体为:

3.如权利要求1所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,将待测邮件进行预处理,使得待测邮件的长度控制在设定范围内具体为:

4.如权利要求1所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,采用lora微调技术调整开源大语言模型llama2、baichuan2、chatglm2的网络参数,以此提升开源大语言模型对钓鱼邮件的检测效果,调整方法为:

5.如权利要求1~4任一权利要求所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,采用准确率、精确度、召回率、f1分数、误报率、漏报率作为评估大语言模型检测钓鱼邮件性能的指标,其中,在所述指标的评估下,gpt-4检测钓鱼邮件的性能最优。

6.如权利要求1~4任一权利要求所述的一种基于大语言模型的钓鱼邮件检测方法,其特征在于,所述待测邮件为带有邮件头的邮件或者不带有邮件头的邮件,采用准确率、精确度、召回率、f1分数、误...

【专利技术属性】
技术研发人员:伍淳华郑康锋张尚武斌
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1