【技术实现步骤摘要】
本专利技术涉及信息安全,尤其涉及一种基于bert和活跃学习的智能钓鱼邮件识别方法及系统。
技术介绍
1、目前,网络钓鱼邮件检测主要集中在机器学习方法上,这些技术通常涉及从邮件内容中提取特征并使用这些特征训练模型,以区分钓鱼邮件和合法邮件。以下是几种常见的现有技术方案:
2、(1)基于内容分析的机器学习方法
3、在网络钓鱼邮件检测领域,基于内容分析的机器学习方法是一种广泛使用的技术。这类方法的核心在于从电子邮件中提取各种特征,如文本内容、结构特征、元数据(如发件人、接收者、邮件主题)等,并利用这些特征来训练机器学习模型。特征提取是这一过程中至关重要的一步,它直接影响着模型的性能。
4、文本内容的分析通常涉及到自然语言处理技术,例如,使用词袋模型、tf-idf(词频-逆文档频率)等方法来转换文本数据。这些技术可以从邮件文本中提取关键词和短语,从而帮助识别典型的钓鱼邮件特征,如诱导性语言或恐吓性措辞。此外,结构特征分析可能包括邮件格式、使用的html标签等,而元数据分析则涉及到邮件的发送和接收信息。
...【技术保护点】
1.一种基于BERT和活跃学习的智能钓鱼邮件识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于BERT和活跃学习的智能钓鱼邮件识别方法,其特征在于,所述本地模型训练中,预设的邮件特征包括电子邮件的元数据信息和邮件文本内容提取特征,所述元数据信息包括发送者和接收者信息、发送时间和邮件主题,所述邮件文本内容提取特征包括文本长度、使用的语言、设定词汇或短语。
3.根据权利要求1所述的一种基于BERT和活跃学习的智能钓鱼邮件识别方法,其特征在于,所述本地模型训练中,通过应用注意力机制使模型突出显示在作出钓鱼邮件判断时最关键的特征,使得模型决
...【技术特征摘要】
1.一种基于bert和活跃学习的智能钓鱼邮件识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法,其特征在于,所述本地模型训练中,预设的邮件特征包括电子邮件的元数据信息和邮件文本内容提取特征,所述元数据信息包括发送者和接收者信息、发送时间和邮件主题,所述邮件文本内容提取特征包括文本长度、使用的语言、设定词汇或短语。
3.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法,其特征在于,所述本地模型训练中,通过应用注意力机制使模型突出显示在作出钓鱼邮件判断时最关键的特征,使得模型决策过程更加透明。
4.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法,其特征在于,所述本地模型训练中,通过活跃学习策略使模型主动识别对提高自身性能最有价值的数据样本并请求标注,从而减少对大量预先标注数据的依赖。
5.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法,其特征在于,所述模型参数更新中,通过联邦学习技术使每台设备进行独立学习,仅将学习到的模型更新信息发送到中心服务器进行汇总,而不涉及原始数据的交换,从而...
【专利技术属性】
技术研发人员:赵文波,王立业,岳燕林,李昭远,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。