一种基于BERT和活跃学习的智能钓鱼邮件识别方法及系统技术方案

技术编号：44930779 阅读：33 留言：0更新日期：2025-04-08 19:12

本发明专利技术公开了一种基于BERT和活跃学习的智能钓鱼邮件识别方法及系统，其中方法包括：本地模型训练：每台设备使用本地数据独立进行模型训练，通过预训练的BERT模型作为特征提取器，采用预设的邮件特征、应用注意力机制和活跃学习策略；模型参数更新：基于联邦学习技术，每台设备在本地模型训练完成后仅将模型参数的更新信息发送到中心服务器；全局模型更新：中心服务器从所有设备中收集模型参数的更新信息并进行聚合，得到全局模型的更新；模型同步：所有设备收到全局模型后，将本地模型与全局模型进行同步，并通过训练好的模型识别钓鱼邮件与合法邮件。本发明专利技术不仅提升了技术性能，也考虑了用户体验和系统的透明度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息安全，尤其涉及一种基于bert和活跃学习的智能钓鱼邮件识别方法及系统。

技术介绍

1、目前，网络钓鱼邮件检测主要集中在机器学习方法上，这些技术通常涉及从邮件内容中提取特征并使用这些特征训练模型，以区分钓鱼邮件和合法邮件。以下是几种常见的现有技术方案：

2、(1)基于内容分析的机器学习方法

3、在网络钓鱼邮件检测领域，基于内容分析的机器学习方法是一种广泛使用的技术。这类方法的核心在于从电子邮件中提取各种特征，如文本内容、结构特征、元数据(如发件人、接收者、邮件主题)等，并利用这些特征来训练机器学习模型。特征提取是这一过程中至关重要的一步，它直接影响着模型的性能。

4、文本内容的分析通常涉及到自然语言处理技术，例如，使用词袋模型、tf-idf(词频-逆文档频率)等方法来转换文本数据。这些技术可以从邮件文本中提取关键词和短语，从而帮助识别典型的钓鱼邮件特征，如诱导性语言或恐吓性措辞。此外，结构特征分析可能包括邮件格式、使用的html标签等，而元数据分析则涉及到邮件的发送和接收信息。

5、在特征提取本文档来自技高网...

【技术保护点】

1.一种基于BERT和活跃学习的智能钓鱼邮件识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于BERT和活跃学习的智能钓鱼邮件识别方法，其特征在于，所述本地模型训练中，预设的邮件特征包括电子邮件的元数据信息和邮件文本内容提取特征，所述元数据信息包括发送者和接收者信息、发送时间和邮件主题，所述邮件文本内容提取特征包括文本长度、使用的语言、设定词汇或短语。

3.根据权利要求1所述的一种基于BERT和活跃学习的智能钓鱼邮件识别方法，其特征在于，所述本地模型训练中，通过应用注意力机制使模型突出显示在作出钓鱼邮件判断时最关键的特征，使得模型决

【技术特征摘要】

1.一种基于bert和活跃学习的智能钓鱼邮件识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法，其特征在于，所述本地模型训练中，预设的邮件特征包括电子邮件的元数据信息和邮件文本内容提取特征，所述元数据信息包括发送者和接收者信息、发送时间和邮件主题，所述邮件文本内容提取特征包括文本长度、使用的语言、设定词汇或短语。

3.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法，其特征在于，所述本地模型训练中，通过应用注意力机制使模型突出显示在作出钓鱼邮件判断时最关键的特征，使得模型决策过程更加透明。

4.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法，其特征在于，所述本地模型训练中，通过活跃学习策略使模型主动识别对提高自身性能最有价值的数据样本并请求标注，从而减少对大量预先标注数据的依赖。

5.根据权利要求1所述的一种基于bert和活跃学习的智能钓鱼邮件识别方法，其特征在于，所述模型参数更新中，通过联邦学习技术使每台设备进行独立学习，仅将学习到的模型更新信息发送到中心服务器进行汇总，而不涉及原始数据的交换，从而...

【专利技术属性】
技术研发人员：赵文波，王立业，岳燕林，李昭远，
申请(专利权)人：中国电子科技集团公司第三十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人