垃圾邮件过滤方法、装置、电子装置和存储介质制造方法及图纸

技术编号:28943906 阅读:27 留言:0更新日期:2021-06-18 21:53
本申请涉及一种垃圾邮件过滤方法、装置、电子装置和存储介质,其中,该垃圾邮件过滤方法包括:获取样本邮件后进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个逻辑回归子模型,得到训练后的逻辑回归子模型;将待过滤邮件进行输入每个训练后的逻辑回归子模型,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到垃圾邮件概率值,通过本申请,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。

【技术实现步骤摘要】
垃圾邮件过滤方法、装置、电子装置和存储介质
本申请涉及机器学习领域,特别是涉及垃圾邮件过滤方法、装置、电子装置和存储介质。
技术介绍
垃圾邮件一般具有批量发送的特征。其内容包括赚钱信息、商业或个人网站广告、电子杂志。垃圾邮件可以分为良性和恶性的。良性垃圾邮件是各种宣传广告等对收件人影响不大的信息邮件。恶性垃圾邮件是指具有破坏性的电子邮件。有些垃圾邮件发送组织或是非法信息传播者,为了大面积散布信息,常采用多台机器同时巨量发送的方式攻击邮件服务器,造成邮件服务器大量带宽损失,并严重干扰邮件服务器进行正常的邮件递送工作。目前常用机器学习方法对垃圾邮件进行检测并过滤,目前的机器学习方法进行垃圾邮件过滤时需要对邮件中特征进行选择,不能有效地处理高维数据,存在垃圾邮件检测精度低的问题。目前针对相关技术中垃圾邮件检测精度低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种垃圾邮件过滤方法、装置、电子装置和存储介质,以至少解决相关技术中垃圾邮件检测精度低的问题。第一方面,本申请实施例提供了一种垃圾本文档来自技高网...

【技术保护点】
1.一种垃圾邮件过滤方法,其特征在于,包括:/n获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;/n将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;/n利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。/n

【技术特征摘要】
1.一种垃圾邮件过滤方法,其特征在于,包括:
获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。


2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型。


3.根据权利要求2所述的垃圾邮件过滤方法,其特征在于,基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型包括:
将每个所述特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,所述侦查蜂根据所述特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为所述特征项的最优权重,根据所述特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性。


4.根据权利要求3所述的垃圾邮件过滤方法,其特征在于,将测试集输入训练后的逻辑回归子...

【专利技术属性】
技术研发人员:陈应婷范渊杨勃
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1