【技术实现步骤摘要】
基于行为结构和语义内容联合分析的邮件分类方法及装置
本专利技术涉及邮件分类领域,尤其是涉及一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质。
技术介绍
随着互联网技术的快速发展,电子邮件由于其传输信息迅速方便,易于保存,不轻易丢失等特点,已经成为现代人际交流的主要通讯方式之一。但是,随着其广泛应用,电子邮件也成为商业广告,恶意软件和非法文件传播的载体,严重影响着人们生活和网路安全。如何能够精确地将垃圾邮件过滤出来成为亟待解决的问题。现有的电子邮件分类方法主要有三种:(1)基于信件源的邮件分类技术,通过研究发信的源头而进行垃圾邮件过滤的过程。主要包括黑白名单过滤技术,反向DNS查询技术等。其中黑白名单过滤优点是速度快,简单并且内存消耗小,在SMTP连接阶段通过判断是否命中黑白名单来阻止垃圾邮件进入。反向DNS查询技术提供IP地址到域名的对应关系,可以拦截使用动态分配或者没有注册域名的IP地址发送的垃圾邮件。(2)基于规则的邮件分类技术,通过对邮件的某些特征进行提取,预定义一 ...
【技术保护点】
1.一种基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,包括:/n提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;/n通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;/n分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征 ...
【技术特征摘要】
1.一种基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,包括:
提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;
通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;
分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征;
利用所述电子邮件融合特征对分类器进行训练;
采用训练好的分类器对待测电子邮件进行分类,以获取所述待测电子邮件的类别。
2.根据权利要求1所述的基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,所述采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征,具体为:
将提取到的所述文本内容信息进行预处理,以将所述文本内容信息的格式转为符合所述fasttext模型处理的输入格式;
采用所述fasttext模型计算所述文本内容信息中每个分词的特征向量,并对所有计算得到的特征向量进行平均运算,得到所述文本语义特征。
3.根据权利要求1所述的基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,所述分类器为SVM分类器。
4.一种基于行为结构和语义内容联合分析的邮件分类装置,其特征在于,包括:
信息提取模块,用于提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;
特征计算模块,用于通...
【专利技术属性】
技术研发人员:陈磊华,张琦,
申请(专利权)人:论客科技广州有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。