基于行为结构和语义内容联合分析的邮件分类方法及装置制造方法及图纸

技术编号:24353602 阅读:41 留言:0更新日期:2020-06-03 02:06
本发明专利技术提供了一种基于行为结构和语义内容联合分析的邮件分类方法、装置、设备及可读存储介质,方法包括:提取电子邮件的行为结构信息和文本内容信息;通过特征向量计算方式计算得到电子邮件的行为结构特征,并采用预先训练好的fasttext模型计算得到电子邮件的文本语义特征;分别对行为结构特征和文本语义特征进行归一化处理并进行特征融合,得到电子邮件融合特征;利用电子邮件融合特征对分类器进行训练;采用训练好的分类器对待测电子邮件进行分类,以获取待测电子邮件的类别。本发明专利技术同时利用了邮件的行为结构信息和文本内容信息以对电子邮件进行分类,从而有效提高了电子邮件类别判断的精度。

Mail classification method and device based on behavior structure and semantic content joint analysis

【技术实现步骤摘要】
基于行为结构和语义内容联合分析的邮件分类方法及装置
本专利技术涉及邮件分类领域,尤其是涉及一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质。
技术介绍
随着互联网技术的快速发展,电子邮件由于其传输信息迅速方便,易于保存,不轻易丢失等特点,已经成为现代人际交流的主要通讯方式之一。但是,随着其广泛应用,电子邮件也成为商业广告,恶意软件和非法文件传播的载体,严重影响着人们生活和网路安全。如何能够精确地将垃圾邮件过滤出来成为亟待解决的问题。现有的电子邮件分类方法主要有三种:(1)基于信件源的邮件分类技术,通过研究发信的源头而进行垃圾邮件过滤的过程。主要包括黑白名单过滤技术,反向DNS查询技术等。其中黑白名单过滤优点是速度快,简单并且内存消耗小,在SMTP连接阶段通过判断是否命中黑白名单来阻止垃圾邮件进入。反向DNS查询技术提供IP地址到域名的对应关系,可以拦截使用动态分配或者没有注册域名的IP地址发送的垃圾邮件。(2)基于规则的邮件分类技术,通过对邮件的某些特征进行提取,预定义一些过滤规则来检测判定电子邮件的类型,每条规则对应一个分数,当邮件符合某一条规则时,就将邮件判定为垃圾邮件。(3)基于邮件内容统计的分类方法。对已经分类的训练样本和测试样本进行学习,提取出非垃圾邮件和垃圾邮件的特征向量和特征值,然后根据学习到的模型对测试集中的样本进行计算判断邮件类别。现有的电子邮件分类技术具有如下缺点:1、基于信件源的邮件分类技术,要对每一封邮件的发信源头进行查询,黑白名单也要不断更新,效率较低。同时也会出现大规模的误判。2、基于规则的邮件分类技术,由于邮件的规则特征在不断改变,所以需要不断的更新规则库,人力成本较大。3、基于邮件内容统计的方法虽然考虑到了文本内容的统计信息,但是忽略了其语义信息和其他的一些特征,导致邮件特征判别性较弱,分类精度较差。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质,能够利用电子邮件的行为结构特征和文本语义特征,实现对邮件进行高精度的分类。为了解决上述技术问题,本专利技术实施例提供了一种基于行为结构和语义内容联合分析的邮件分类方法,包括:提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征;利用所述电子邮件融合特征对分类器进行训练;采用训练好的分类器对待测电子邮件进行分类,以获取所述待测电子邮件的类别。进一步地,所述采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征,具体为:将提取到的所述文本内容信息进行预处理,以将所述文本内容信息的格式转为符合所述fasttext模型处理的输入格式;采用所述fasttext模型计算所述文本内容信息中每个分词的特征向量,并对所有计算得到的特征向量进行平均运算,得到所述文本语义特征。进一步地,所述分类器为SVM分类器。为了解决相同的技术问题,本专利技术还提供了一种基于行为结构和语义内容联合分析的邮件分类装置,包括:信息提取模块,用于提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;特征计算模块,用于通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;特征融合模块,用于分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征;分类器训练模块,用于利用所述电子邮件融合特征对分类器进行训练;邮件分类模块,用于采用训练好的分类器对待测电子邮件进行分类,以获取所述待测电子邮件的类别。进一步地,所述采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征,具体为:将提取到的所述文本内容信息进行预处理,以将所述文本内容信息的格式转为符合所述fasttext模型处理的输入格式;采用所述fasttext模型计算所述文本内容信息中每个分词的特征向量,并对所有计算得到的特征向量进行平均运算,得到所述文本语义特征。进一步地,所述分类器为SVM分类器。为了解决相同的技术问题,本专利技术还提供了一种基于行为结构和语义内容联合分析的邮件分类终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现任一项所述的基于行为结构和语义内容联合分析的邮件分类方法。为了解决相同的技术问题,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的基于行为结构和语义内容联合分析的邮件分类方法。与现有技术相比,本专利技术具有如下有益效果:本专利技术实施例提供了一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质,所述方法包括:提取电子邮件的行为结构信息和文本内容信息;通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征;利用所述电子邮件融合特征对分类器进行训练;采用训练好的分类器对待测电子邮件进行分类,以获取所述待测电子邮件的类别。本专利技术同时利用了邮件的行为结构信息和文本内容信息以对电子邮件进行分类,克服了现有电子邮件由于判别性信息利用不足导致的邮件分类精度差的缺陷,从而有效提高了电子邮件类别判断的精度。附图说明图1是本专利技术一实施例提供的基于行为结构和语义内容联合分析的邮件分类方法的流程示意图;图2是本专利技术一实施例提供的文本语义特征的计算过程示意图;图3是本专利技术一实施例提供的基于行为结构和语义内容联合分析的邮件分类装置的结构示意图。...

【技术保护点】
1.一种基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,包括:/n提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;/n通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;/n分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征;/n利用所述电子邮件融合特征对分类器进行训练;/n采用训练好的分类器对待测电子邮件进行分类,以获取所述待测电子邮件的类别。/n

【技术特征摘要】
1.一种基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,包括:
提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;
通过特征向量计算方式对所述行为结构信息进行编码,得到电子邮件的行为结构特征,同时,采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征;
分别对所述行为结构特征和所述文本语义特征进行归一化处理,并将归一化处理后的行为结构特征和文本语义特征进行特征融合,得到电子邮件融合特征;
利用所述电子邮件融合特征对分类器进行训练;
采用训练好的分类器对待测电子邮件进行分类,以获取所述待测电子邮件的类别。


2.根据权利要求1所述的基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,所述采用预先训练好的fasttext模型对所述文本内容信息进行编码,得到电子邮件的文本语义特征,具体为:
将提取到的所述文本内容信息进行预处理,以将所述文本内容信息的格式转为符合所述fasttext模型处理的输入格式;
采用所述fasttext模型计算所述文本内容信息中每个分词的特征向量,并对所有计算得到的特征向量进行平均运算,得到所述文本语义特征。


3.根据权利要求1所述的基于行为结构和语义内容联合分析的邮件分类方法,其特征在于,所述分类器为SVM分类器。


4.一种基于行为结构和语义内容联合分析的邮件分类装置,其特征在于,包括:
信息提取模块,用于提取电子邮件的行为结构信息和文本内容信息;其中,所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种;
特征计算模块,用于通...

【专利技术属性】
技术研发人员:陈磊华张琦
申请(专利权)人:论客科技广州有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1