本发明专利技术公开了一种基于短文本的垃圾邮件过滤方法,包括:对电子邮件中的文本进行分词处理并获得分词结果;使用TF-IDF技术对所述分词结果进行排序处理获得分词列表;根据所述分词结果计算电子邮件的邮件指纹;根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;根据所述聚类结果过滤垃圾电子邮件。本发明专利技术还公开了一种基于短文本的垃圾邮件过滤装置。采用本发明专利技术,可对电子邮件中的文本进行分词处理和TF-IDF技术排序处理,实现噪音过滤;根据电子邮件的文本长度,采用一个或多个BKDR哈希函数来计算电子邮件的邮件指纹,可有效地强化分词结果的作用;利用归一化处理,使得电子邮件能通过比对指纹的相似性进行聚类处理,实现垃圾电子邮件的过滤。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于短文本的垃圾邮件过滤方法,包括:对电子邮件中的文本进行分词处理并获得分词结果;使用TF-IDF技术对所述分词结果进行排序处理获得分词列表;根据所述分词结果计算电子邮件的邮件指纹;根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;根据所述聚类结果过滤垃圾电子邮件。本专利技术还公开了一种基于短文本的垃圾邮件过滤装置。采用本专利技术,可对电子邮件中的文本进行分词处理和TF-IDF技术排序处理,实现噪音过滤;根据电子邮件的文本长度,采用一个或多个BKDR哈希函数来计算电子邮件的邮件指纹,可有效地强化分词结果的作用;利用归一化处理,使得电子邮件能通过比对指纹的相似性进行聚类处理,实现垃圾电子邮件的过滤。【专利说明】一种基于短文本的垃圾邮件过滤方法及装置
本专利技术涉及互联网
,尤其涉及一种基于短文本的垃圾邮件过滤方法及基于短文本的垃圾邮件过滤装置。
技术介绍
随着互联网的广泛应用,电子邮件以其快速、简单、廉价的优点受到人们的青睐,成为一种高效的大众传播媒介。与此同时,大量无用邮件涌入人们的邮箱,给他们的学习和生活带来灾难。垃圾邮件是用户最讨厌的,他们浪费了用户的时间、金钱及网络带宽,同时,弄乱用户的邮箱,有些邮件甚至是有害的,如包含色情内容或病毒等。据有关研究报告,全世界电子邮件中每天有超过10%都是垃圾邮件。因此,研发一种有效拦截过滤垃圾有效的方法是很有必要的。目前,已有不少方法可以对垃圾邮件进行过滤。如中国专利申请CN201010179995.4,专利技术名称为“一种基于N-Gram分词模型的反向神经网络基于短文本的垃圾邮件过滤装置”,此专利使用N-Gram分词模型对邮件样本进行分词,并使用TF-1DF算法对分词进行权重排序,然后使用zipf法则提取最重要的特征分词列表(没有被挑中的特征分词则被丢弃)。然后通过文本中是否包含这些“重要特征分词”构造出文档的特征向量,并以此特征向量进行神经网络的学习和分类。然而,对于正文内容很短的短文本信息,使用zipf法则来提取最重要的特征分词,并丢弃不重要的特征分词之后,剩下的信息就更少了,如果直接使用这么少的信息进行文本分类,最终的结果甚至可能是错误的,严重情况下甚至会将正常邮件归类成垃圾邮件,导致用户没有读到或者没有及时读到这封邮件。另外,当前大量的垃圾邮件常常使用html方式进行包装,并通过添加大量不可见或者不同大小的字体,来干扰文本分类的效果,因此,此专利不适用于正文内容很短的垃圾邮件的过滤。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种基于短文本的垃圾邮件过滤方法及装置,可结合分词处理、TF-1DF技术及BKDR哈希函数,对电子邮件进行噪音去除,关键信息放大,以及相似文本信息聚类,最终实现对邮件进行分类。为了解决上述技术问题,本专利技术提供了一种基于短文本的垃圾邮件过滤方法,包括:a、对电子邮件中的文本进行分词处理并获得分词结果;b、使用TF-1DF技术对所述分词结果进行排序处理获得分词列表;c、根据所述分词结果计算电子邮件的邮件指纹;d、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;e、根据所述聚类结果过滤垃圾电子邮件。作为上述方案的改进,步骤a包括:al、对文本进行预处理并抽取出中文文本和/或英文文本;a2、分别对所述中文文本和英文文本进行分词处理,并获得分词结果。作为上述方案的改进,步骤c包括:cl、构建特征数组;c2、提取任一预设参数;c3、根据当前提取的预设参数,使用BKDR哈希函数计算所述分词列表中各分词结果的哈希值;c4、分别对所述哈希值进行取模处理获得模值;c5、根据所述模值更新所述特征数组;c6、判断当前已经处理的哈希值个数是否少于预设值,判断为是时,提取一个与已使用的预设参数相异的其它预设参数,并返回执行步骤c3,判断为否时,根据哈希值个数及特征数组长度计算阀值,并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。作为上述方案的改进,步骤d包括:dl、根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度;d 2、根据所述相似度对电子邮件进行聚类处理并获得聚类结果。相应地,本专利技术还提供了一种基于短文本的垃圾邮件过滤装置,包括:分词模块,用于对电子邮件中的文本进行分词处理并获得分词结果;排序模块,用于使用TF-1DF技术对所述分词结果进行排序处理获得分词列表;邮件指纹模块,用于根据所述分词结果计算电子邮件的邮件指纹;类聚模块,用于根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;过滤模块,用于根据所述聚类结果过滤垃圾电子邮件。作为上述方案的改进,所述分词模块包括:预处理单元,用于对文本进行预处理并抽取出中文文本和/或英文文本;分词单元,用于分别对所述中文文本和英文文本进行分词处理,并获得分词结果。作为上述方案的改进,所述邮件指纹模块包括:特征数组单元,用于构建特征数组;参数单元,用于提取任一预设参数;哈希函数单元,用于根据当前提取的预设参数,使用BKDR哈希函数计算所述分词列表中各分词结果的哈希值;取模单元,用于分别对所述哈希值进行取模处理获得模值;更新单元,用于根据所述模值更新所述特征数组;判断处理单元,用于判断当前已经处理的哈希值个数是否少于预设值,判断为是时,提取一个与已使用的预设参数相异的其它预设参数,判断为否时,根据哈希值个数及特征数组长度计算阀值,并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。作为上述方案的改进,所述类聚模块包括:相似度单元,用于根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度;类聚单元,用于根据所述相似度对电子邮件进行聚类处理并获得聚类结果。实施本专利技术,具有如下有益效果: 对电子邮件中的文本进行分词处理和TF-1DF技术排序处理后,获得分词列表,即可将电子邮件所包含的噪音进行过滤,保留电子邮件中进行过html干扰处理的文本;然后,根据电子邮件的文本长度,采用一个或多个BKDR哈希函数来计算电子邮件的邮件指纹,使得两个电子邮件计算出相同的邮件指纹的可能性大大降低,可有效地强化分词结果的作用,使得相似的电子邮件更加容易被比对出来;随后,进行归一化处理获得电子邮件的邮件指纹,使得内容稍有不同的电子邮件能通过比对指纹的相似性进行聚类处理;最后,根据所述聚类结果过滤垃圾电子邮件,解决了对短文本垃圾邮件进行计算机自动化过滤的问题。【专利附图】【附图说明】图1是本专利技术一种基于短文本的垃圾邮件过滤方法的第一实施例流程图; 图2是本专利技术一种基于短文本的垃圾邮件过滤方法的第二实施例流程图; 图3是本专利技术一种基于短文本的垃圾邮件过滤装置的结构示意图; 图4是本专利技术一种基于短文本的垃圾邮件过滤装置中分词模块的结构示意图;图5是本专利技术一种基于短文本的垃圾邮件过滤装置中邮件指纹模块的结构示意图;图6是本专利技术一种基于短文本的垃圾邮件过滤装置中类聚模块的结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。图1是本专利技术一种基于短文本的垃圾邮件过滤方法的第一实施例流程图,包括: S100、对电子邮件中的文本进行分词处理并获得分词结果本文档来自技高网...
【技术保护点】
一种基于短文本的垃圾邮件过滤方法,其特征在于,所述基于短文本的垃圾邮件过滤方法包括:a、对电子邮件中的文本进行分词处理并获得分词结果;b、使用TF?IDF技术对所述分词结果进行排序处理获得分词列表;c、根据所述分词结果计算电子邮件的邮件指纹;d、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;e、根据所述聚类结果过滤垃圾电子邮件。
【技术特征摘要】
【专利技术属性】
技术研发人员:林延中,潘庆峰,
申请(专利权)人:盈世信息科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。