【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于短文本的垃圾邮件过滤方法,包括:对电子邮件中的文本进行分词处理并获得分词结果;使用TF-IDF技术对所述分词结果进行排序处理获得分词列表;根据所述分词结果计算电子邮件的邮件指纹;根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;根据所述聚类结果过滤垃圾电子邮件。本专利技术还公开了一种基于短文本的垃圾邮件过滤装置。采用本专利技术,可对电子邮件中的文本进行分词处理和TF-IDF技术排序处理,实现噪音过滤;根据电子邮件的文本长度,采用一个或多个BKDR哈希函数来计算电子邮件的邮件指纹,可有效地强化分词结果的作用;利用归一化处理,使得电子邮件能通过比对指纹的相似性进行聚类处理,实现垃圾电子邮件的过滤。【专利说明】一种基于短文本的垃圾邮件过滤方法及装置
本专利技术涉及互联网
,尤其涉及一种基于短文本的垃圾邮件过滤方法及基于短文本的垃圾邮件过滤装置。
技术介绍
随着互联网的广泛应用,电子邮件以其快速、简单、廉价的优点受到人们的青睐,成为一种高效的大众传播媒介。与此同时,大量无用邮件涌入人们的邮箱,给他们的学习和生活带来 ...
【技术保护点】
一种基于短文本的垃圾邮件过滤方法,其特征在于,所述基于短文本的垃圾邮件过滤方法包括:a、对电子邮件中的文本进行分词处理并获得分词结果;b、使用TF?IDF技术对所述分词结果进行排序处理获得分词列表;c、根据所述分词结果计算电子邮件的邮件指纹;d、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;e、根据所述聚类结果过滤垃圾电子邮件。
【技术特征摘要】
【专利技术属性】
技术研发人员:林延中,潘庆峰,
申请(专利权)人:盈世信息科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。