一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统技术方案

技术编号:4185755 阅读:313 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及文本处理技术领域,尤其是一种垃圾邮件的判断、分类、过滤方法及系统。此系统分成两个子系统,包括:潜在语义空间生成子系统和邮件判断、分类、过滤子系统。其中潜在语义空间子系统包括:中文和英文分词模块;词语文档矩阵生成模块、权重计算模块、词语文档矩阵奇异值分解模块、语义空间更新模块。邮件判断、分类、过滤子系统的包括:待判断的邮件中文和英文分词模块、将文本邮件映射到潜在语义空间、语义空间中文档向量之间的相似度计算、根据相似度判断、分类、过滤邮件。使用本发明专利技术提供的实施例可以对垃圾邮件进行判断,从而过滤垃圾邮件,并且能够快速、高效的过滤垃圾邮件。

【技术实现步骤摘要】

【技术保护点】
一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统,其特征在于,包括:中文和英文分词;词语--文档矩阵生成;权重计算;词语文档矩阵奇异值分解;语义空间更新;将文本邮件映射到潜在语义空间;语义空间中文档向量之间的相似度计算;对待判断的邮件进行判断、分类、过滤。

【技术特征摘要】

【专利技术属性】
技术研发人员:程红蓉何兴高曾志华周俊怡刘伟党建军
申请(专利权)人:电子科技大学
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1