基于群件理解的不良彩信过滤方法技术

技术编号：4367427 阅读：237 留言：0更新日期：2012-04-11 18:40

一种信息技术领域的基于群件理解的不良彩信过滤方法，包括如下步骤：将每个处理组件分为四组样本，对每个处理组件分别训练形成四个分类器，得到处理组件的离线训练用样本库和决策树训练样本集，进而生成决策树；把彩信拆分成若干个单一媒体文件；进行基于内容理解的过滤处理，得到每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率；将得到的概率组织成一个输入向量，输入到训练所得的决策树，得到彩信的过滤结果。本发明专利技术通过把彩信拆分成不同单一媒体文件，有效解决了彩信无法进行内容过滤的困难，提高了不良彩信过滤的实时性和客观性，过滤的效率和准确性明显提高。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于群件理解的不良彩信过滤方法，其特征在于，包括以下步骤：第一步，将每个处理组件分为四组样本，对每个处理组件分别训练形成四个分类器，得到处理组件的离线训练用样本库，并运用决策树训练样本的组织方式得到决策树训练样本集，进而生成决策树；第二步，根据多用途互联网邮件扩展规范把彩信拆分成若干个单一媒体文件；第三步，将得到的每个单一媒体文件用处理组件的四个分类器进行基于内容理解的过滤处理，得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率，分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率；第四步，将得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量，输入到训练所得的决策树，通过决策树方法得到该彩信的过滤结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘功申，李建华，朱剑，李翔，王士林，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人