一种提纯贝叶斯负样本的方法、系统及装置制造方法及图纸

技术编号:2841252 阅读:332 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种提纯贝叶斯负样本的方法、系统及装置,用以解决目前无法自动调节贝叶斯负样本学习库中负样本数量与贝叶斯正样本学习库中正样本数量比例失衡的问题。本发明专利技术方法包括步骤:当前网络信息被判定为负样本后,归入对应的负样本类别,并统计当前该类别中的负样本数量;若所述当前网络信息归属的类别中的负样本数量不大于预设的阈值,则将所述当前网络信息中的内容录入贝叶斯负样本学习库,否则,对所述当前网络信息不做处理。

【技术实现步骤摘要】

本专利技术涉及网络领域,特别是涉及一种提纯贝叶斯负样本的方法、系统及装置
技术介绍
目前对垃圾邮件的过滤通常采用关键字统计的方法。贝叶斯过滤法是其中使用频率最高、过滤效果最明显的方法。所述贝叶斯过滤法是通过对一定量的已知垃圾邮件(负样本)和非垃圾邮件(正样本)进行学习,生成一套贝叶斯学习库,然后利用贝叶斯公式结合贝叶斯学习库来判断一封邮件是否为垃圾邮件的方法,其具有不断自学的能力。目前贝叶斯学习库中的垃圾邮件的数目远远多于非垃圾邮件,造成这一状况的原因是目前在判断新邮件为垃圾邮件后,直接录入贝叶斯负样本学习库,而现实中垃圾邮件的数量往往很大,并且存在内容相同或相近的特点,这使得大量内容重复的垃圾邮件被录入贝叶斯负样本学习库,造成贝叶斯学习库中的垃圾邮件数和非垃圾邮件数比例失衡。而根据现有数据表明非垃圾邮件和垃圾邮件的样本数为1∶1时,而且贝叶斯学习库学习了最具有代表性的垃圾邮件和非垃圾邮件时,可以达到最佳的过滤效果。若要达到这一效果,目前只能通过人工筛选来实现。进一步,目前贝叶斯学习库中的垃圾邮件与非垃圾邮件在内容上存在很大的交集,在录入垃圾邮件的同时录入了若干干扰字符串,即录入了对于区分正负样本能力不强的信息,使得贝叶斯训练效果不理想,进而造成系统的正误判率较高。
技术实现思路
本专利技术提供一种提纯贝叶斯负样本的方法、系统及装置,用以解决目前无法自动调节贝叶斯负样本学习库中负样本数量与贝叶斯正样本学习库中正样本数量比例失衡的问题。进一步解决负样本直接录入贝叶斯负样本学习库会带入干扰字符串,造成系统的正误判率较高的问题。本专利技术方法包括步骤当前网络信息被判定为负样本后,归入对应的负样本类别,并统计当前该类别中的负样本数量;若所述当前网络信息归属的类别中的负样本数量不大于预设的阈值,则将所述当前网络信息中的内容录入贝叶斯负样本学习库,否则,对所述当前网络信息不做处理。将所述当前网络信息分别与各个类别比较,用以将所述当前网络信息归类到相似度最高的类别中。若所述当前网络信息分别与各个类别比较后均低于预设的最低相似度,则以所述当前网络信息创建一个类别。直接将所述当前网络信息中的全部内容录入贝叶斯负样本学习库。或者,将所述当前网络信息中的内容提纯后,再录入贝叶斯负样本学习库。将所述当前网络信息中的内容提纯,包括下列步骤将所述当前网络信息中的内容与其归属类别中的负样本逐一对比,并分别提取相同的特征;取所述提取的各个相同特征的交集。所述网络信息为电子邮件或短消息。本专利技术的系统,包括负样本库、贝叶斯负样本学习库,以及提纯装置,用于将当前的负样本归入对应的类别中,并在当前负样本归属的类别中的负样本数量不大于预设的阈值时,将当前负样本中的内容录入所述贝叶斯负样本学习库。所述提纯装置包括下列单元分类单元,用于对所述负样本库中的初始负样本分类;相似度判定单元,用于通过预设的相似度算法,将当前负样本分别与分类单元中的各个类别比较,以将所述当前负样本归入相似度最高的类别;计数和比较单元,用于分别统计所述分类单元中每一类别中的负样本数量,并与预设的阈值对比,以确定当前负样本的处理策略。所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时,将所述当前负样本中的全部内容录入所述贝叶斯负样本学习库。所述提纯装置还包括提纯单元,用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时,将所述当前负样本提纯。将提纯后的负样本内容录入所述贝叶斯负样本学习库。本专利技术的提纯装置,包括分类单元,用于对所述负样本库中的初始负样本分类;相似度判定单元,用于通过预设的相似度算法,将当前负样本分别与分类单元中的各个类别比较,以将所述当前负样本归入相似度最高的类别;计数和比较单元,用于分别统计所述分类单元中每一类别中的负样本数量,并与预设的阈值对比,以确定当前负样本的处理策略。所述装置还包括提纯单元,用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时,将所述当前负样本提纯。本专利技术有益效果如下本专利技术先将现有的一定数量的负样本(负样本为垃圾邮件,但不限于邮件)分类,在获得并判定当前邮件为负样本时,将所述当前邮件归入相似度最高的类别中;若当前邮件归属类别中的负样本数量不大于预设的阈值,则将所述当前邮件录入贝叶斯负样本学习库,否则,判定所述当前邮件无效,不做任何处理。通过上述方法的实施,可以有效的减少同一类别的负样本重复录入贝叶斯负样本学习库的次数,所以控制了贝叶斯负样本学习库中负样本的数量,使正负样本得以平衡,并提高了贝叶斯负样本学习库中负样本集的质量,改善了贝叶斯学习的效果。进一步,本专利技术方法在将确定的负样本录入贝叶斯负样本学习库之前,还对该负样本中的内容进行提纯,即只向贝叶斯负样本学习库输入所述负样本与其归属的类别中的其它负样本的共同特征。所以避免了干扰字符串的录入,使得贝叶斯学习库的工作精确度更高。为了支撑本专利技术方法,本专利技术还提供了一种提纯贝叶斯负样本的系统,包括负样本库和贝叶斯负样本学习库,还包括提纯装置,用于将当前的负样本归入对应的类别中,并在当前负样本归属的类别中的负样本数量不大于预设的阈值时,将当前负样本中的内容录入所述贝叶斯负样本学习库。所述提纯装置包括分类单元,用于对所述负样本库中的初始负样本分类;相似度判定单元,用于通过预设的相似度算法,将当前负样本分别与分类单元中的各个类别比较,以将所述当前负样本归入相似度最高的类别;计数和比较单元,用于分别记录所述分类单元中的每一类别中的负样本数量,并与预设的阈值对比,以确定当前负样本的处理策略。所述提纯装置进一步还包括提纯单元,用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时,将所述当前负样本提纯。为了支撑本专利技术方法,本专利技术又提供了一种贝叶斯负样本的提纯装置。附图说明图1为本专利技术系统结构示意图;图2为本专利技术提纯装置结构示意图;图3为本专利技术方法步骤流程图。具体实施例方式为了控制贝叶斯负样本学习库中负样本的数量,使正负样本的数量均衡,本专利技术提供了一种提纯贝叶斯负样本的系统,应用于负样本数量远远大于正样本数量的情况,参见图1所示,包括依次串连的负样本库、提纯装置和贝叶斯负样本学习库。所述负样本库,用于存储负样本。所述提纯装置,用于从所述负样本库中提取一定数量的负样本,并对其分类;以及将当前获取的负样本归入对应的类别中,并在当前负样本归属类别中的负样本数量不大于预设的阈值时,将当前负样本中的内容录入所述贝叶斯负样本学习库。所述阈值的取值可根据当前正负样本的比例而定。所述贝叶斯负样本学习库,用于存储并学习典型的负样本和正样本,并完成正负样本的判定工作。参见图2所示,上述提纯装置(即本专利技术的提纯装置)中可包括分类单元,以及分别与所述分类单元相连的相似度判定单元及计数和比较单元;进一步还可包括与所述分类单元相连的提纯单元。所述分类单元,用于对所述负样本库中的初始负样本分类。所述相似度判定单元,用于通过预设的相似度算法,将当前负样本分别与分类单元中的各个类别比较,以将所述当前负样本归入相似度最高的类别。所述计数和比较单元,用于分别统计所述分类单元中每一类别中的负样本数量,并与预设的阈值对比,以确定当前负样本的处理策本文档来自技高网...

【技术保护点】
一种提纯贝叶斯负样本的方法,其特征在于,包括下列步骤:    当前网络信息被判定为负样本后,归入对应的负样本类别,并统计当前该类别中的负样本数量;    若当前网络信息归属的类别中的负样本数量不大于预设的阈值,则将当前网络信息中的内容录入贝叶斯负样本学习库,否则,对当前网络信息不做处理。

【技术特征摘要】
1.一种提纯贝叶斯负样本的方法,其特征在于,包括下列步骤当前网络信息被判定为负样本后,归入对应的负样本类别,并统计当前该类别中的负样本数量;若当前网络信息归属的类别中的负样本数量不大于预设的阈值,则将当前网络信息中的内容录入贝叶斯负样本学习库,否则,对当前网络信息不做处理。2.如权利要求1所述的方法,其特征在于,将所述当前网络信息分别与各个类别比较,根据比较结果将所述当前网络信息归类到相似度最高的类别中。3.如权利要求2所述的方法,其特征在于,若所述当前网络信息分别与各个类别比较后均低于预设的最低相似度,则以所述当前网络信息创建一个新类别。4.如权利要求1至3任一项所述的方法,其特征在于,直接将所述当前网络信息中的全部内容录入贝叶斯负样本学习库。5.如权利要求4所述的方法,其特征在于,将所述当前网络信息中的内容提纯后,再录入贝叶斯负样本学习库。6.如权利要求5所述的方法,其特征在于,将所述当前网络信息中的内容提纯,包括下列步骤-将所述当前网络信息中的内容与其归属类别中的负样本逐一对比,并分别提取相同的特征;-取所述提取的各个相同特征的交集。7.如权利要求1至3任一项所述的方法,其特征在于,所述网络信息为电子邮件或短消息。8.如权利要求7所述的方法,其特征在于,若所述当前网络信息被判定为正样本,则直接将所述当前网络信息中的内容录入贝叶斯正样本学习库。9.一种提纯贝叶斯负样本的系统,包括负样本库和贝叶斯负样本学习库,其特征在于,所述系统还包括提纯装置,用于将当前的负样本归入对应的类别中,并在当前负样本归属的类别中的负样本数量不大于预设的阈...

【专利技术属性】
技术研发人员:周颢
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利