一种电子邮件收集分类方法技术

技术编号:8235837 阅读:256 留言:0更新日期:2013-01-20 11:08
本发明专利技术公开了一种电子邮件收集分类方法,包括:扫描服务器中所有被举报的邮件,提取被举报次数大于或等于n的目标邮件,n为默认值,所述被举报的邮件包括被举报为正常邮件及被举报为垃圾邮件的邮件;计算所述目标邮件的置信度,得出计算结果;根据所述计算结果判定所述目标邮件为垃圾邮件或正常邮件,并存储到数据库中。采用本发明专利技术无需安排专人对大量邮件进行分类标注,而是直接利用计算机收集用户的反馈信息,减轻了人工的工作量,确保了分类的准确率,同时也无需人工对邮件进行阅读,保护了用户的隐私。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及。
技术介绍
目前,进行文本分类使用的是人工智能分类算法,这些算法需先对学习样本进行学习,构造出对应的判别模型后,才可进行文本分类;因此,需先获取学习样本,目前获取学习样本的方法是人工直接对一批抽样进行标注,标注邮件为垃圾邮件或非垃圾邮件。由于分类算法需要有足够的学习信息量,至少需要对几万封学习样本进行学习才能构造出一个可靠的模型,因此,需要安排专人对几万封邮件进行分类标注,其工作量巨大,而且人工长期进行这类重复工作,容易出现失误,导致样本错误率增高,影响分类算法最终的学习效果;另外,在对邮件进行分类标注时,需人工阅读用户邮件,侵犯了用户的隐 私。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供,该方法无需安排专人对大量邮件进行分类标注,而是直接利用计算机收集用户的反馈信息,减轻了人工的工作量,确保了分类的准确率,同时也无需人工对邮件进行阅读,保护了用户的隐私。为了解决上述技术问题,本专利技术实施例提供了,包括扫描服务器中所有被举报的邮件,提取被举报次数大于或等于η的目标邮件,η为默认值,所述被举报的邮件包括被举报为正常邮件及被举报为垃圾邮件的邮件;计算所述目标邮件的置信度,得出计算结果;根据所述计算结果判定所述目标邮件为垃圾邮件或正常邮件,并存储到数据库中。作为上述方案的改进,所述计算所述目标邮件的置信度的步骤包括将所有把目标邮件举报为正常邮件的举报人的置信度相加,得出总正常邮件置信度X ;将所有把目标邮件举报为垃圾邮件的举报人的置信度相加,得出总垃圾邮件置信度Y;计算总正常邮件置信度X与总垃圾邮件置信度Y的差的绝对值Ix-Yl,得出计算结果。作为上述方案的改进,所述根据所述计算结果判定所述目标邮件为垃圾邮件或正常邮件的步骤包括将所述总正常邮件置信度X与总垃圾邮件置信度Y的差的绝对值Ix-Yl与阈值T进行比较,判断Ix-Yl是否小于τ,判断为是时,暂时不对该邮件进行判定,判断为否时,比较X与Y的大小,当X大于Y时,判定邮件为正常邮件,当X小于Y时,判定邮件为垃圾邮件。作为上述方案的改进,在所述计算所述目标邮件的置信度的步骤之前还包括将初次举报邮件的举报人的初始置信度预设为I。作为上述方案的改进,所述电子邮件收集分类方法还包括更新举报人的置信度,增加与最终判定结果一致的举报人的置信度,降低与最终判定结果不一致的举报人的置信度。作为上述方案的改进,所述置信度的增加速度比降低速度慢。作为上述方案的改进,所述置信度设有最大值及最小值,所述置信度上升到最大值后就不再增加,下降到最小值后就不再降低。实施本专利技术的有益效果在于通过计算机扫描服务器中所有被举报的邮件,提取被举报次数大于或等于系统默认值的目标邮件,基于置信度对目标邮件进行置信度计算,然后根据计算结果判定被举报的邮件为垃圾邮件或正常邮件,并收集到对应的数据库中;该过程是通过计算机基于置信度对用户反馈信息进行直接处理,减轻了人工的工作强度及工作量,确保了分类的准确率,且无需人工对邮件进行阅读,保护了用户的隐私。附图说明图I是本专利技术的第一实施例流程结构示意图; 图2是本专利技术的第二实施例流程结构示意 图3是本专利技术的第三实施例流程结构示意 图4是本专利技术的第四实施例流程结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。图I是本专利技术的第一实施例流程结构示意图,包括S100,扫描服务器中所有被举报的邮件,提取被举报次数大于或等于η的目标邮件。η为默认值,所述被举报的邮件包括被举报为正常邮件及被举报为垃圾邮件的邮件。需要说明的是,是通过计算机自动对服务器中所有被举报的邮件进行扫描,计算机每隔一定时间就会对服务器扫描一次;默认值η可根据具体情况设置,优选地,默认值η为3。S101,计算所述目标邮件的置信度,得出计算结果。S102,根据所述计算结果判定所述目标邮件为垃圾邮件或正常邮件,并存储到数据库中。需要说明的是,判定结果为垃圾邮件的存储到垃圾邮件数据库中,判定结果为正常邮件的存储到正常邮件数据库中。图2是本专利技术的第二实施例流程结构示意图,包括S200,扫描服务器中所有被举报的邮件,提取被举报次数大于或等于η的目标邮件。η为默认值,所述被举报的邮件包括被举报为正常邮件及被举报为垃圾邮件的邮件。需要说明的是,是通过计算机自动对服务器中所有被举报的邮件进行扫描,计算机每隔一定时间就会对服务器扫描一次;默认值η可根据具体情况设置,优选地,默认值η为3。S201,将所有把目标邮件举报为正常邮件的举报人的置信度相加,得出总正常邮件置信度X。S202,将所有把目标邮件举报为垃圾邮件的举报人的置信度相加,得出总垃圾邮件置信度Y。需要说明的是,步骤S201与S202没有先后顺序,可同时进行。S203,计算总正常邮件置信度X与总垃圾邮件置信度Y的差的绝对值IX-YI,得出计算结果。S204,根据所述计算结果判定所述目标邮件为垃圾邮件或正常邮件,并存储到数据库中。需要说明的是,判定结果为垃圾邮件的存储到垃圾邮件数据库中,判定结果为正常邮件的存储到正常邮件数据库中。 例如,M邮件经扫描发现被举报了 4次,大于默认值3(预设),因此被提取为目标邮件,其中举报人A和B将M邮件举报为正常邮件,举报人C和D将M邮件举报为垃圾邮件,举报人A的置信度为5,举报人B的置信度为10,举报人C的置信度为3,举报人D的置信度为8 ;则总正常邮件置信度X为5+10=15,总垃圾邮件置信度Y为3+8=11,总正常邮件置信度X与总垃圾邮件置信度Y的差的绝对值IX-YI为115-111 =4。图3是本专利技术的第三实施例流程结构示意图,包括S300,扫描服务器中所有被举报的邮件,提取被举报次数大于或等于η的目标邮件。η为默认值,所述被举报的邮件包括被举报为正常邮件及被举报为垃圾邮件的邮件。需要说明的是,是通过计算机自动对服务器中所有被举报的邮件进行扫描,计算机每隔一定时间就会对服务器扫描一次;默认值η可根据具体情况设置,优选地,默认值η为3。S301,将所有把目标邮件举报为正常邮件的举报人的置信度相加,得出总正常邮件置信度X。S302,将所有把目标邮件举报为垃圾邮件的举报人的置信度相加,得出总垃圾邮件置信度Y。需要说明的是,步骤S301与S302没有先后顺序,可同时进行。S303,计算总正常邮件置信度X与总垃圾邮件置信度Y的差的绝对值IX-YI,得出计算结果。S304,将所述总正常邮件置信度X与总垃圾邮件置信度Y的差的绝对值IX-YI与阈值τ进行比较,判断Ix-Yl是否小于τ。需要说明的是,阈值T可根据具体情况进行预设,通常阈值T要高于初始置信度,优选地阈值T为3。判断为是时,暂时不对该邮件进行判定。需要说明的是,对暂时不进行判定的目标邮件,将其继续暂存服务器中,留予后续扫描判定。判断为否时,比较X与Y的大小,当X大于Y时,判定邮件为正常邮件,当X小于Y时,判定邮件为垃圾邮件。需要说明的是,判定结果为垃圾邮件的存储到垃圾邮件数据库中,判定结果为正常邮件的存储到正常邮件数据库中。例如,m邮件经扫描发现被举报了 4次,大于默认值3 (预设),因此被提取为目标邮件,其中举报人a和b将m邮件举报为正常邮件,举报人c和d本文档来自技高网...

【技术保护点】
一种电子邮件收集分类方法,其特征在于,包括:扫描服务器中所有被举报的邮件,提取被举报次数大于或等于n的目标邮件,n为默认值,所述被举报的邮件包括被举报为正常邮件及被举报为垃圾邮件的邮件;计算所述目标邮件的置信度,得出计算结果;根据所述计算结果判定所述目标邮件为垃圾邮件或正常邮件,并存储到数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:林延中潘庆峰
申请(专利权)人:盈世信息科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1