基于邮件用户行为的发件人信誉生成方法技术

技术编号:14455449 阅读:76 留言:0更新日期:2017-01-19 03:58
本发明专利技术公开了一种基于邮件用户行为的发件人信誉生成方法,包括步骤:A)、初始化系统,加载配置文件,从日志信息中提取发信人特征值,连接特征数据库;B)、发件人信誉值生成阶段,本阶段主要是通过对用户历史发信数,发信成功率,当天发信数,收件人是否回复,邮件内容进行分析生成相应的信誉值;C)、发件人信誉值入库阶段。本发明专利技术相比于常见的发件人信誉生成方法,本发明专利技术的有益效果是通过对海量日志进行用户行为分析,综合考虑垃圾邮件的主要特性如发件人发信总数、当天发信数量、发信成功率、邮件大小、邮件内容、可信域发信等而生成的发件人信誉值,这样可以避免垃圾邮件的误判,很好地提高和解决垃圾邮件过滤的能力。

【技术实现步骤摘要】

本专利技术属于垃圾邮件处理领域,尤其是涉及发件人信誉生成方法,是一种基于邮件用户历史行为的发件人信誉生成方法。
技术介绍
随着电子邮件的广泛应用,伴随而来的垃圾邮件问题日益严重。它不仅消耗网络资源、占用网络带宽、浪费用户的宝贵时间和上网费用,而且严重威胁网络安全,已成为网络公害,带来了严重的经济损失。中国互联网协会反垃圾邮件中心发布调查报告显示,垃圾邮件在规模上不断增长,中国网民平均每周收到的垃圾邮件比例为55.65%。迫切需要有效的技术解决垃圾邮件泛滥的问题。针对现有垃圾邮件的过滤技术主要有邮件发送认证、黑白名单、内容过滤技术,指纹技术,贝叶斯过滤技术等,但是这些技术都或多或少的存在缺点,无法百分之百的准确判断,其中专利申请号为201310115340.4,专利技术创造名称为“用于基于用户信誉过滤垃圾邮件消息的系统和方法”,介绍了一种反垃圾邮件方法,基于用户群组将信誉值高的用户反馈的规则同步到信誉值低的用户,这种做法使用户的规则受到影响,无法反应用户真实的情况,也无法对用户的信誉值做实时的调整。为了提高垃圾邮件拦截的准确率,一种新的拦截技术迫切需要。
技术实现思路
本专利技术的目的在于提供一种具有基于用户行为分析来生成发件人信誉值的方法,用来更好地过滤垃圾邮件。本专利技术的目的是这样实现的:一种基于用户行为分析来生成信誉值的方法。它包括步骤:A)、初始化系统,加载配置文件,从日志信息中提取发信人特征值,连接特征数据库,包括:(A1)运行前准备,加载海量日志文件进行分析,从日志信息中提取邮件体大小,发信成功数,发信失败数,发信总数,收件人回复数,邮件内容,发件人域名,IP发信成功和失败数信息;(A2)将日志提取的特征值保存到特征数据库;B)、发件人信誉值生成阶段,本阶段主要是通过对用户历史发信数,发信成功率,当天发信数,收件人是否回复,邮件内容进行分析生成相应的信誉值;C)、发件人信誉值入库阶段,具体步骤如下:(C1)若发件人的特征值匹配了步骤B)所述的信誉值,则将生成的信誉值保存到数据库中;(C2)若发件人的特征值未匹配步骤B)所述的信誉值,则将特征值保存到数据库,供下次再次分析。本专利技术相比于常见的发件人信誉生成方法,本专利技术的有益效果是通过对海量日志进行用户行为分析,综合考虑垃圾邮件的主要特性如发件人发信总数、当天发信数量、发信成功率、邮件大小、邮件内容、可信域发信等而生成的发件人信誉值,这样可以避免垃圾邮件的误判,很好地提高和解决垃圾邮件过滤的能力。附图说明图1为本专利技术的方法流程图。具体实施方式如图1所示,本专利技术涉及一种基于用户行为分析来生成发件人信誉值的方法,包括步骤:A)、初始化系统,加载配置文件,从日志信息中提取发信人特征值,连接特征数据库等;(1)运行前准备,加载海量日志文件进行分析,从日志信息中提取邮件体大小,发信成功数,发信失败数,发信总数,收件人回复数,邮件内容,发件人域名,IP发信成功和失败数等信息;(2)将日志提取的特征值保存到特征数据库。B)、发件人信誉值生成阶段,本阶段主要是通过对用户历史发信数,发信成功率,当天发信数,收件人是否回复,邮件内容进行分析生成相应的信誉值,主要步骤如下:(1)从数据库中提取特征值后进行判断,如果发信人历史发信总数小于3封,则数据量太少,无法生成信誉值,直接结束流程;(2)当历史发信量超过3封,邮件发送成功率低于0.76时,设置信誉值为30分;(3)当发信成功率为100%,IP发信记录成功率为100%,且收件人有回复或者邮件内容匹配可信关键字或者邮件大小有大于500K或者有可信域发信任一条件满足时,设置信誉值为40分;(4)当发信量超过5封,发信失败次数为0,收件人且总数超过3个,邮件含有可信关键词时,设置信誉值为80分;(5)当发信量超过5封,发信失败次数为0,如果当天发信超过1封,且邮件匹配的可信关键词超过2个或有向可信域发信或收件人有回信或发送的邮件大小超过500K超过2封任一条件满足时,设置信誉值为80分;(6)当发信量超过5封,发信失败数大于0到2封,是可信域发信,且当天发信大于1封时,设置信誉值为70分;(7)当发信量超过5封,发信失败数大于0到2封,有收件人回信,且当天发信大于1封时,设置信誉值为70分;(8)当发信量超过5封,发信失败数大于0到2封,邮件内容含有可信的关键词,邮件内容匹配可信的关键词超过2个,且当天发信大于1封时,设置信誉值为70分;(9)当发信量超过5封,发信失败数大于0到2封,邮件内容含有可信的关键词,发送的邮件大小超过500k至少为1封时,设置信誉值为70分;(10)当发信量超过5封,发信失败数大于0到2封,邮件内容含有可信的关键词,邮件内容含有可信的关键词,收件人有相同的且总数超过3个时,设置信誉值为70分;(11)当发信量超过5封,发信失败数大于2到9封,发信失败数为3且当天发信小于3封时,设置信誉值为30分;(12)当发信量超过5封,发信失败数大于2到9封,发信量大于20封,邮件内容匹配可信的关键词个数超过4个且收件人总数超过12个且同名的超过4个时,设置信誉值为70分;(13)当发信量超过5封,发信失败数大于2到9封,发信量大于20封,邮件内容匹配可信的关键词个数超过4个且当天发信超过4封时,设置信誉值为70分;(14)当发信次数小于5封,发信失败数大于0到2封,邮件大小超过500K至少为1封,邮件内容含有可信的关键词时,设置信誉值为70分。C)、发件人信誉值入库阶段,具体步骤如下:(1)若发件人的特征值匹配了上面的某一规则,则将生成的信誉值保存到数据库中。(2)若发件人的特征值未匹配到任一规则,则将特征值保存到数据库,供下次再次分析。通过对用户长期的发信行为进行分析,用户历史发信行为对将来所发邮件是否为垃圾邮件存在着预见性,比如发件人以往发送垃圾邮件,以后再发一封邮件是垃圾邮件的概率很高,通过智能算法对用户的发信行为分析得出,垃圾邮件具备以下特性:1)邮件大小不会太大,太大会影响垃圾邮件的投递速度。2)发送的成功率不高,某些邮件被反垃圾系统给拦截。3)发送量大,一般通过群发工具进行发送。4)收件人不会回复。5)邮件内容多为广告、政治或色情言论。6)发信域名多为陌生域名。通过机器学习的方法,对线上产生的海量日志进行分析,选取邮件体大小,发信成功数,发信失败数,发信总数,收件人回复数,邮件内容,发件人域名,(i)IP发信成功和失败数等多个特征维度,通过海量日志对特征模型进行训练,(ii)对这些特征值生成了一个总体的信誉分值库,实时的邮件匹配这个特征信誉库,(iii)对满足条件的发件人生成发件人特定的信誉值,提高信誉值的准确度。通过以上特性智能生成发件人信誉值,用来过滤垃圾邮件是一种很好的方法,而且事实证明非常有效,误判率很低。综上所述,本专利技术的有益效果是通过对海量日志进行用户行为分析,综合考虑垃圾邮件的主要特性如发件人发信总数、当天发信数量、发信成功率、邮件大小、邮件内容、可信域发信等而生成的发件人信誉值,这样可以防止某单一特征造成信誉值的偏差,造成垃圾邮件的误判,很好地提高和解决垃圾邮件过滤的能力。本文档来自技高网...

【技术保护点】
一种基于邮件用户行为的发件人信誉生成方法,包括步骤:A)、初始化系统,加载配置文件,从日志信息中提取发信人特征值,连接特征数据库,包括:(A1)运行前准备,加载海量日志文件进行分析,从日志信息中提取邮件体大小,发信成功数,发信失败数,发信总数,收件人回复数,邮件内容,发件人域名,IP发信成功和失败数信息;(A2)将日志提取的特征值保存到特征数据库;B)、发件人信誉值生成阶段,本阶段主要是通过对用户历史发信数,发信成功率,当天发信数,收件人是否回复,邮件内容进行分析生成相应的信誉值;C)、发件人信誉值入库阶段,具体步骤如下:(C1)若发件人的特征值匹配了步骤B)所述的信誉值,则将生成的信誉值保存到数据库中;(C2)若发件人的特征值未匹配步骤B)所述的信誉值,则将特征值保存到数据库,供下次再次分析。

【技术特征摘要】
1.一种基于邮件用户行为的发件人信誉生成方法,包括步骤:A)、初始化系统,加载配置文件,从日志信息中提取发信人特征值,连接特征数据库,包括:(A1)运行前准备,加载海量日志文件进行分析,从日志信息中提取邮件体大小,发信成功数,发信失败数,发信总数,收件人回复数,邮件内容,发件人域名,IP发信成功和失败数信息;(A2)将日志提取的特征值保存到特征数据库;B)、发件人信誉值生成阶段,本阶段主要是通过对用户历史发信数,发信成功率,当天发信数,收件人是否回复,邮件内容进行分析生成相应的信誉值;C)、发件人信誉值入库阶段,具体步骤如下:(C1)若发件人的特征值匹配了步骤B)所述的信誉值,则将生成的信誉值保存到数据库中;(C2)若发件人的特征值未匹配步骤B)所述的信誉值,则将特征值保存到数据库,供下次再次分析。2.如权利要求1所述的基于发件人特征的发件人信誉生成方法,其特征在于:步骤B)包括步骤如下:(B1)从数据库中提取特征值后进行判断,如果发信人历史发信总数小于3封,则数据量太少,无法生成信誉值,直接结束流程;(B2)当历史发信量超过3封,邮件发送成功率低于0.76时,设置为第一信誉值;(B3)当发信成功率为100%,IP发信记录成功率为100%,且收件人有回复或者邮件内容匹配可信关键字或者邮件大小有大于500K或者有可信域发信任一条件满足时,设置为第二信誉值;(B4)当发信量超过5封,发信失败次数为0,收件人且总数超过3个,邮件含有可信关键词时,设置为第三信誉值;(B5)当发信量超过5封,发信失败次数为0,如果当天发信超...

【专利技术属性】
技术研发人员:何庆魏丽丽许敬伟周乐坤梁宇文张坚刘再元
申请(专利权)人:彩讯科技股份有限公司中国移动通信集团广东有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1