一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统技术方案

技术编号:3937164 阅读:395 留言:0更新日期:2012-04-11 18:40
一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统,涉及到一种信息过滤方法及该方法中的阈值设定方法。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。所述优化lam%的信息分类阈值的设定方法是设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。所述信息过滤系统包括特征权重库、训练器、信息过滤器,其中,信息过滤器用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息。本发明专利技术可应用于网络信息过滤和手机垃圾短信过滤等电子信息的过滤。

【技术实现步骤摘要】

本专利技术涉及到一种信息过滤方法及该方法中的阈值设定方法,具体涉及到垃圾邮 件、短信过滤等信息过滤方法,即该方法中的分类阈值设定方法。
技术介绍
随着信息技术的迅猛发展,电子邮件、手机短信已经成为人们日常工作和生活中 进行通讯和交流的主要手段,有效地促进了人类社会的生产和进步。但是,伴随而来的大 量垃圾邮件和垃圾短信严重影响了它们的的正常使用。2008年三季度中国网民平均每周 收到垃圾邮件的数量为17. 86封,与去年同期相比增加1. 17封,增幅为7. 0% ;收到垃圾邮 件所占的比例为57. 89%,与去年同比上升了 2. 04个百分点,全球的平均水平更是高于上 述数据(“2008年第三季度中国反垃圾邮件调查报告”http://WWW. 12321. cn/viewnews. php id=10752)。而垃圾短信的数量更是惊人,央视2008年“315晚会”曝光垃圾短信制造 内幕,垃圾短信每天发送数亿条。这些垃圾信息危害社会,浪费了用户的时间、精力和金钱, 损害了用户的利益。少数别有用心者利用垃圾邮件、垃圾短信散播各种虚假信息或有害信 息,严重危害了社会的稳定。如何有效地进行这些垃圾信息进行有效过滤是当前迫切需要 解决的问题。垃圾邮件过滤和垃圾短信过滤都是典型的信息过滤系统,基于内容的过滤系统采 用了相同或相似的技术手段。为了解决信息过滤问题,人们提出了许多解决方案,其中过滤技术具有自动化程 度高、准确度高、易被使用者接受的优点,具备研究价值和发展空间,逐渐成为研究的热点。 为了检验各种过滤技术在实际垃圾邮件过滤中的有效性,国内外举办了高水平的会议和 评测。著名的国际文本信息检索评测TREC (Text Retrieval Conference)会议于2005 年开始举办垃圾邮件过滤评测子任务,并在2006年进行了中文垃圾邮件过滤评测。CEAS (Conference on Email and Anti-Spam)于2007年开始进行专门针对垃圾邮件过滤问题 的评测。国内的全国搜索引擎和网上信息挖掘学术研讨会(SEWM,Search Engine and Web Mining)于2007年首次增加了垃圾邮件过滤评测项目。这些会议和评测极大地推动了过滤 技术的发展,完善了过滤技术的评价体系,积累了丰富的实验数据。当前,典型的垃圾邮件过滤技术包括黑白名单技术、基于规则和模式匹配的过 滤技术和基于机器学习方法的过滤技术。黑白名单技术是一种简单、有效、最为常用的过 滤方法,其通过IP地址进行过滤,还可以通过收件人的地址列表进行过滤。其优点是处理 速度快,可以在网关上进行配置,能够节省大量的网络带宽、存储容量和处理时间;缺点是 约束过强、不够灵活,对垃圾邮件的判别准确度不高。基于规则和模式匹配的过滤技术也是 一种常用的过滤方法,其设置一系列的过滤规则,并通过查找已有的垃圾邮件的匹配模式 进行过滤。规则可以通过人的经验和机器学习相结合的方式获得,其优点是规则处理的目 的性很强,规则本身比较容易理解和修改,并具备一定的模糊匹配的性能;缺点是规则数量4,规则之间存在冲突带来了规则冲突解决和规则维护的问 题。基于机器学习方法的过滤技术对电子邮件的内容(如标题、发件人、发送时间、正文文本 等)进行分析,在机器学习的模型建模和参数优化理论的基础上,通过对样本的学习来训练 过滤器,并利用经过训练的过滤器识别出垃圾邮件。由于其正确率高、成本低,机器学习技 术逐渐成为解决垃圾邮件过滤问题的主流方法。垃圾邮件过滤的目的是将邮件区分为两种形式垃圾邮件(Spam)或正常邮件 (Ham),所以将其转化成二值分类问题是一种很自然的基于观察的问题分析和建模方法。在 此基础上,研究采用的分类算法从模型原理上可以分为两种以朴素贝叶斯模型为代表的 生成模型,以支持向量机模型(Support Vector Machine, SVM)和最大熵模型(Maximum Entropy, ME)为代表的判别学习模型。基于生成模型的过滤系统中,著名Bogo系统依据 朴素贝叶斯模型构建,其在TREC评测中作为基准(Baseline)系统。近年来,CTW (Context tree weight)和PPM (Prediction by Partial Match)等数据压缩算法也被用来解决垃圾 邮件过滤问题。CTW和PPM是数据压缩中使用的动态压缩算法,其原理是根据已经出现的 数据流预测后面要出现的数据流,预测的越准,所需的编码也就越少,并据此进行分类。早 在1999年,Provost就在研究中表明,贝叶斯模型性能优于基于规则的方法。基于判别学 习模型的过滤系统中,Drucker和Vapnik在1999年利用线性支持向量机模型,选用了词特 征、二值特征、TF-IDF等多种特征进行垃圾邮件过滤,取得了很好的实验结果。Goodman和 Yin提出使用在线逻辑回归模型,避免了 SVM、最大熵模型的大量计算,并取得了与上一年 度(2005年)TREC评测最好结果可比的结果。Sculley和Wachman采用不严格的在线支持 向量机模型(Relaxed Online SVM)解决垃圾邮件过滤问题,从而克服了支持向量机计算量 大的问题,并在TREC 2007评测中取得了很好效果。传统生成模型认为数据都是基于某种 分布生成的,并据此建模。采用最大似然估计(Maximum Likelihood Estimation, MLE)来 求解模型参数,并用平滑算法来解决数据稀疏问题。这种方法仅当以下两个条件都满足时 才是最优的第一,数据的概率分布形式是已知的;第二,存在足够大的训练数据时才能采 用最大似然估计来求解模型参数。但在实际应用中,这两个条件很多时候无法满足。判别 学习模型与生成模型有本质差异,其假设条件比MLE弱得多,只要求训练数据和测试数据 来自同一个分布即可。而且,判别学习算法的目标往往与实际应用的评价标准密切相关(如 使模型在训练数据上的错误率最小化)。在垃圾邮件过滤问题的相近领域文本分类中,判别 学习模型的分类效果要好于生成模型,尤其在小样本集的训练数据下,这种现象更为明显。 在2004年,Hulten和Goodman在PU-I垃圾邮件集上,基于不同类的过滤模型进行实验,也 取得了同样的实验结果即在邮件过滤模型中,判别学习模型的分类效果要好于生成模型。 在近年的国际TREC和CEAS的评测,以及国内的SEWM评测中,判别学习模型都获得了成功。此外,过滤器(分类器)根据学习方式的不同可以分为在线学习和离线学习(批量 学习)两种。离线学习方式下,通过训练样本调整分类器的参数,实际应用时不再调整分类 器的参数;在线学习方式下,分类器根据用户的反馈不断调整系统参数,使系统能够适应不 断变化的应用环境。在线学习适用于需要快速更新的环境,受制于在线更新学习器,参数更 新算法的复杂度要低,以适应实际应用的需求。由于垃圾邮件的发送者针对过滤系统不断 地更新内容欺骗和内容隐藏的方式,这就要求垃圾邮件过滤器具有良好的适应能力。此前 的研究已经表明,在垃圾邮件过滤领域,在线过滤方式性能优于离线批处理方式。这是由于5在线垃圾邮件过滤系统能够根据用户的反馈在线调整系统参数,使本文档来自技高网...

【技术保护点】
一种邮件分类阈值的设定方法,其特征在于,所述设定方法为:设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。

【技术特征摘要】

【专利技术属性】
技术研发人员:韩咏齐浩亮杨沐昀何晓宁李生王丁孙育华雷国华
申请(专利权)人:黑龙江工程学院哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1