自适应语义驱动的主题网页过滤系统技术方案

技术编号：4349630 阅读：248 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种自适应语义驱动的主题网页过滤系统，该系统能针对不同的网页集自适应的选用不同的处理方法得到一棵分类语义树，包括爬虫、文本分类以及文本层次聚类；然后采用一种新的网页评估算法——语义驱动的主题网页算法来计算网页的ＳＴＰ值，即对主题相关度及其本身网页重要性两方面的综合评估。对于不同应用，经过多次测试选择一个过滤效果最好的阈值，对ＳＴＰ值低于该阈值的网页进行舍弃。本方法提出了对不同网页集分别对待的思想，对系统资源利用率和网页主题相关度准确率有很大改进，并提出一种语义驱动的ＳＴＰ算法，改善了原来ＰａｇｅＲａｎｋ的不足，能够很好的过滤不相关网页。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及垂直搜索引擎
以及网络信息过滤
，尤其涉及一种自适应语义驱动的网页主题信息过滤系统，用于在网页集群中过滤掉与主题不相关的网页，为垂直搜索引擎提供搜索源集合或者过滤掉不良信息，使网络不受恶意信息的侵扰。
技术介绍
随着Internet的日益普及和迅猛发展，人们对网络的依赖程度越来越高，但 Internet的开放性、平等性、无界性等特征又导致了网络的无限制滥用，大量的垃圾及敏感信息充斥于网络，如何滤除这些垃圾及敏感信息，消除网络带来的消极及负面影响已成为 Intenet信息服务须解决的关键问题之一，而解决这一问题的最有效技术手段就是进行信息过滤。信息过滤是根据用户的信息需求，运用一定的技术方法从大量的动态网络信息流中选取相关信息或剔除不相关信息的过程。通过网络信息过滤，可以减少不必要的信息传递，节约宝贵的信道资源；还可以对网络信息的流量、流向和流速进行合理的配置，使网络更加顺畅。对于用户来说，信息过滤由于剔除了大量的不相关信息的流入，可以避免塞车现象。目前，信息过滤的作用主要体现在阻挡敏感信息进入、保护内部信息安全、改善搜索...

【技术保护点】
一种自适应语义驱动的主题网页过滤系统，其特征在于，该系统包括：一爬虫模块，用于得到原始网页集合，抽取网页分类语义树，并得到Ｗｅｂ链接的一些知识；一分类模块，用于根据内容对网页进行分类，并将网页挂靠到语义树上；一聚类模块，用于根据内容对网页进行聚类，并将聚类得到的结果形成语义树；一网页分析处理模块，用于对网页进行模块划分、信息抽取、分词并提取特征；一语义驱动的主题网页ＳＴＰ值计算模块，用于通过语义树和链接知识计算ＳＴＰ值；一网页过滤模块，用于根据设定的阈值过滤掉与主题不相关的网页。

【技术特征摘要】
一种自适应语义驱动的主题网页过滤系统，其特征在于，该系统包括一爬虫模块，用于得到原始网页集合，抽取网页分类语义树，并得到Web链接的一些知识；一分类模块，用于根据内容对网页进行分类，并将网页挂靠到语义树上；一聚类模块，用于根据内容对网页进行聚类，并将聚类得到的结果形成语义树；一网页分析处理模块，用于对网页进行模块划分、信息抽取、分词并提取特征；一语义驱动的主题网页STP值计算模块，用于通过语义树和链接知识计算STP值；一网页过滤模块，用于根据设定的阈值过滤掉与主题不相关的网页。2. 根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该爬虫模块包含一智能判断模块，用于判断网页是否具有分类信息；一语义树抽取模块，用于对拥有分类信息的网页集进行语义树抽取；一链接知识抽取模块，用于抽取得到链接矩阵及URL归属信息。3. 根据权利要求2所述的自适应语义驱动的主题网页过滤系统，其特征在于，该智能判断模块根据网页源的入口种子网页以及其最近几层子孙网页，同时利用URL归属关系判断网页是否具有类别信息。4. 根据权利要求2所述的自适应语义驱动的主题网页过滤系统，其特征在于，该语义树抽取模块用于根据网页本身的分类信息来提取网页集合的分类语义树。5. 根据权利要求2所述的自适应语义驱动的主题网页过滤系统，其特征在于，该链接知识抽取模块用于根据网页之间链接接关系，抽取网页之间的链接矩阵以及URL归属关系。6. 根据权利要求l所述的自适应语义驱动的主题网页过滤系统，其特征在于，该分类 ...

【专利技术属性】
技术研发人员：张文生，杨彦武，刘琰琼，李益群，肖宪，梁玉旋，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人