【技术实现步骤摘要】
本专利技术涉及垂直搜索引擎
以及网络信息过滤
,尤其涉及一种自适应语义驱动的网页主题信息过滤系统,用于在网页集群中过滤掉与主题不相关的网页, 为垂直搜索引擎提供搜索源集合或者过滤掉不良信息,使网络不受恶意信息的侵扰。
技术介绍
随着Internet的日益普及和迅猛发展,人们对网络的依赖程度越来越高,但 Internet的开放性、平等性、无界性等特征又导致了网络的无限制滥用,大量的垃圾及敏感 信息充斥于网络,如何滤除这些垃圾及敏感信息,消除网络带来的消极及负面影响已成为 Intenet信息服务须解决的关键问题之一,而解决这一问题的最有效技术手段就是进行信 息过滤。 信息过滤是根据用户的信息需求,运用一定的技术方法从大量的动态网络信息流 中选取相关信息或剔除不相关信息的过程。通过网络信息过滤,可以减少不必要的信息传 递,节约宝贵的信道资源;还可以对网络信息的流量、流向和流速进行合理的配置,使网络 更加顺畅。对于用户来说,信息过滤由于剔除了大量的不相关信息的流入,可以避免塞车现 象。目前,信息过滤的作用主要体现在阻挡敏感信息进入、保护内部信息安全、改善搜索 ...
【技术保护点】
一种自适应语义驱动的主题网页过滤系统,其特征在于,该系统包括:一爬虫模块,用于得到原始网页集合,抽取网页分类语义树,并得到Web链接的一些知识;一分类模块,用于根据内容对网页进行分类,并将网页挂靠到语义树上;一聚类模块,用于根据内容对网页进行聚类,并将聚类得到的结果形成语义树;一网页分析处理模块,用于对网页进行模块划分、信息抽取、分词并提取特征;一语义驱动的主题网页STP值计算模块,用于通过语义树和链接知识计算STP值;一网页过滤模块,用于根据设定的阈值过滤掉与主题不相关的网页。
【技术特征摘要】
一种自适应语义驱动的主题网页过滤系统,其特征在于,该系统包括一爬虫模块,用于得到原始网页集合,抽取网页分类语义树,并得到Web链接的一些知识;一分类模块,用于根据内容对网页进行分类,并将网页挂靠到语义树上;一聚类模块,用于根据内容对网页进行聚类,并将聚类得到的结果形成语义树;一网页分析处理模块,用于对网页进行模块划分、信息抽取、分词并提取特征;一语义驱动的主题网页STP值计算模块,用于通过语义树和链接知识计算STP值;一网页过滤模块,用于根据设定的阈值过滤掉与主题不相关的网页。2. 根据权利要求1所述的自适应语义驱动的主题网页过滤系统,其特征在于,该爬虫 模块包含一智能判断模块,用于判断网页是否具有分类信息; 一语义树抽取模块,用于对拥有分类信息的网页集进行语义树抽取; 一链接知识抽取模块,用于抽取得到链接矩阵及URL归属信息。3. 根据权利要求2所述的自适应语义驱动的主题网页过滤系统,其特征在于,该智能 判断模块根据网页源的入口种子网页以及其最近几层子孙网页,同时利用URL归属关系判 断网页是否具有类别信息。4. 根据权利要求2所述的自适应语义驱动的主题网页过滤系统,其特征在于,该语义 树抽取模块用于根据网页本身的分类信息来提取网页集合的分类语义树。5. 根据权利要求2所述的自适应语义驱动的主题网页过滤系统,其特征在于,该链接 知识抽取模块用于根据网页之间链接接关系,抽取网页之间的链接矩阵以及URL归属关 系。6. 根据权利要求l所述的自适应语义驱动的主题网页过滤系统,其特征在于,该分类 ...
【专利技术属性】
技术研发人员:张文生,杨彦武,刘琰琼,李益群,肖宪,梁玉旋,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。