基于最大相似性匹配的网页去噪系统及其去噪方法技术方案

技术编号:5529167 阅读:350 留言:0更新日期:2012-04-11 18:40
一种互联网技术领域的基于最大相似性匹配的网页去噪系统及其去噪方法,该系统包括:网页获取模块、预处理模块、网页DOM生成特征树模块、特征树最大相似性匹配模块和聚集评价模块,网页获取模块与预处理模块相连并传输网页代码数据,预处理模块与网页获取模块相连并传输预处理后的目标网页,预处理模块与网页DOM生成特征树模块相连并传输预处理后的网页数据,网页DOM生成特征树模块与特征树最大相似性匹配模块相连并传输特征树数据,特征树最大相似性匹配模块与聚集评价模块相连并传输网页内容块候选集,最后聚集评价模块输出网页内容块。本发明专利技术能够很好适用于大多数内容型网站。

【技术实现步骤摘要】

本专利技术涉及的是一种互联网
的系统及方法,具体是一种基于 LCS(Longest CommonSubsequence,最长共同子序列)特征树的最大相似性匹配的网页去噪 系统及其去噪方法。
技术介绍
随着互联网技术的不断发展,互联网的信息呈现出爆炸式的增长。如何从海量的 网页信息中找到核心主题信息,成为当今Web研究领域的一种趋势。一个网页一般包含一 些内容块,但除了这些内容块,往往包含导航栏、版权信息、公告消息以及各种各样形式的 广告,它们的存在是为了商业目的或者便于用户使用,这些与主题无关的信息可以称之为 网页噪声块。如何降低网页中的噪音,对于网页分类、特征提取、内容聚合具有重要意义,已 成为在三网融合的大背景中,基于多媒体内容融合的研究热点。经过对现有技术文献的检索发现,Yuancheng Li和Jie Yang于2009年在 ((InternationalJoint Conference on Artificial Intelligence (国际人工智能联合会 议)》上发表的"A Novel Methodto Extract Informative Blocks from Web Pages (—种 新型的从网页抽取信息块的方法)”中提出将DOM树的节点分为HTMLItem和Content两种 节点,将Content按种类(图片、文字、链接)和数量计算权值,加在其所属HTMLItem节点 上作为其重要性的度量,同时HTMLItem自己也有权值,且随着其深度递减。最后按权值的 大小去除噪声块。该方法是基于规则的,只适用于某些类型网页,有其局限性。又经检索发现,Ruihua Song, Haifeng Liu等人在2004年发表在《ACM SlGKDDExplorations Newsletter (美国计算机学会下属知识发现与数据挖掘会议)的 "Learningimportant models for web page blocks based on layout and content analysis(基于布局和内容分析的网页块重要性学习模型)”提出利用网页布局来建立视 觉结构,同时利用这个视觉结构将网页分块,在对网页分块之后,利用人工标注并通过神经 网络和支持向量机来对网页块特性到块重要性的映射函数进行学习,最后得到通用的映射 方法。该方法是基于机器学习的,机器学习太复杂,效率不高。
技术实现思路
本专利技术针对现有技术存在的上述不足,提供一种基于最大相似性匹配的网页去噪 系统及其去噪方法,适用于各种内容型网站的网页去噪。本专利技术是通过以下技术方案实现的本专利技术涉及一种基于最大相似性匹配的网页去噪系统,包括网页获取模块、预处 理模块、网页DOM生成特征树模块、特征树最大相似性匹配模块和聚集评价模块,其中网 页获取模块与预处理模块相连并传输网页代码数据,预处理模块与网页获取模块相连并传 输预处理后的目标网页,预处理模块与网页DOM生成特征树模块相连并传输预处理后的网 页数据,网页DOM生成特征树模块与特征树最大相似性匹配模块相连并传输特征树数据,特征树最大相似性匹配模块与聚集评价模块相连并传输网页内容块候选集,最后聚集评价 模块输出网页内容块。所述的网页获取模块下载目标网页,并利用从预处理模块得到的预处理后的目标 网页,在其中寻找与目标网页URL相似的网页URL,并下载相似网页,该模块包括网页下载 单元、链接匹配单元,其中网页下载模块通过HTTP请求指定URL的网页;链接匹配单元分 析预处理后的目标网页代码并匹配出与目标网页URL相似的相似网页地址。所述的预处理模块对获取到的网页代码进行预处理;该模块包括去除无关代码 单元、修正单元,其中去除无关代码单元分析网页代码,将其中内容无关代码,例如注释、 脚本、CSS等去除;修正单元修正网页代码中的错误。所述的网页DOM生成特征树模块分析网页DOM树,并通过计算和重组得到特征树; 该模块包括属性计算单元、特征树构建单元,其中属性计算单元将DOM树节点属性进行 转换提取得到特征树节点的属性;特征树构建单元利用属性计算单元的结果来构建特征 树。所述的特征树最大相似性匹配模块对目标网页特征树和相似网页特征树进行基 于LCS特征树最大相似性匹配,得到网页内容块候选集;该模块包含特征节点序列生成单 元、相似性匹配单元,其中特征节点序列生成单元采用逐层遍历将特征树转化为特征节点 队列;相似性匹配单元并对目标网页的特征节点队列和相似网页的特征节点队列进行LCS 匹配,找出两个序列不同之处得到网页内容块候选集。所述的聚集评价模块将网页内容块候选集进行聚集并对每个聚集的集合进行特 征分析并评分并找出最重要的内容块;该模块包含聚集单元、评价单元,其中聚集单元消 除内容块候选集中的祖先和子孙关系,并将在特征树位置上比较接近的节点汇聚在一个集 合里;评价单元用于对网页信息块聚集簇中的每个集合进行特征分析并评分,找出最重要 的内容块。本专利技术涉及上述系统的去噪方法,包括以下步骤第一步、通过网页获取模块的网页下载单元下载目标网页,通过预处理模块对获 取到的目标网页的代码进行预处理。预处理模块首先利用去除无关代码单元去除注释、脚 本、CSS等内容无关代码;然后通过修正单元修正网页代码中存在的错误和相对链接;第二步、通过网页获取模块的链接匹配单元对第一步中得到的预处理后的目标网 页寻找与目标网页URL相似的网页URL,并通过网页下载单元下载相似网页;对得到的相似 网页利用预处理模块进行预处理;第三步、通过网页DOM生成特征树模块对第一步得到的预处理后的目标网页和第 二步中得到的预处理后的相似网页分析其DOM树,并通过计算和重组得到特征树。首先通 过遍历DOM树节点并利用属性计算单元将DOM树节点属性转换为特征树节点的属性;然 后通过得到的属性利用特征树构建单元依次构建并得到目标网页特征树和相似网页特征 树;第四步、通过特征树最大相似性匹配模块对第三步中的得到的目标网页特征树和 相似网页特征树进行基于LCS特征树最大相似性匹配,得到网页内容块候选集。首先利用 特征节点序列生成单元将特征树转换为特征节点序列;然后利用相似性匹配单元对目标网 页的特征节点队列和相似网页的特征节点队列进行最长子序列匹配,找出两个序列不同之处得到网页内容块候选集;第五步、通过聚集评价模块对第四步得到的网页内容块候选集进行聚集并对每个 聚集的集合进行特征分析并评分并找出最重要的内容块。首先通过聚集单元消除内容块候 选集中的祖先和子孙关系,并将在特征树位置上比较接近的节点汇聚在一个集合里;然后 利用评价单元用于对网页信息块聚集簇中的每个集合进行特征分析并评分,找出最重要的 内容块,即滤除了噪声内容。本专利技术的有益效果在于,以基于LCS特征树结构最大相似性匹配算法为核心,对 目标网页及其相似网页生成的特征树进行相似性匹配,然后根据匹配结果的不同之处生成 信息块候选集,并对候选集根据信息块的相似程度和树结构进行聚集,对聚集结果的特征 进行分析评分得到最后的信息块,以达到网页去噪的目的。这样,在考虑内容的情况下,即 不需要太复杂的机器学习,又具有广泛的适应性,能够很好适用于大多数内容型网站。本发 明的其他优点将通本文档来自技高网
...

【技术保护点】
一种基于最大相似性匹配的网页去噪系统,其特征在于,包括:网页获取模块、预处理模块、网页DOM生成特征树模块、特征树最大相似性匹配模块和聚集评价模块,其中:网页获取模块与预处理模块相连并传输网页代码数据,预处理模块与网页获取模块相连并传输预处理后的目标网页,预处理模块与网页DOM生成特征树模块相连并传输预处理后的网页数据,网页DOM生成特征树模块与特征树最大相似性匹配模块相连并传输特征树数据,特征树最大相似性匹配模块与聚集评价模块相连并传输网页内容块候选集,最后聚集评价模块输出网页内容块。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋鳌周军马玲安然罗传飞
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1