一种中文网页主题内容的提取方法技术

技术编号:6135026 阅读:243 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于计算机应用和信息抽取领域,提供一种中文网页的主题内容提取方法,该方法是将网页数据转换成DOM对象后,在对其进行融合,分类,过滤操作,最后返回提取的网页内容。本发明专利技术操作方便,适用范围广,既不依附于特定的软、硬件,也不依赖于特定的网页模版;大量实验结果表明,本方法针对不同风格的中文新闻网页,能有效的排除页面中的“噪声”信息,提取主题内容,具有较高的实用性。

【技术实现步骤摘要】

本专利技术属于计算机应用和信息抽取领域,特别涉及一种中文网页的主题内容提取方法。
技术介绍
随着hternet技术及其环境的不断成熟与发展,互联网已经成为人们获取信息资源不可或缺的方式。互联网海量信息的爆炸式产生,“数据丰富,知识缺乏”这一问题越来越突出当我们通过WEB浏览网页时,会发现并不是所有呈现在屏幕的信息都与主题相关,它通常包含着大量的广告、导航、版权信息以及各种交互式操作接口(如调查问卷等)。 这些与主题无关的信息不仅造成了用户信息浏览的负担,还给基于网页主题内容的应用系统带来了实施和开发上的困难。因此,能够快速准确的提取网页的主题内容是一项基于TOB内容应用服务的关键技术。它不但能提高各种基于内容服务的应用系统的准确性,还能大大的提升其工作效率, 同时还更直接的减轻用户信息浏览的负担。信息抽取领域的专家一直尝试着借助计算机来解决这些与主题无关的信息带来的麻烦。网页内容的抽取通常会基于模版或分块两种方法。基于模版的方法,一般来讲至少需要自顶向下的比较两棵来自相同模版的DOM (Document Object Model)树,找到它们之间相同的子树并去除,把剩余的部分作为主题内容。实验证明该方法是可行有效的,但该方法的局限在于机器学习了一套网页模版并不一定能重用到其他网页集合上。除此之外, 我们还应该注意到机器学习的计算代价也是相当可观的。由于人们访问网络的随机性,使得这样的方法并不能实时有效的提取网页的主题内容。基于分块的方法分支较多,比较有代表性的主要有基于纯DOM树的网页分块、基于视觉信息的网页分块(Vision-based Page Segmentation: VIPS)以及基于特定标签的网页分块。由于DOM的最早引入是为了在浏览器中进行布局显示而不是进行WEB页面的语义描述,在未引入补充信息之前,基于纯DOM的分块方法单凭其提供的标签层次关系是不能完全胜任内容提取工作的。基于视觉信息的网页分块利用WEB页面的视觉提示如background color>font color>font size、bold等信息,结合DOM提供的层次结构进行页面的分块,并把它应用在了 TREC2003的测评中,取得了较好的效果。但由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,VIPS算法还需要保存大量的视觉信息,其处理性能随着页面的复杂程度急剧下降。由于早期互联网流行既定的几种布局,也有人根据〈table〉标签把网页分成若干个内容块。这样分块流程非常简单,但面对日益复杂的页面,处理效果往往不能令人满意。综上所述,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提取;要么算法复杂度过高(基于模版的机器学习或者复杂的视觉计算),都直接导致无法实时的处理人们随机的页面访问。
技术实现思路
本专利技术就是针对上述
技术介绍
中的不足之处,而提出的一种中文网页的主题内容提取方法。该方法不依赖于单个网页文档之外的信息,仅依据各个原子(不可再分)结点的内部特征信息,结合中文网页的语言描述特点,有效提取主题内容。本专利技术的目的是通过如下技术措施来实现的。,该方法使用的硬件部分包括DOM生成部件、 DOM处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,该方法包括以下步骤(1)DOM生成部件使用网页数据流的副本,生成DOM对象;(2)DOM处理部件结合页面类型信息,将步骤(1)中获得的DOM对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度S (b)和链接密度θ (b);(3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息, 计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点(下文称作,融合操作);(4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;(5)结点过滤器对步骤(4)中留下的“噪声结点”以及一些拥有特殊标签的“内容结点” 进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。在上述技术方案中,该方法可以根据客户的需求,利用媒体检测压缩部件返回网页包含的图片、视频等媒体信息,使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。在上述技术方案中,步骤(2)中所述的DOM处理部件包括页面类型猜测模块、文档预处理模块、结点计算模块,其具体工作步骤如下(3-1)将获取的网页数据流保存一份副本,以备容错处理; (3-2)从DOM对象的〈title〉结点和<H1>结点提取标题信息; (3-3)调用文档预处理模块,过滤掉当前DOM对象所包含的注释信息,还有脚本、样式、 以及Flash等交互结点;(3-4)调用页面类型猜测模块,猜测目标页面的类型,若为内容型页面,则顺序执行以下步骤;若为目录型页面,则直接执行(3-7)的步骤;(3-5)调用结点计算模块,遍历DOM对象中剩下的结点,忽略〈applet〉、〈button〉等交互结点,以及<b>、<u>等修饰结点;计算其它剩下的每个结点的文字密度δ (b)和链接密度θ (b),并保存以上的计算结果,以及结点的文字信息、DOM操作接口等;其计算公式如下权利要求1.,该方法使用的硬件部分包括DOM生成部件、 DOM处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,其特征在于该方法包括以下步骤(1)DOM生成部件使用网页数据流的副本,生成DOM对象;(2)DOM处理部件结合页面类型信息,将步骤(1)中获得的DOM对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度S (b)和链接密度θ (b);(3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息, 计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点;(4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;(5)结点过滤器对步骤(4)中留下的“噪声结点”以及拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。2.根据权利要求1所述的,其特征在于该方法利用媒体检测压缩部件返回网页包含的图片、视频媒体信息,使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。3.根据权利要求1所述的,其特征在于步骤(2)中所述的DOM处理部件包括页面类型猜测模块、文档预处理模块、结点计算模块,其具体工作步骤如下(3-1)将获取的网页数据流保存一份副本,以备容错处理;(3-2)从DOM对象的〈title〉结点和<H1&g本文档来自技高网
...

【技术保护点】
1.一种中文网页主题内容的提取方法,该方法使用的硬件部分包括DOM 生成部件、DOM 处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,其特征在于该方法包括以下步骤:(1)DOM 生成部件使用网页数据流的副本,生成DOM 对象;(2)DOM 处理部件结合页面类型信息,将步骤(1)中获得的DOM 对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度δ(b)和链接密度θ (b);(3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息,计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点;(4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;(5)结点过滤器对步骤(4)中留下的“噪声结点”以及拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘清堂邵明博向丹丹吴林静
申请(专利权)人:华中师范大学
类型:发明
国别省市:83

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1