当前位置: 首页 > 专利查询>翁时锋专利>正文

自动获取网页结构化信息的分析方法技术

技术编号:7917739 阅读:223 留言:0更新日期:2012-10-25 02:48
本发明专利技术提出一种自动获取网页结构化信息的分析方法,包括以下步骤:(1)将原始列表页面中每一个可显示元素均渲染为矩形,并为每个矩形均赋予坐标参数;(2)根据矩形参数检测T-Point,并将有效T-Point覆盖的范围作为列表区域,所述T-Point为相邻矩形上方公共的顶点;(3)从所述列表区域中检测出所有数据记录,所述数据记录是指网页列表页面中记录数据的单位;(4)将不同数据记录中具有相同类型或相同语义的数据项对应起来,形成数据项列;(5)对数据项列的语义进行确认。本发明专利技术可以大大提高网页结构化信息自动分析的精确度、稳定性和时效性。

【技术实现步骤摘要】

本专利技术涉及一种互联网网页分析方法,特别涉及一种。
技术介绍
随着互联网技术的不断发展,Web2. 0概念正在兴起,信息的传递方向变得更加多元。在传统的从少数点(大型新闻媒体,信息提供者)向全网(普通用户,信息消费者)辐射的自顶向下的信息传递模式之后,由普通用户产生而在网络上不断传播的自底向上的信息流动模式正变得越来越普遍。海量的内容由普通用户通过社交网络、博客、微博、论坛等新兴Web2. 0媒介产生出来,并最终被其它用户消费。 这些用户产生的海量内容蕴含了大量有价值的信息和知识,潜在的应用包括舆情分析、垂直搜索、知识问答等。为了能够分析和利用它们,我们首要的任务就是要准确地获取它们。而拥有众多用户的传统媒介论坛就成了其中主要的一部分。图I绘示了一个典型的论坛列表页。虚线的方框分别标明了文章标题、作者、发帖时间和最后回复时间。文章标题、作者、发帖时间、最后回复时间这些是文章最重要的结构化信息。实线的方框指示了数据记录,每一条数据记录对应一篇论坛文章。所有实线框联合起来的范围,称为列表区域。因此,一个列表区域包含了多条数据记录。通常情况下,论坛中的数据存储于后台数据库中,当用户访问某一页面时,网站自动将所需内容填充到特定模板当中,展示给用户。网络数据自动采集器(也叫爬虫、蜘蛛或者Spider)不能直接访问后台数据库,只能通过网页访问论坛,然后对网页数据进行采集。但由于网站的多样性,不同的网站会根据需求采用不同的论坛系统,即便是同一个论坛系统,也存在不同的版本以及个性化更改,这就造成了模板的多样性,相互不一致。这就为数据的自动结构化采集带来了很大的困难。对于上述网页结构化信息自动分析问题,已有的技术方案可以分为以下三类I.采集整个网页,保存下来,而对网页中的结构化的字段不作一一分析。在一般的通用搜索引擎中,例如Baidu和Google中,基本上采用这种回避式的策略。这种采集方式获得的结果,无法展现出网页各个细节的结构化字段,大多只能展现整个网页。2、直接考察网页的DOM结构的方法。DOM (Document Object Model,文档对象模型),可以用来表示HTML、XML等文档,使得这些文档便于被处理。在DOM模型中,HTML或XML文档被表达为树状结构,每一个节点对应于文档中的一对标签,分别表示节点的开始和结束。为了在大规模应用中能够自动分析网页的结构化内容,人们提出了一些基于对网页DOM结构的直接考察的列表区域检测方法。考虑包括标签类型以及树相似度等因素。这些方法带有很强的经验性,而网页本身又具有很大的灵活性。同时这些方法往往着眼于甚至只考虑了 html语言的结构特点,而忽视了网页本身的可视化特性(差别极大的代码可能生成在表现视觉上完全一样的网页),所以会给检测带来较大的不稳定性。3、人工标注。当需要精确获取网页数据的很多应用中,前两个方法就不再能满足需求。在这种情况下,人工标注往往成了最可行、甚至是唯一的方法。但通过人工标注,不仅耗费大量人力,而且时效性差,在网站格式发生变动时,响应时间往往会比较长。综上所述,现有的网页结构化信息自动分析方法存在精确度低、稳定性低、时效性差的问题。
技术实现思路
本专利技术的目的是提供一种,以解决现有的网页结构化信息自动分析方法存在精确度低、稳定性低、时效性差的问题。本专利技术提出一种,包括以下步骤(I)将原始列表页面中每一个可显示元素均渲染为矩形,并为每个矩形均赋予坐标参数; (2)根据矩形参数检测T-Point,并将有效T-Point覆盖的范围作为列表区域,所述T-Point为相邻矩形上方公共的顶点;(3)从所述列表区域中检测出所有数据记录,所述数据记录是指网页列表页面中记录数据的单位;(4)将不同数据记录中具有相同类型或相同语义的数据项对应起来,形成数据项列;(5)对数据项列的语义进行确认。进一步的,步骤(I)中,采用开源引擎WebKi t对原始列表页面进行渲染。进一步的,步骤(I)之后还包括步骤(11)将原始列表页面的HTML文本中显示效果的功能性节点去除,形成只含有真正内容的DOM树;(12)将DOM树中结构用途的非显示节点的几何参数设置成包围所有子节点的最小矩形;( 13)将所有的文本都封装入〈text〉元素节点。进一步的,步骤(2)中,所述T-Point包括相邻矩形上方完全重合的顶点,以及相邻矩形上方没有完全重合,且横向距离不超过5的两个顶点。进一步的,步骤(2)中,将有效T-Point覆盖的范围作为列表区域之前包括从检测到的T-Point中,找出并过滤掉无效的T-Point。进一步的,找出并过滤掉无效的T-Point包括以下步骤(21)为每一个检测到的T-Point赋予一个权重值,所述T-Point的权重值等于与其相邻的T-Point的数量,所述相邻的T-Point指横坐标或纵坐标相同;(22)计算所有T-Point的平均权重值;(23)将权重偏离平均权重值的T-Point作为无效T-Point过滤掉。进一步的,步骤(3)中,从所述列表区域中检测出所有数据记录包括(31)形成所述列表区域的DOM子树;(32)排除所述列表区域DOM子树中,有效T-Point横向形成的行的数目多于2的节点;(33)排除所述列表区域DOM子树中,有效T-Point只出现在矩形两个竖边界上的节点;(34)排除所述列表区域DOM子树中,有效T-Point只有一个的节点;(35)将所述列表区域DOM子树中剩余的每个节点作为数据记录。进一步的,步骤(4)中,利用聚类方式将不同数据记录中具有相同类型或相同语义的数据项对应起来,并形成数据项列。进一步的,所述聚类方式所采用的距离函数为dist(m, n-i) = \JaT(domjdif /(no, i)) 4 bT{visualjiif /(n ,Ri))其中,dom_diff (n0, Ii1)表示节点nQ和Ii1的DOM树结构差异的特征向量,visual_diff (n0, Ii1)表示nQ和Ii1之间显示差异的特征向量,a, b为混合权重向量。 进一步的,步骤(5)中,对数据项列的语义进行确认包括(51)利用监督学习方法获得语义分析器;(52)利用语义分析器对数据项列的语义进行确认。相对于现有技术,本专利技术的有益效果是I、本专利技术突破性地提出并应用了网页可视化特征点(T-Point),并利用网页可视化特征点(T-Point)准确地提取检测列表区域,从而大大提高了网页结构化信息自动分析的精确度、稳定性和时效性。2、本专利技术将聚类方法应用于数据项的对齐,可以使得准确率大大提高,同时运行时间大大缩短。3、本专利技术提出计算节点距离的算法框架,这使得我们的方法在实际应用时拥有很高的灵活性,可以适用于不同场合。4、本专利技术使用分类器方法识别数据记录的列表项语义,使数据项的语义分类更加准确。附图说明图I为典型的一个论坛列表页示意图;图2为本专利技术的一种实施例流程图;图3为本专利技术预处理的一种详细流程图;图4为图I的页面经渲染后的示意图;图5为处于同一高度的两个相邻矩形形成一个T形结构的示意图;图6为处于同一高度的两个相邻矩形形成另一个T形结构的示意图;图7为本专利技术列表区域检测的一种详细流程图;图8为以图4的页面为基础找出T-Point的页面示意图本文档来自技高网
...

【技术保护点】
一种自动获取网页结构化信息的分析方法,其特征在于,包括以下步骤:(1)将原始列表页面中每一个可显示元素均渲染为矩形,并为每个矩形均赋予坐标参数;(2)根据矩形参数检测T?Point,并将有效T?Point覆盖的范围作为列表区域,所述T?Point为相邻矩形上方公共的顶点;(3)从所述列表区域中检测出所有数据记录,所述数据记录是指网页列表页面中记录数据的单位;(4)将不同数据记录中具有相同类型或相同语义的数据项对应起来,形成数据项列;(5)对数据项列的语义进行确认。

【技术特征摘要】

【专利技术属性】
技术研发人员:张长水张志强翁时锋
申请(专利权)人:翁时锋
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1