自动获取网页结构化信息的分析方法技术

技术编号：7917739 阅读：223 留言：0更新日期：2012-10-25 02:48

本发明专利技术提出一种自动获取网页结构化信息的分析方法，包括以下步骤：（1）将原始列表页面中每一个可显示元素均渲染为矩形，并为每个矩形均赋予坐标参数；（2）根据矩形参数检测T-Point，并将有效T-Point覆盖的范围作为列表区域，所述T-Point为相邻矩形上方公共的顶点；（3）从所述列表区域中检测出所有数据记录，所述数据记录是指网页列表页面中记录数据的单位；（4）将不同数据记录中具有相同类型或相同语义的数据项对应起来，形成数据项列；（5）对数据项列的语义进行确认。本发明专利技术可以大大提高网页结构化信息自动分析的精确度、稳定性和时效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种互联网网页分析方法，特别涉及一种。
技术介绍
随着互联网技术的不断发展，Web2. 0概念正在兴起，信息的传递方向变得更加多元。在传统的从少数点(大型新闻媒体，信息提供者)向全网(普通用户，信息消费者)辐射的自顶向下的信息传递模式之后，由普通用户产生而在网络上不断传播的自底向上的信息流动模式正变得越来越普遍。海量的内容由普通用户通过社交网络、博客、微博、论坛等新兴Web2. 0媒介产生出来，并最终被其它用户消费。这些用户产生的海量内容蕴含了大量有价值的信息和知识，潜在的应用包括舆情分析、垂直搜索、知识问答等。为了能够分析和利用它们，我们首要的任务就是要准确地获取它们。而拥有众多用户的传统媒介论坛就成了其中主要的一部分。图I绘示了一个典型的论坛列表页。虚线的方框分别标明了文章标题、作者、发帖时间和最后回复时间。文章标题、作者、发帖时间、最后回复时间这些是文章最重要的结构化信息。实线的方框指示了数据记录，每一条数据记录对应一篇论坛文章。所有实线框联合起来的范围，称为列表区域。因此，一个列表区域包含了多条数据记录。通常情况下，论坛中的数据存储于后台数据库中，当用户访问某一页面时，网站自动将所需内容填充到特定模板当中，展示给用户。网络数据自动采集器(也叫爬虫、蜘蛛或者Spider)不能直接访问后台数据库，只能通过网页访问论坛，然后对网页数据进行采集。但由于网站的多样性，不同的网站会根据需求采用不同的论坛系统，即便是同一个论坛系统，也存在不同的版本以及个性化更改，这就造成了模板的多样性，相互不一致。这就为数据的自动结构化采集带来了很大的困难。对...

【技术保护点】
一种自动获取网页结构化信息的分析方法，其特征在于，包括以下步骤：（1）将原始列表页面中每一个可显示元素均渲染为矩形，并为每个矩形均赋予坐标参数；（2）根据矩形参数检测T？Point，并将有效T？Point覆盖的范围作为列表区域，所述T？Point为相邻矩形上方公共的顶点；（3）从所述列表区域中检测出所有数据记录，所述数据记录是指网页列表页面中记录数据的单位；（4）将不同数据记录中具有相同类型或相同语义的数据项对应起来，形成数据项列；（5）对数据项列的语义进行确认。

【技术特征摘要】

【专利技术属性】
技术研发人员：张长水，张志强，翁时锋，
申请(专利权)人：翁时锋，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人