一种数字电视交互服务页面的信息提取方法及其装置制造方法及图纸

技术编号:6856370 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种数字电视交互服务页面的信息提取方法及其装置,其中,该方法包括:获取网页并将所述网页重新编写获得可扩展超文本标识语言XHTML文档;根据所述XHTML文档建立文档对象模型DOM树;根据所述DOM树对所收集的网页进行聚类;获取聚类后的同一类网页所对应的网页模版;根据所述网页模版进行信息提取并获得提取后的详细信息。实施本发明专利技术实施例的数字电视交互服务页面的信息提取方法及其装置,可以提高数字电视交互服务页面关键信息的获取速度,还可以减少数字电视交互服务页面信息数据的处理量。

【技术实现步骤摘要】

本专利技术涉及数字电视
,尤其涉及一种数字电视交互服务页面的信息提取方法及其装置
技术介绍
随着因特网(Internet)和数字电视的迅速发展,交互服务页面已经成为一个庞大而复杂的信息仓库。如何从海量的交互服务页面中快速抽取信息进而提高人们获取信息的效率变得越来越重要。目前,绝大多数的交互服务页面是动态web网页,它们通常是由网站的后台数据库通过某种通用的模板构成,有十分相似的页面结构,例如搜索引擎返回的搜索结果,网上商店的商品信息页面等都是典型的动态网页。这类网页往往数量巨大且内容丰富,因而抽取工作非常有价值;同时这些页面中自由文本数据少,网页结构化程度高, 而其中固定的文本数据很多。现有技术中,交互服务页面不规范,且数量多,其中所包含的数据很多,在检索过程中需要处理大量的数据,造成资源浪费,且不能够快速地在交互服务页面的关键数据中进行快速检索。
技术实现思路
本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种数字电视交互服务页面的信息提取方法及其装置,可以对数字电视交互服务页面关键数据进行快速检索。为了解决上述问题,本专利技术提出了一种数字电视交互服务页面的信息提取方法, 所述方法包括获取网页并将所述网页重新编写获得可扩展超文本标识语言XHTML文档;根据所述XHTML文档建立文档对象模型DOM树;根据所述DOM树对所收集的网页进行聚类;获取聚类后的同一类网页所对应的网页模版;根据所述网页模版进行信息提取并获得提取后的详细信息。 优选地,所述根据所述XHTML文档建立文档对象模型DOM树的步骤包括查找所述XHTML文档中的所有开始标记并将查找到的所有开始标记对应的名称存储在标记表中;逐一判断是否存在与所述标记表的任一开始标记对应的结束标记;若是,则将所述结束标记与所述结束标记对应的开始标记之间的内容存储在所述标记表中;若否,则删除所述开始标记;根据所述包括开始标记及所述开始标记与其对应的结束标记之间的内容的标记表建立DOM树。优选地,所述根据所述网页模版进行信息提取并获得提取后的详细信息的步骤包括通过遍历DOM树的方式根据所述网页模版进行信息提取;获得提取后的详细信息;对所述详细信息进行存储。优选地,所述对所述详细信息进行存储的步骤包括对所述详细信息进行结构化存储。优选地,所述对所述详细信息进行结构化存储的步骤包括以可扩展标记语言XML文档的方式存储所述详细信息。相应地,本专利技术实施例还公开了一种数字电视交互服务页面的信息提取装置,所述信息提取装置包括文档获取模块,用于获取网页并将所述网页重新编写获得可扩展超文本标识语言 XHTML文档;建立模块,用于根据所述获取模块所获取到的XHTML文档建立文档对象模型DOM 树;聚类模块,用于根据所述建立模块所建立的DOM树对所收集的网页进行聚类;模版获取模块,用于获取所述聚类模块所聚类后的同一类网页所对应的网页模版;提取模块,用于根据所述模版获取模块所获取到的网页模版进行信息提取并获得提取后的详细信息。 优选地,所述建立模块包括查找单元,用于查找所述XHTML文档中的所有开始标记并将查找到的所有开始标记对应的名称存储在标记表中;判断单元,用于逐一判断是否存在与所述标记表的任一开始标记对应的结束标己;第一存储单元,用于当所述判断单元的判断结果为是时,将所述结束标记与所述结束标记对应的开始标记之间的内容存储在所述标记表中;删除单元,用于当所述判断单元的判断结果为否时,删除所述开始标记;建立单元,用于根据所述包括开始标记及所述开始标记与其对应的结束标记之间的内容的标记表建立DOM树。优选地,所述提取模块包括提取单元,用于通过遍历DOM树的方式根据所述网页模版进行信息提取并获得提取后的详细信息;第二存储单元,用于对所述提取单元所提取到的详细信息进行存储。实施本专利技术实施例的数字电视交互服务页面的信息提取方法及其装置,可以提高数字电视交互服务页面关键信息的获取速度,还可以减少数字电视交互服务页面信息数据的处理量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的数字电视交互服务页面的信息提取方法的流程示意图;图2是本专利技术实施例的数字电视交互服务页面的信息提取方法的原理示意图;图3是本专利技术方法实施例中的根据XHTML文档建立DOM树的过程的具体流程示意图;图4是本专利技术方法实施例中的获取聚类后的同一类网页所对应的网页模版的过程的具体流程示意图;图5是本专利技术实施例的数字电视交互服务页面的信息提取装置的结构组成示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术中,针对交互服务页面的特点,提出了一种基于文档对象模型(Document Object Model, DOM)的数字电视交互服务页面信息抽取方法及其装置。DOM是W3C为在内存中建立可扩展标记语言(extensible MarkupLanguage,XML)文档的树结构提供的一种标准规范,XML文档中的元素可以用DOM树结构中的节点来表示。它是一个跨平台的、可适应不同程序语言的文件对象模型,文本标记语言(HyperText Markup Language, HTML)文档也可以采用DOM进行描述。采用DOM模型处理具有几个优点(1)由于树在内存中是持久的, 因此可以修改它的任何节点以便应用程序能对数据和结构进行更改;(2)可随时在树中上下导航,使用简单,可以方便地创建文档、导航其结构;(3)DOM标准的出现大大简化了结构化文档在编程环境中的处理。本专利技术的原理是将交互服务页面不够规范的HTML文档整理成格式良好的可扩展超文本置标语言(extensible HyperText Markup Language,XHTML)文档,再将XHTML文档解析成一个DOM树,进而根据DOM树进行信息的提取以及相似结构网页的搜索,提取的结果以XML文档表示,并进行结构化存储。图1是本专利技术实施例的数字电视交互服务页面的信息提取方法的流程示意图,如图1所示,该方法包括S101,获取网页并将网页重新编写获得XHTML文档;S102,根据XHTML文档建立DOM树;S103,根据DOM树对所收集的网页进行聚类;S104,获取聚类后的同一类网页所对应的网页模版;S105,根据网页模版进行信息提取并获得提取后的详细信息。图2是本专利技术实施例的数字电视交互服务页面的信息提取方法的原理示意图,下面结合图1、图2对本专利技术实施例的数字电视交互服务页面的信息提取方法进行进一步说明。具体实施中,在SlOl中,获取网页并整理。通过站点链接所查找的Web页面包括两种包含所需数据的页面;包含所需数据的目标页面的超链接页面。对Web站点的导航规则经过分析目标站点,结合所需数据的特点进行编写。而整本文档来自技高网...

【技术保护点】
1.一种数字电视交互服务页面的信息提取方法,其特征在于,所述方法包括:获取网页并将所述网页重新编写获得可扩展超文本标识语言XHTML文档;根据所述XHTML文档建立文档对象模型DOM树;根据所述DOM树对所收集的网页进行聚类;获取聚类后的同一类网页所对应的网页模版;根据所述网页模版进行信息提取并获得提取后的详细信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:林格张洁颜权
申请(专利权)人:广东星海数字家庭产业技术研究院有限公司中山大学
类型:发明
国别省市:81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1