当前位置: 首页 > 专利查询>广东星海数字家庭产业技术研究院有限公司专利>正文

一种数字电视交互服务页面的信息提取方法及其装置制造方法及图纸

技术编号：6856370 阅读：214 留言：0更新日期：2012-04-11 18:40

本发明专利技术实施例公开了一种数字电视交互服务页面的信息提取方法及其装置，其中，该方法包括：获取网页并将所述网页重新编写获得可扩展超文本标识语言XHTML文档；根据所述XHTML文档建立文档对象模型DOM树；根据所述DOM树对所收集的网页进行聚类；获取聚类后的同一类网页所对应的网页模版；根据所述网页模版进行信息提取并获得提取后的详细信息。实施本发明专利技术实施例的数字电视交互服务页面的信息提取方法及其装置，可以提高数字电视交互服务页面关键信息的获取速度，还可以减少数字电视交互服务页面信息数据的处理量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字电视
，尤其涉及一种数字电视交互服务页面的信息提取方法及其装置。
技术介绍
随着因特网(Internet)和数字电视的迅速发展，交互服务页面已经成为一个庞大而复杂的信息仓库。如何从海量的交互服务页面中快速抽取信息进而提高人们获取信息的效率变得越来越重要。目前，绝大多数的交互服务页面是动态web网页，它们通常是由网站的后台数据库通过某种通用的模板构成，有十分相似的页面结构，例如搜索引擎返回的搜索结果，网上商店的商品信息页面等都是典型的动态网页。这类网页往往数量巨大且内容丰富，因而抽取工作非常有价值；同时这些页面中自由文本数据少，网页结构化程度高，而其中固定的文本数据很多。现有技术中，交互服务页面不规范，且数量多，其中所包含的数据很多，在检索过程中需要处理大量的数据，造成资源浪费，且不能够快速地在交互服务页面的关键数据中进行快速检索。
技术实现思路
本专利技术的目的在于克服现有技术的不足，本专利技术提供了一种数字电视交互服务页面的信息提取方法及其装置，可以对数字电视交互服务页面关键数据进行快速检索。为了解决上述问题，本专利技术提出了一种数字电视交互服务页面的信息提取方法，所述方法包括获取网页并将所述网页重新编写获得可扩展超文本标识语言XHTML文档；根据所述XHTML文档建立文档对象模型DOM树；根据所述DOM树对所收集的网页进行聚类；获取聚类后的同一类网页所对应的网页模版；根据所述网页模版进行信息提取并获得提取后的详细信息。优选地，所述根据所述XHTML文档建立文档对象模型DOM树的步骤包括查找所述XHTML文档中的所有开始标记并...

【技术保护点】
１．一种数字电视交互服务页面的信息提取方法，其特征在于，所述方法包括：获取网页并将所述网页重新编写获得可扩展超文本标识语言ＸＨＴＭＬ文档；根据所述ＸＨＴＭＬ文档建立文档对象模型ＤＯＭ树；根据所述ＤＯＭ树对所收集的网页进行聚类；获取聚类后的同一类网页所对应的网页模版；根据所述网页模版进行信息提取并获得提取后的详细信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：林格，张洁，颜权，
申请(专利权)人：广东星海数字家庭产业技术研究院有限公司，中山大学，
类型：发明
国别省市：81

全部详细技术资料下载我是这个专利的主人