一种互联网主题信息采集方法及装置制造方法及图纸

技术编号:3873599 阅读:230 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种互联网主题信息采集方法及装置,所述方法包括:获取互联网网页的超文本标记语言HTML源代码;以div标签为标志标签将所述HTML源代码分成不同的字符串,并将所述不同的字符串形成字符串列表;逐一分析所述字符串列表中的每个字符串,当某个字符串中的HTML标签外的字符个数大于所述HTML标签内的字符个数,且HTML标签外的字符个数大于设定的基数时,将该字符串包含的内容作为主题信息。实施本发明专利技术提供的互联网主题信息采集方法和装置,通过以div标签将HTML源代码划分成多个字符串,对多个字符串进行分析,从而获取主题信息,可处理互联网上不同网页模板的网页信息,并提高主题信息采集的准确性。

【技术实现步骤摘要】

本专利技术涉及一种互联网信息的处理技术,尤其涉及一种互联网主题信息采集方法和装置。
技术介绍
浏览Web上的网页信息,会发现它们通常包含两部分内容,一部分内容体现的是网页的主题信息,比如一张新闻网页中的新闻信息部分,我们称之为"主题"信息;另一部分则是与主题内容无关的导航条、广告信息、版权信息以及调查问巻等内容,称之为"噪音"信息。噪音信息通常分布在主题信息周围,有时也夹杂在主题内容中间,但它们并无内容相关性。 噪音信息通常是以链接导航文字(anchor text)的形式出现,因此,噪音信息会导致相互链接的网页常常也无内容相关性。这样,网页中的噪音内容不仅给Web上基于网页内容的应用系统带来困难,也给基于网页超链指向的应用系统带来困难。 快速准确的识别并清除网页内的噪音内容后,可以采集网页的主题内容为进行后续的处理或者开发。 现有技术一中,提出了一个去除互联网网页中噪音信息,采集主题信息的方法,该 方法首先依据〈table〉标签构造网页的标签树,进而依据〈table〉标签将一张网页规划为 相互嵌套的内容块;而后,对于使用同一个模板作出的网页集,找出在该网页集中多次出现 的内容,作为冗余内容,而在该网页集中共同出现较少的内容块就是有效信息块。实验证明 该方法是有效的,但该方法必须局限在基于同一个模板的网页集,而Web上的网页模板不 计其数,因此该方法显然不够通用。 HTML(HyperText Mark—up Language,超文本标记i吾言)是——禾中标识语言(Markup Language),其中定义了一套标签来刻画网页显示时的页面布局。因此,对于HTML网页最 常用的结构表示方法是构造网页的标签树。现有的标签树构造工具很多,DOM (Document Object Model,文档对象模型)是一个常用标签树构造工具,它可以将网页中的标签按照嵌 套关系整理成一棵树状结构。要实现网页净化冰采集有用的主题信息,首先根据HTML代 码,生成DOM树,然后分析树元素,提取主题信息。 DOM全称是文档对象模型(Document Object Model,D0M),它根据文档中标记之间的嵌套关系,将文档表示为一个树形结构,文档中的元素、属性、以分析的字符数据、注释以及处理指令等都是节点。 现有技术二实施步骤如下 1 、将不够规范的HTML文档整理成格式良好的XHTML文档; 2 、将XHTML文档解析成一个树模型——DOM树; 3、然后围绕DOM树进行信息的提取; 4、利用归纳学习用户提供的样本网页的结构,就可以根据D0M中的节点,生成一 个XML文档,这个XML文档中只保留用户感兴趣的信息的节点,从而完成信息提取。 专利技术人在实施本专利技术的过程中,发现现有技术二至少具有如下缺点 DOM树相对比较复杂,分析效率比较低,速度慢;并且DOM树种类繁多,若要获取正 确的主题信息,存在较大的差异和难度。
技术实现思路
本专利技术所要解决的技术问题在于,针对上述现有技术的不足,本专利技术提供一种互联网主题信息采集方法及装置,不用拘泥于统一的网络模板,而提供一种通用的方法,准确分析并处理互联网上所有的网页,以获取主题信息。 本专利技术实施例提供的一种互联网主题信息采集方法,包括 获取互联网网页的超文本标记语言HTML源代码; 以div标签为标志标签将所述HTML源代码分成不同的字符串,并将所述不同的字 符串形成字符串列表; 逐一分析所述字符串列表中的每个字符串,当某个字符串中的HTML标签外的字 符个数大于所述HTML标签内的字符个数,且HTML标签外的字符个数大于设定的基数时,将 该字符串包含的内容作为主题信息。 本专利技术实施例还提供了一种互联网主题信息采集装置,包括 源代码获取模块,用于获取互联网网页的超文本标记语言HTML源代码; 字符串形成模块,用于以div标签为标志标签将所述HTML源代码分成不同的字符串,并将所述不同的字符串形成字符串列表; 第一字符串分析模块,用于逐一分析所述字符串列表中的每个字符串,当某个字 符串中的HTML标签外的字符个数大于所述HTML标签内的字符个数,且HTML标签外的字符 个数大于设定的基数时,将该字符串包含的内容作为主题信息。 实施本专利技术提供的互联网主题信息采集方法和装置,通过以div标签将HTML源代 码划分成多个字符串,再对多个字符串进行分析,从而获取主题信息,可以处理互联网上不 同网页模板的网页信息,并提高主题信息采集的准确性。附图说明 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。 图1是本专利技术中互联网主题信息采集方法实施例一的流程示意图 图2是本专利技术中互联网主题信息采集方法实施例二的流程示意图 图3是本专利技术中互联网主题信息采集方法实施例三的流程示意图 图4是本专利技术中互联网主题信息采集装置实施例一的流程示意图 图5是本专利技术中互联网主题信息采集装置实施例二的流程示意图 图6是本专利技术中互联网主题信息采集装置实施例三的流程示意图,具体实施例方式本专利技术提供一种互联网主题信息采集方法及装置,不用拘泥于统一的网络模板,而提供一种通用的方法,准确分析并处理互联网上所有的网页,以获取主题信息。 参见图l,为本专利技术实施例提供的互联网主题信息采集方法的实施例一的流程示意图。 本专利技术实施例提供的互联网主题信息采集方法,包括 步骤100,获取互联网网页的超文本标记语言HTML源代码; 需要说明的是,HTML是超文本语言的简称, 一般用于编写网页,通过查看网络上网 页的HTML源代码,可以了解这个网页的结构以及一些图片或者视频的绝对地址。 步骤101,以div标签为标志标签将所述HTML源代码分成不同的字符串,并将所述 不同的字符串形成字符串列表(按照我司以往接到的审查意见通知书,此处最好和专利技术人 再沟通下,给字符串的具体书写格式); 需要说明的是,HTML标签通常是英文词汇的全称(如块引用blockquote)或縮略 语(如"P"代表Paragraph),但它们的与一般文本有区别,因为它们放在单书名号里。故 Paragragh标签是〈p〉,块引用标签是〈blockquote〉。有些HTML标签说明页面如何被格式 化(例如,开始一个新段落),其他则说明这些词如何显示(〈b〉使文字变粗)还有一些其他 标签提供在页面上不显示的信息,例如标题。 HTML标签是成双出现的。每当使用一个标签,如〈blockquote〉,则必须以另一个 标签〈/blockquote〉将它关闭。blockquote前的斜杠,就是关闭标签与打开标签的区别。 但是也有一些标签例外。比如,〈i即ut〉标签就不需要。 —般地,HTML源代码以DOCTYPE开始,它声明文档的类型,且它之前不能有任何内 容(包括换行符和空格),否则将使文档声明无效,接着是〈html〉标签,以〈/html>标签结 束。〈html〉标签和〈/html〉标签也是HTML标签中的一种,在它们之间,整个页面有两部分, 标题和正文。本文档来自技高网
...

【技术保护点】
一种互联网主题信息采集方法,其特征在于,包括:获取互联网网页的超文本标记语言HTML源代码;以div标签为标志标签将所述HTML源代码分成不同的字符串,并将所述不同的字符串形成字符串列表(说明书中请补充字符串的具体书写格式,否则,审查员很可能以公开不充分发出审查意见通知书);逐一分析所述字符串列表中的每个字符串,当某个字符串中的HTML标签外的字符个数大于所述HTML标签内的字符个数,且HTML标签外的字符个数大于设定的基数时,将该字符串包含的内容作为主题信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:黎柯
申请(专利权)人:深圳市同洲电子股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1