一种互联网主题信息采集方法及装置制造方法及图纸

技术编号：3873599 阅读：230 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种互联网主题信息采集方法及装置，所述方法包括：获取互联网网页的超文本标记语言ＨＴＭＬ源代码；以ｄｉｖ标签为标志标签将所述ＨＴＭＬ源代码分成不同的字符串，并将所述不同的字符串形成字符串列表；逐一分析所述字符串列表中的每个字符串，当某个字符串中的ＨＴＭＬ标签外的字符个数大于所述ＨＴＭＬ标签内的字符个数，且ＨＴＭＬ标签外的字符个数大于设定的基数时，将该字符串包含的内容作为主题信息。实施本发明专利技术提供的互联网主题信息采集方法和装置，通过以ｄｉｖ标签将ＨＴＭＬ源代码划分成多个字符串，对多个字符串进行分析，从而获取主题信息，可处理互联网上不同网页模板的网页信息，并提高主题信息采集的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种互联网信息的处理技术，尤其涉及一种互联网主题信息采集方法和装置。
技术介绍
浏览Web上的网页信息，会发现它们通常包含两部分内容，一部分内容体现的是网页的主题信息，比如一张新闻网页中的新闻信息部分，我们称之为"主题"信息；另一部分则是与主题内容无关的导航条、广告信息、版权信息以及调查问巻等内容，称之为"噪音"信息。噪音信息通常分布在主题信息周围，有时也夹杂在主题内容中间，但它们并无内容相关性。噪音信息通常是以链接导航文字(anchor text)的形式出现，因此，噪音信息会导致相互链接的网页常常也无内容相关性。这样，网页中的噪音内容不仅给Web上基于网页内容的应用系统带来困难，也给基于网页超链指向的应用系统带来困难。快速准确的识别并清除网页内的噪音内容后，可以采集网页的主题内容为进行后续的处理或者开发。现有技术一中，提出了一个去除互联网网页中噪音信息，采集主题信息的方法，该方法首先依据〈table〉标签构造网页的标签树，进而依据〈table〉标签将一张网页规划为相互嵌套的内容块；而后，对于使用同一个模板作出的网页集，找出在该网页集中多次出现的内容，作为冗余内容，而在该网页集中共同出现较少的内容块就是有效信息块。实验证明该方法是有效的，但该方法必须局限在基于同一个模板的网页集，而Web上的网页模板不计其数，因此该方法显然不够通用。 HTML(HyperText Mark—up Language,超文本标记i吾言)是——禾中标识语言(Markup Language)，其中定义了一套标签来刻画网页显示时的页面布局。因此，对于...

【技术保护点】
一种互联网主题信息采集方法，其特征在于，包括：获取互联网网页的超文本标记语言ＨＴＭＬ源代码；以ｄｉｖ标签为标志标签将所述ＨＴＭＬ源代码分成不同的字符串，并将所述不同的字符串形成字符串列表（说明书中请补充字符串的具体书写格式，否则，审查员很可能以公开不充分发出审查意见通知书）；逐一分析所述字符串列表中的每个字符串，当某个字符串中的ＨＴＭＬ标签外的字符个数大于所述ＨＴＭＬ标签内的字符个数，且ＨＴＭＬ标签外的字符个数大于设定的基数时，将该字符串包含的内容作为主题信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：黎柯，
申请(专利权)人：深圳市同洲电子股份有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人