网页信息的处理方法和装置制造方法及图纸

技术编号：12577253 阅读：56 留言：0更新日期：2015-12-23 16:58

本发明专利技术提供一种网页信息的处理方法和装置。本发明专利技术网页信息的处理方法，包括：根据待处理网页中的文本信息分布，建立所述待处理网页的文档对象模型Dom树，其中，所述Dom树包括一个以上的节点，所述节点与所述待处理网页中的文本信息分布相对应，对所述Dom树中的所有节点进行信息统计，确定所述Dom树的主题文本节点；将所述Dom树的主题文本节点对应的文本信息作为所述待处理网页的主题信息，可以提高网页信息处理的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机软件技术，尤其涉及一种网页信息的处理方法和装置。
技术介绍
随着信息化的推进以及网络的快速发展，对互联网中数以亿计的网页信息进行抽取就尤为重要。现有技术中，网页信息的抽取技术通常有以下两种:基于统计的处理方法，其通过统计各个网页中所包含的的信息量或链接文本域普通文本的比值来获取网页的主题信息。或者，基于视觉特征的处理方法，构成网页的超文本标记语言(Hyper Text Markuplanguage,简称HTML)是一种语法较为松散且灵活的标记语言，不需要经过编译就可以直接解释执行，其中一些语法错误也可以被浏览器的容错功能隐藏，因此可结合页面的视觉特征来抽取信息，具体的方式为:抽取网页中的部分信息作为样本，人为统计各个网页中所包含的的信息量或链接文本域普通文本的比值来获取网页的主题信息。但是，基于统计的处理方法所获取的结果依赖于统计样本的优劣，好的统计样本需要大量且多种多样的各类网页，因此需要大量的时间和人力，另外，基于视觉特征的处理方法必须知道HTML每个标签在网页布局的确切位置，因此需要将HTML网页进行类似浏览器的解析，因此，现有的网页信息处理方法中存在准确率低、效率低的问题。
技术实现思路
本专利技术提供一种网页信息的处理方法和装置，可以解决现有的网页信息处理方法中存在准确率低、效率低的问题。本专利技术提供一种网页信息的处理方法，包括:根据待处理网页中的文本信息分布，建立所述待处理网页的文档对象模型Dom树，其中，所述Dom树包括多个节点，所述节点与所述待处理网页中的文本信息分布相对应；根据所述Dom树中的多层节点,确定...

【技术保护点】
一种网页信息的处理方法，其特征在于，包括：根据待处理网页中的文本信息分布，建立所述待处理网页的文档对象模型Dom树，其中，所述Dom树包括多个节点，所述节点与所述待处理网页中的文本信息分布相对应；根据所述Dom树中的多层节点，确定所述Dom树的主题文本节点；将所述Dom树的主题文本节点对应的文本信息确定为所述待处理网页的主题信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：李刚，于晓明，杨建武，
申请(专利权)人：北大方正集团有限公司，北京大学，北京北大方正电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人