网页信息的处理方法和装置制造方法及图纸

技术编号:12577253 阅读:56 留言:0更新日期:2015-12-23 16:58
本发明专利技术提供一种网页信息的处理方法和装置。本发明专利技术网页信息的处理方法,包括:根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom树,其中,所述Dom树包括一个以上的节点,所述节点与所述待处理网页中的文本信息分布相对应,对所述Dom树中的所有节点进行信息统计,确定所述Dom树的主题文本节点;将所述Dom树的主题文本节点对应的文本信息作为所述待处理网页的主题信息,可以提高网页信息处理的准确率和效率。

【技术实现步骤摘要】

本专利技术涉及计算机软件技术,尤其涉及一种网页信息的处理方法和装置
技术介绍
随着信息化的推进以及网络的快速发展,对互联网中数以亿计的网页信息进行抽取就尤为重要。现有技术中,网页信息的抽取技术通常有以下两种:基于统计的处理方法,其通过统计各个网页中所包含的的信息量或链接文本域普通文本的比值来获取网页的主题信息。或者,基于视觉特征的处理方法,构成网页的超文本标记语言(Hyper Text Markuplanguage,简称HTML)是一种语法较为松散且灵活的标记语言,不需要经过编译就可以直接解释执行,其中一些语法错误也可以被浏览器的容错功能隐藏,因此可结合页面的视觉特征来抽取信息,具体的方式为:抽取网页中的部分信息作为样本,人为统计各个网页中所包含的的信息量或链接文本域普通文本的比值来获取网页的主题信息。但是,基于统计的处理方法所获取的结果依赖于统计样本的优劣,好的统计样本需要大量且多种多样的各类网页,因此需要大量的时间和人力,另外,基于视觉特征的处理方法必须知道HTML每个标签在网页布局的确切位置,因此需要将HTML网页进行类似浏览器的解析,因此,现有的网页信息处理方法中存在准确率低、效率低的问题。
技术实现思路
本专利技术提供一种网页信息的处理方法和装置,可以解决现有的网页信息处理方法中存在准确率低、效率低的问题。本专利技术提供一种网页信息的处理方法,包括:根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom树,其中,所述Dom树包括多个节点,所述节点与所述待处理网页中的文本信息分布相对应;根据所述Dom树中的多层节点,确定所述Dom树的主题文本节点;将所述Dom树的主题文本节点对应的文本信息确定为所述待处理网页的主题信肩、O本专利技术提供一种网页信息的处理装置,包括:建立模块,用于根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom树,其中,所述Dom树包括多个节点,所述节点与所述待处理网页中的文本信息分布相对应;第一确定模块,用于根据所述Dom树中的多层节点,确定所述Dom树的主题文本节占.第二确定模块,用于将所述Dom树的主题文本节点对应的文本信息确定为所述待处理网页的主题信息。本专利技术实施例根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom树,其中,所述Dom树包括一个以上的节点,所述节点与所述待处理网页中的文本信息分布相对应,根据所述Dom树中的多层节点,确定所述Dom树的主题文本节点;将所述Dom树的主题文本节点对应的文本信息确定为所述待处理网页的主题信息;由于本专利技术采用基于DOM树结构的信息统计技术,能够快速获取Dom树的主题文本节点,从而能够快速确定待处理网页的主题信息,因此可以提高网页信息处理的准确率和效率。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的网页信息的处理方法的流程示意图;图2为本专利技术实施例应用的一种Dom树的结构示意图;图3为本专利技术实施例应用的又一种Dom树的结构示意图;图4为本专利技术实施例应用的又一种Dom树的结构示意图;图5为本专利技术实施例提供的网页信息的处理装置的结构示意图。【具体实施方式】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术一实施例提供的网页信息的处理方法的流程示意图,如图1所示,本实施例提供的网页信息的处理方法具体包括:SlOl:根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom 树。其中,上述文档对象模型(Document Object Model,简称Dom)树包括一个以上的节点,所述Dom树包括多个节点,所述节点与所述待处理网页中的文本信息分布相对应。通常,构成网页的HTML的标签具有可嵌套性,一个网页中所有标签组成的DOM模型通常呈现树状结构,因此,通过一些常见的针对DOM树的操作,从而总结归纳出待抽取部分的特征(例如待处理网页中的文本信息分布特征),建立所述待处理网页的文档对象模型Dom树,有关DOM树结构的技术可以参考现有技术中的相关内容,本专利技术对此不作限定。可选地,在本实施例的步骤101之前还可以对原始网页信息进行预处理,例如,将原始网页信息中的不要的信息进行去除,留下需要的部分,即预处理网页信息,具体的预处理方式可以参照现有技术中对网页信息的预处理方式,本专利技术对此不作限定。S102:根据所述Dom树中的多层节点,确定所述Dom树的主题文本节点。具体地,若所述Dom树中第I层节点为根节点,第2层节点为所述根节点的下一级节点,所述第3层节点为所述第2层节点的下一级节点,以此类推,直至第η层节点为止;则上述步骤102具体实现时可以包括:根据所述Dom树中第i层节点中的每个子节点包含的文本总数,确定所述第i层中的第i代表节点,所述第i代表节点中包含的文本总数大于所述第i层中除所述第i代表节点之外的其他节点包含的文本总数;确定所述第i+Ι层中所述第i代表节点的下一级节点包含的文本总数,确定第i+1层中的第i+Ι代表节点,所述第i+Ι代表节点包含的文本总数大于所述第i代表节点的下一级节点中除所述第i+Ι代表节点之外的其他节点所包含的文本总数;将i加1,重复执行该步骤,直至获取第η层中的第η代表节点;将所述第η代表节点确定为所述Dom树的主题文本节点;其中,i为整数,且大于或等于2。需要说明的是,所述第一层节点中的代表节点为所述根节点;则根据所述Dom树中第i层节点中的每个子节点包含的文本总数,确定所述第i层中的第i代表节点,具体实现时可以包括:从第1-Ι层节点中的第i_l代表节点开始,查询第i层节点中的每个子节点包含的文本总数,确定所述第i层节点中文本总数最多的子节点;若所述第i层节点中文本总数最多的子节点对应的文本总数占第i_l层节点中的第1-Ι代表节点的文本总数的比例大于等于预设的比例阈值,则将第i层节点中文本总数最多的子节点作为第i层节点中的第i代表节点;若所述第i层节点中文本总数最多的子节点对应的文本总数占所述第i_l层节点中的第i_l代表节点的文本总数的比例小于预设的比例阈值,则根据预设的权重计算参数,计算所述第i层节点中的每个子节点的文本权重,将文本权重值最大且大于权重阈值的子节点作为第i层节点中的第i代表节点;其中,本专利技术实施例中的比例阈值的范围例如可以设置为70%至75% ;需要说明的是,上述权重计算参数例如包括:文本总长度、文本与链接的比例、文本总长度与节点的比例或文本中噪音关键词的比例;其中,计算权重的算法可以是现有技术中的权重算法,本专利技术对此不限限定。需要说明的是,上述计算第二层节点中的每个子节点的文本权重之后,若文本权重值最大但小于等于本文档来自技高网...

【技术保护点】
一种网页信息的处理方法,其特征在于,包括:根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom树,其中,所述Dom树包括多个节点,所述节点与所述待处理网页中的文本信息分布相对应;根据所述Dom树中的多层节点,确定所述Dom树的主题文本节点;将所述Dom树的主题文本节点对应的文本信息确定为所述待处理网页的主题信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:李刚于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1