获取页面关键词的方法及页面信息处理装置制造方法及图纸

技术编号:2827993 阅读:244 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种获取页面关键词的方法,通过对获取WEB页面中的关键文本进行分词处理,得到所述关键文本的词条,并将与预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词。本发明专利技术还公开了一种页面信息处理装置。采用本发明专利技术,可全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度,且简单易行。

【技术实现步骤摘要】

本专利技术涉及通信领域,尤其涉及一种获取页面关键词的方法及一种页面信 息处理装置。
技术介绍
随着因特网的迅速发展,网络已经改变了人们获取信息的主要方法与手段。其中,发展最为迅猛的万维网(World Wide Web, WWW)技术,以其直观、 方便的使用方式和丰富的表达能力,已逐渐成为因特网上最重要的信息发布和 传输方式。伴随着信息时代的到来和发展,WEB上的信息也迅速增长起来。然 而,WEB信息的急速膨胀,在给人们提供了丰富信息的同时,又使人们在对这 些信息进行有效使用方面面临着一个巨大的挑战。 一方面因特网(Internet)上 的信息多种多样、丰富多彩,而另一方面用户却找不到所需要的信息。因此, 若WEB页面的提供者对页面内容进行预先处理,提取出该WEB页面的关键词, 将每个页面的关键词与页面内容关联保存在数据库中,这样,当网络用户请求 浏览某一页面时,可先从数据库中获得该页面对应的关键词,最后将具有相同 关键词的页面提供给用户浏览,以便于网络用户从大量的WEB页面中快捷准确 地筛选出所需要的WEB页面。目前,WEB页面的后缀有以下几种超文本标记语言(Hypertext Markup Language, HTML),超文本标记(Hypertext Markup, HTM),超文本预处理 器(Hypertext Preprocessor, PHP),动态月l务器页面(Active Server Page, ASP ), JAVA服务器端页面(Java Server Page),服务器解析超文本标记语言 (Server-parsed HTML, SHTML)。其中,后缀是php, asp, jsp, shtml的页面, 在浏览器端所接收到的页面都是HTML页面。另夕卜,根据爬虫工具获取到的页面 也是HTML页面,与后缀是无关的。可扩展标记语言(Extensible Markup Language, XML)是一种用户可以根 据自己的需求而设计标签的语言。在网络上获取到的XML页面,其中包含了在页面上显示的文本。但是XML页面的显示,需要一个xslt文件来把XML页面当中 的标签转化成为HTML标签。这个xslt文件的链接在XML页面当中提供。而对于 XML页面的处理需要提取当中所有的中文文本。因此,可将网—络上的WEB页面大体分为两种类型 一是HTML页面, 一是 XML页面。通常的HTML页面具有以下表1所示的格式<table>table see original document page 6</column></row><table>表1现有技术中提供了一种获取页面关键词的方法,该方法是根据WEB页面标 题词根在页面中的词频确定关键词,具体过程如图l所示,包括 101,获取WEB页面标题;102,对所述WEB页面标题进行分词,得到标题词条的集合; 103,统计所述各标题词条在所述页面中出现的次数;104,根据各标题词条在所述WEB页面中出现的次数,选择其中出现次数 多的标题词条作为所述WEB页面的关键词,在具体实现时可采用一次数阈值, 当所述标题词条的出现次数达到该次数阈值时,则确定以该标题词条作为WEB页面的关M:词。由于现有技术获取页面关键词时,只考虑页面标题中的词条,而页面标题 不能完全覆盖WEB页面的内容情况,因此,现有技术获取页面关键词具有局限 性,获取页面关键词的准确度较低。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供了 一种获取页面关键:词的方法以及一种页面信息处理装置,可提高获取WEB页面关键词的准确度。为了解决上述技术问题,本专利技术实施例提出了一种获取页面关键词的方法,包括获取WEB页面中的关键文本;对所述关键文本进行分词处理,得到所述关键文本的词条; 将与预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB 页面的关键词。相应地,本专利技术实施例还提供了一种页面信息处理装置,包括 存储单元,存储预定义词条集合,该预定义词条集合形成预定义词库; 获取单元,获取WEB页面中的关键文本;分词处理单元,对所述关键文本进行分词处理,得到所述关键文本的词条; 确定单元,将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关^f建词。本专利技术实施例通过对获取WEB页面中的关键文本进行分词处理,得到关键文本的词条,并将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度。附图说明图1是现有技术的获取页面关键词的方法的流程图;图2是本专利技术的获取页面关键词的方法的第 一 实施例示意图;图3是本专利技术的获取页面关键词的方法的第二实施例示意图;图4是本专利技术的获取页面关键词的方法的第二实施例中305的具体流程图;图5是本专利技术的页面信息处理装置的第一实施例示意图;图6是本专利技术的页面信息处理装置的第二实施例示意图。具体实施方式本专利技术实施例提供了一种获取页面关键词的方法以及页面信息处理装置,可实现在获取WEB页面关键词时,综合考虑WEB页面中的关键文本、预定义 词条,可全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度。下面结合附图,对本专利技术实施例进行详细说明。图2是本专利技术的获取页面关键词的方法的第一实施例示意图,该方法中提 供了预定义词库,该预定义词库保存了预定义词条的集合,该方法主要包括201,获取WEB页面中的关键文本,具体可通过首先对WEB页面是否为 HTML页面进行判断,并对其中的标签内容或闭合标签内容进行提取,之后可 对提取的标签内容或闭合标签内容进行解码,从而得到WEB页面的关键文本;202, 对所述关键文本进行分词操作,得到所述关键文本的词条,这部分流 程可用任何现有技术的分词手段来实现;203, 将与预定义词库中与所述关键文本的词条匹配的预定义词条确定为所 述WEB页面的关键词,匹配关系可以是所述预定义词条与所述分词所得词条相 同,但不仅限于此。实施如图2所示的本专利技术的获取页面关键词的方法的第一实施例,通过对 获取WEB页面中的关键文本进行分词处理,得到关键文本的词条,并将与所述 预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的 关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的 准确度。本专利技术实施例还提供了另外一种获取页面关键词的方法,如下描述 图3是本专利技术的获取页面关键词的方法的第二实施例示意图,参照该图, 该方法主要包括301, 获取WEB页面,具体可通过网络爬虫等技术获取互连网上的WEB 页面;302, 判断所述WEB页面是否为HTML页面,若是,则提取所述WEB页 面部分标签内容,比如标题标签、主体标签等标签的内容;否则,提取所述WEB 页面所有闭合标签内容,其中要说明的是,当所述WEB页面为HTML页面且 当该WEB页面中没有标签内容时,仍提取该WEB页面所有闭合标签内容。在实际应用中,由前面表1所示的HTML页面的一般格式可知,HTML标 签主要由两组标签构成, 一个是〈headx/head〉标签,另 一个是〈bodyx/body〉本文档来自技高网
...

【技术保护点】
一种获取页面关键词的方法,其特征在于,包括:    获取WEB页面中的关键文本;    对所述关键文本进行分词处理,得到所述关键文本的词条;    将预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。

【技术特征摘要】
1、一种获取页面关键词的方法,其特征在于,包括获取WEB页面中的关键文本;对所述关键文本进行分词处理,得到所述关键文本的词条;将预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。2、 如权利要求1所述的获取页面关4建词的方法,其特征在于,所述预定义 词库包括若干子词库,每一子词库中的预定义词条与一页面类别对应且分配有 指示对页面类别贡献作用的贡献度量标准,所述将预定义词库中与所述关键文 本的词条匹配的预定义词条确定为所述WEB页面的关键词步骤包括根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类 别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别;将所述WEB页面的页面类别对应的子词库中与所述关4建文本的词条匹配 的预定义词条确定为所述WEB页面的关#:词。3、 如权利要求2所述的获取页面关键词的方法,其特征在于,所述贡献度 量标准为权重值标准,所述根据每一子词库中与所述关键文本的词条匹配的预 定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的 页面类别步骤包括获得每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准;根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类 别具有贡献作用的权重值标准,计算该子词库中与所述关键文本的词条匹配的 预定义词条的权重值之和;确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的 页面类别。4、 如权利要求3所述的获取页面关键词的方法,其特征在于,还才艮据每一子词库中与所述关^:文本的词条匹配的预定义词条在所述WEB页面的位置而 设置的比例系数,计算该子词库中与所述关键文本的词条匹配的预定义词条的 权重值之和。5、 如权利要求1至4中任一项所述的获取页面关4建词的方法,其特征在于, 所述获取WEB页面中的关键文本包括判断所述WEB页面是否为超文本标记语言页面,若是,则提取所述WEB页面标签内容/所述WEB页面闭合标签内容,否则 提取所述WEB页面闭合标签内容;对所述提取的内容进行解码,得到所述关键文本。6、 一种页面信息处理装置,其特征在于,包括存储单元,存储预定义词条集...

【专利技术属性】
技术研发人员:刘利锋丁一鸣唐斐雷宇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1