一种网页类型识别方法和系统技术方案

技术编号:9170942 阅读:125 留言:0更新日期:2013-09-19 19:28
本发明专利技术实施方式提出一种网页类型识别方法和系统。方法包括:根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;利用该内容类型倾向值和该网页结构特征识别网页的类型。应用本发明专利技术实施方式之后,综合考虑了文本内容维度和网页结构维度来对网页进行分类,因此分类的准确度更高。而且,通过数据过滤,可有效去除网页中与识别类型无关的标签、链接、广告等噪音,使得分类效果更佳。

【技术实现步骤摘要】
一种网页类型识别方法和系统
本专利技术实施方式涉及互联网应用
,更具体地,涉及一种网页类型识别方法和系统。
技术介绍
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。据中国互联网络信息中心公布的最新互联网发展调查报告显示,中国互联网网民数达到5.13亿,2010年中国网页有600亿,而全球网页则至少有1万亿。互联网上众多网页包含的信息纷繁复杂,如何将这些网页准确归类以便于后续工作是一个严峻的挑战。比如:在网页广告方面,展示与网页类型相关的广告将会大大提升用户点击率。另外,近两年随着移动互联网的发展,移动阅读的需求呈井喷状,新闻无疑是用户最为关注的类型之一,如果能识别出新闻网页,也可以给移动阅读应用提供更干净的数据,同时还可以给页面抽取提供相应帮助。目前,在现有技术中通常采用朴素贝叶斯的文本分类方法来识别文本内容,主要包括:标注训练样本,利用文本词作为特征,通过统计的方法来估计文本的类别,等等。首先,目前现有技术中主要是按照网页内容进行分类,而仅仅根据网页内容进行分类的话,分类准确度并不高。其次,与互联网上的网页相比,文本分类的数据源由于过于简单而不实用。
技术实现思路
本专利技术实施方式提出一种网页类型识别方法,以提高网页分类准确度。本专利技术实施方式还提出一种网页类型识别系统,以提高网页分类准确度。本专利技术实施方式的具体方案如下:一种网页类型识别方法,该方法包括:根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。一种网页类型识别系统,该系统包括内容类型倾向值计算单元、结构特征提取单元和类型识别单元,其中:内容类型倾向值计算单元,用于根据网页的文本内容计算该网页的内容类型倾向值;结构特征提取单元,用于提取该网页的网页结构特征;类型识别单元,用于利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。从上述技术方案可以看出,在本专利技术实施方式中,根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;再利用内容类型倾向值和网页结构特征识别所述网页的类型。由此可见,应用本专利技术实施方式之后,首先针对网页进行两个维度的分类:一个是基于文本内容的维度,另一个是基于网页结构的维度;最后根据这两个维度的分类结果,组合确定出网页的类别。因此本专利技术实施方式不仅考虑了网页的文本内容维度,还考虑了网页结构维度来对网页进行分类,综合考虑了这两个维度来对网页进行分类,因此分类的准确度更高。附图说明图1为根据本专利技术实施方式的网页类型识别方法流程图;图2为根据本专利技术实施方式的网页类型识别方法示范性流程图;图3为根据本专利技术实施方式的网页类型识别系统结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。在本专利技术实施方式中,针对网页进行两个维度的分类。一个是基于文本内容的维度,另一个是基于网页结构的维度。然后,根据这两个维度的分类结果,组合确定出网页的类别。图1为根据本专利技术实施方式的网页类型识别方法流程图。如图1所示,该方法包括:步骤101:根据网页的文本内容计算该网页的内容类型倾向值。在这里,涉及基于文本内容的维度对网页类型进行初步分类。根据文本内容分类主要涉及利用统计机器学习分类算法,通过训练样本和特征来计算出某个页面为特定类型(比如新闻类型)的概率。具体地,可以首先利用词典对网页的文本内容进行分词,并计算分词特征的权重以形成特征向量,然后再根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值,其中计算出的内容类型倾向值可以作为对应于该种网页内容分类器所代表网页类型的概率。除了正文信息之外,网页页面通常含有很多其它的无关内容。通过实验发现,仅利用网页中的所有句子作为分类数据源,可有效去除标签、链接、广告等噪音,使得分类效果更佳。因此,在一个实施方式中,在利用词典对网页的文本内容进行分词之前,可以从文本内容中滤去整句长度小于预定值的句子,以增强分类效果。而且,为了减少人工标数据带来的成本,可以尝试利用各种网站(比如,一些新闻网站)作为入口去抓取数据,并通过简单人工审核,共得到大量的(比如数千条)新闻数据,然后利用词作为分类特征,并结合特征选择等算法进行降维。在另一个实施方式中,分类器可以利用逻辑回归(LogisticRegression)分类算法计算特征向量的内容类型倾向值。逻辑回归是一种线性分类器,计算速度很快,比较适合实时分类的应用场景。在一个实施方式中,具体可以利用词频-反文档频率(TF-IDF)加权算法来计算分词特征的权重。TF-IDF加权算法是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在TF-IDF加权算法中,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。步骤102:提取该网页的网页结构特征。在这里,涉及基于文本内容的维度对网页类型进行初步分类。具体地,可以先对网页建文档对象模型(DOM)树,然后通过遍历DOM树提取一些网页结构特征,以作为结构分类的依据。根据W3CDOM规范,DOM是一种与浏览器、平台、语言无关的接口,使得用户可以访问页面其他的标准组件。DOM解决了网景(Netscape)的Javascript和微软(Microsoft)的Jscript之间的冲突,给予web设计师和开发者一个标准的方法,以便于访问站点中的数据、脚本和表现层对像。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。比如:遍历DOM树而提取的网页结构特征可以包括:1)URL特征。比如URL末尾为index.html等,则基本上可以判定为索引页。如果URL含有“content”或日期,则为内容页的可能性较大。2)文字链接比。计算网页里面的文本(PureText)长度和链接文本(Anchor)长度的比值。3)最大文本长度。计算网页里最长的一段文本长度。作为内容页的一个长度限界值。4)最长连续文本比率。即集中的文本长度占网页总文本长度的比值。一般来讲,内容页的正文信息主要集中在一块,而比如专题页等,虽然其文本长度长,但分布相对分散。5)二级导航信息;6)网页标题,等等。以上虽然详细罗列了一些具体的网页结构特征,本领域技术人员可以意识到,实际上所采用的网页结构特征并不局限于此,而且本专利技术实施方式的保护范围也不局限于此。步骤103:利用内容类型倾向值和网页结构特征识别网页的类型。在这里,基于步骤101计算出的内容类型倾向值和步骤102提取出的网页结构特征,可以通过各种预先设置的许多判断准则来确定各特征的阈值以及组合策略,最终得出该页面的类型。比如:当步骤101中根本文档来自技高网...
一种网页类型识别方法和系统

【技术保护点】
一种网页类型识别方法,其特征在于,该方法包括:根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。

【技术特征摘要】
1.一种网页类型识别方法,其特征在于,该方法包括:根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型;所述根据网页的文本内容计算该网页的内容类型倾向值具体为:根据网页的文本内容计算该网页的新闻类型倾向值;其中:利用新闻类型倾向值和网页结构特征识别网页的类型,具体包括以下步骤中的至少一个:当所述新闻类型倾向值大于预先设置的新闻类型第一阈值时,直接判定所述网页的类型为新闻;或当所述新闻类型倾向值大于预先设置的新闻类型第二阈值,且所述网页结构特征中包含新闻类信息时,判定所述网页的类型为新闻;其中所述新闻类型第一阈值大于新闻类型第二阈值。2.根据权利要求1所述的网页类型识别方法,其特征在于,该方法进一步包括以下步骤中的至少一个:基于所识别的网页类型,计算该网页的广告相关度;基于所识别的网页类型,针对该网页执行个性化新闻推荐;基于所识别的网页类型,从该网页中抽取网页结构化数据;或基于所识别的网页类型,针对该网页执行阅读类应用的数据筛选。3.根据权利要求1所述的网页类型识别方法,其特征在于,所述根据网页的文本内容计算该网页的内容类型倾向值具体包括:利用词典对该网页的文本内容进行分词,并计算分词特征的权重以形成特征向量;根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值。4.根据权利要求3所述的网页类型识别方法,其特征在于,在利用词典对网页的文本内容进行分词之前,该方法进一步包括:从所述文本内容中滤去整句长度小于预定值的句子。5.根据权利要求3所述的网页类型识别方法,其特征在于,所述计算分词特征的权重为:利用词频TF-反文档频率IDF加权算法计算分词特征的权重。6.根据权利要求3所述的网页类型识别方法,其特征在于,该方法中:所述网页内容分类器利用逻辑回归分类算法计算该特征向量的内容类型倾向值。7.根据权利要求1所述的网页类型识别方法,其特征在于,所述提取该网页的网页结构特征具体包括:建立该网页的文档对象模型DOM树;从所述DOM树中提取网页结构特征。8.根据权利要求7所述的网页类型识别方法,其特征在于,所述网页结构特征包括以下信息中的至少一个:二级导航信息;文字链接比;统一资源定位符URL;网页标题;最大文本长度;或最...

【专利技术属性】
技术研发人员:蔡兵彭默徐羽
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1