当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于组合特征的网页主题块识别方法技术

技术编号:16557233 阅读:179 留言:0更新日期:2017-11-14 16:48
本发明专利技术公开了一种基于组合特征的网页主题块识别方法,其对网页进行分块后,首先利用支持向量机根据网页块的视觉特征预测网页块是否为主题块,然后利用改进后的BM25算法计算每个网页块内容与主题的相关性权重值,将权重值与寻找的最佳阈值进行比较从而判断网页块是否为主题块,最后将这两种方式相结合,综合利用网页块的视觉特征和文本特征来判断其是否为主题块。这样在识别主题块时,同时考虑了其结构和内容,避免了采用单个特征可能存在的偏差,可以更加准确的识别出网页中与主题相关的内容。

A web page topic block recognition method based on combination feature

The invention discloses a combined feature of \theme block recognition method based on the web page into blocks, using support vector machine to predict whether the theme of\ block \block block according to the visual features, correlation is then calculated for each page block content and theme using BM25 algorithm improved the value of weight values are compared to judge whether the theme of\ block block and the optimal threshold for the final will be the combination of these two methods, the comprehensive utilization of visual features and text features of \block to determine whether the theme block. In this theme recognition block, considering its structure and content, which avoids the possible deviation of single feature, can be identified more accurately and topics related to the contents of a web page.

【技术实现步骤摘要】
一种基于组合特征的网页主题块识别方法
本专利技术属于Web信息抽取
,具体涉及一种基于组合特征的网页主题块识别方法。
技术介绍
飞速发展的互联网造就了如今信息爆炸的“大数据”时代,各行各业的研究工作都已经离不开“大数据”。Web页面作为传递“大数据”的重要媒介,包含的信息涵盖各行各业。但是Web信息中包含了大量的噪音信息,如广告、导航条等,这些噪音信息给Web信息的自动化挖掘与采集带来了困扰。所以如何快速准确的定位到页面中与主题相关的信息的位置且识别出主题信息是至关重要的。目前已有多种识别网页主题信息的方法,不管是对网页的结构进行分析还是对网页的文本内容进行分析来判断其是否为主题块都是有效的主题信息识别方法,但缺点是仅利用文本特征或视觉特征来识别主题信息可能存在一定的偏差。
技术实现思路
鉴于上述,本专利技术提供了一种基于组合特征的网页主题块识别方法,通过将网页块的文本特征和视觉特征进行结合,从多方面来判断其与主题的相关性,可以更加准确的识别出网页中与主题相关的内容。一种基于组合特征的网页主题块识别方法,包括如下步骤:(1)收集大量各类主题的网页,通过对网页结构进行分析,根据网页视本文档来自技高网...
一种基于组合特征的网页主题块识别方法

【技术保护点】
一种基于组合特征的网页主题块识别方法,包括如下步骤:(1)收集大量各类主题的网页,通过对网页结构进行分析,根据网页视觉特征对网页进行分块,将网页中不同的内容划分到不同的网页块中,将得到的所有网页块分为训练集和测试集;(2)提取网页块的视觉特征数据和文本特征数据,对网页块的视觉特征数据进行归一化处理,将数据归一化至0~1区间内,进而人工标注训练集中网页块的类别:0代表非主题块,1代表主题块;(3)根据训练集中已知类别的网页块的视觉特征数据,利用支持向量机进行训练并构建得到网页块的分类模型,进而利用分类模型识别测试集中的网页块是否为主题块;(4)通过对网页块的文本特征数据进行分析,计算网页块内容与...

【技术特征摘要】
1.一种基于组合特征的网页主题块识别方法,包括如下步骤:(1)收集大量各类主题的网页,通过对网页结构进行分析,根据网页视觉特征对网页进行分块,将网页中不同的内容划分到不同的网页块中,将得到的所有网页块分为训练集和测试集;(2)提取网页块的视觉特征数据和文本特征数据,对网页块的视觉特征数据进行归一化处理,将数据归一化至0~1区间内,进而人工标注训练集中网页块的类别:0代表非主题块,1代表主题块;(3)根据训练集中已知类别的网页块的视觉特征数据,利用支持向量机进行训练并构建得到网页块的分类模型,进而利用分类模型识别测试集中的网页块是否为主题块;(4)通过对网页块的文本特征数据进行分析,计算网页块内容与网页主题的相关性权重,进而根据相关性权重判定测试集中的网页块是否为主题块;(5)综合步骤(3)和步骤(4)的分类结果,重新判定网页块是否为主题块。2.根据权利要求1所述的网页主题块识别方法,其特征在于:所述步骤(1)中采用VIPS算法对网页进行分块。3.根据权利要求1所述的网页主题块识别方法,其特征在于:所述步骤(3)中利用支持向量机进行训练之前,将训练集中已知类别的网页块的视觉特征数据转换成支持向量机所要求的格式,从而建立数据集作为支持向量机模型训练的输入;所述数据集的每行代表一个网页块,每行的第一列为网页块的类别,其它列为网页块序号以及网页块的视觉特征数值。4.根据权利要求1所述的网页主题块识别方法,其特征在于:所述步骤(4)中计算网页块内容与网页主题相关性权重的具体方法为:首先根据网页块标题提取当前网页的关键词,对于当前网页中的任一网页块B,则通过以下公式计算其内容与网页主题的...

【专利技术属性】
技术研发人员:姜晓红张思付钊陈广杜定益吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1