一种基于本体思想的网页信息提取方法技术

技术编号:13989681 阅读:80 留言:0更新日期:2016-11-13 15:19
本发明专利技术公开了一种基于本体思想的网页信息提取方法,该方法采用向量空间模型,首先对网页分词结果进行分析得出特征词,其次计算特征权值,然后结合本体思想分析网页的主题相关度,最后采取主题相关度与系统设定的阈值进行比较,从而提取该网页的主题信息。此方法使网页分析的运算量降低,减少网页信息的遗漏,提高了信息提取的质量。

【技术实现步骤摘要】

本专利技术属于网络方法领域,更具体地说,本专利技术涉及一种基于本体思想的网页信息提取方法
技术介绍
随着互联网的飞速发展,Web上的网页数目正以指数级的爆炸性趋势增长。面对如此巨大的资源,在Web上检索及发现有价值的信息已成为一项重要的任务。基于Web的研究涉及信息检索、信息过滤、信息抽取、搜索引擎、网页分类等,它们研究处理的主要对象就是网页信息。在网页中除了表达主题的正文内容外,还有与主题内容无关的导航条、广告信息、版权信息以及相关链接等噪音内容。
技术实现思路
本专利技术所要解决的问题是提供一种基于本体思想的网页信息提取方法。为了实现上述目的,本专利技术采取的技术方案为:一种基于本体思想的网页信息提取方法,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本;(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较。优选的,所述步骤(1)中主题爬虫的实现过程分为:①训练集的选取;②由训练集得到各主题类别间的转移概率和主题分类器;③利用基于视觉特征的VIPS算法将网页分块;④在网页块的基础上预测块中URL的访问优先级。优选的,所述步骤(1)中主题爬虫确定该网页中的URL访问的优先级步骤为:①利用URL串自身携带的信息确定URL的权重;②利用URL串的锚文本信息确定URL的权重;③对于网页块中剩下的普通的URL,首先利用网页块内容信息根据分类器判断该网页块所属主题q,然后将这些普通的URL的权重赋值为网页块与q的相似度和q到目标主题的转移概率的乘积;④将网页块中的URL根据其对应的权重值的高低插入待爬行队列中,权重值高的URL优先爬行。优选的,所述步骤②主题分类器的构建包括如下步骤:1)特征词的选取;2)类中心向量的各个分量的权重;3)确定待分类的网页块所属的主题类别;4)计算下载的网页与主题类别的相似度。优选的,所述步骤(3)中权值计算还应结合词语频率、逆向文件频率和归一化因子。优选的,所述步骤(5)中若主题相关度大于系统设置的阈值,则保留此网页,若主题相关度小于系统设置的阈值,则进行舍弃。有益效果:本专利技术提供了一种基于本体思想的网页信息提取方法,该方法采用向量空间模型,首先对网页分词结果进行分析得出特征词,其次计算特征权值,然后结合本体思想分析网页的主题相关度,最后采取主题相关度与系统设定的阈值进行比较,从而提取该网页的主题信息。此方法使网页分析的运算量降低,减少网页信息的遗漏,提高了信息提取的质量。具体实施方式图1为一种基于本体思想的网页信息提取方法的流程图;一种基于本体思想的网页信息提取方法,其特征在于,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本,主题爬虫的实现过程分为:①训练集的选取;②由训练集得到各主题类别间的转移概率和主题分类器,所述主题分类器的构建包括如下步骤:1)特征词的选取;2)类中心向量的各个分量的权重;3)确定待分类的网页块所属的主题类别;4)计算下载的网页与主题类别的相似度;③利用基于视觉特征的VIPS算法将网页分块;④在网页块的基础上预测块中URL的访问优先级;所述主题爬虫确定该网页中的URL访问的优先级步骤为:①利用URL串自身携带的信息确定URL的权重;②利用URL串的锚文本信息确定URL的权重;③对于网页块中剩下的普通的URL,首先利用网页块内容信息根据分类器判断该网页块所属主题q,然后将这些普通的URL的权重赋值为网页块与q的相似度和q到目标主题的转移概率的乘积;④将网页块中的URL根据其对应的权重值的高低插入待爬行队列中,权重值高的URL优先爬行(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,权值计算还应结合词语频率、逆向文件频率和归一化因子,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较,若主题相关度大于系统设置的阈值,则保留此网页,若主题相关度小于系统设置的阈值,则进行舍弃。本专利技术提供了一种基于本体思想的网页信息提取方法,该方法采用向量空间模型,首先对网页分词结果进行分析得出特征词,其次计算特征权值,然后结合本体思想分析网页的主题相关度,最后采取主题相关度与系统设定的阈值进行比较,从而提取该网页的主题信息。此方法使网页分析的运算量降低,减少网页信息的遗漏,提高了信息提取的质量。以上所述仅为本专利技术的实施例,并非因此限制本专利技术的专利范围,凡是利用本专利技术说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
,均同理包括在本专利技术的专利保护范围内。本文档来自技高网
...

【技术保护点】
一种基于本体思想的网页信息提取方法,其特征在于,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本;(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较。

【技术特征摘要】
1.一种基于本体思想的网页信息提取方法,其特征在于,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本;(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较。2.按照权利要求1所述的一种基于本体思想的网页信息提取方法,其特征在于:所述步骤(1)中主题爬虫的实现过程分为:①训练集的选取;②由训练集得到各主题类别间的转移概率和主题分类器;③利用基于视觉特征的VIPS算法将网页分块;④在网页块的基础上预测块中URL的访问优先级。3.按照权利要求1所述的一种基于本体思想的网页信息提取方法,其特征在于:所述步骤(1...

【专利技术属性】
技术研发人员:董雄飞
申请(专利权)人:合肥酷睿网络科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1