【技术实现步骤摘要】
本专利技术属于网络方法领域,更具体地说,本专利技术涉及一种基于本体思想的网页信息提取方法。
技术介绍
随着互联网的飞速发展,Web上的网页数目正以指数级的爆炸性趋势增长。面对如此巨大的资源,在Web上检索及发现有价值的信息已成为一项重要的任务。基于Web的研究涉及信息检索、信息过滤、信息抽取、搜索引擎、网页分类等,它们研究处理的主要对象就是网页信息。在网页中除了表达主题的正文内容外,还有与主题内容无关的导航条、广告信息、版权信息以及相关链接等噪音内容。
技术实现思路
本专利技术所要解决的问题是提供一种基于本体思想的网页信息提取方法。为了实现上述目的,本专利技术采取的技术方案为:一种基于本体思想的网页信息提取方法,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本;(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较。优选的,所述步骤(1)中主题爬虫的实现过程分为:①训练集的选取;②由训练集得到各主题类别间的转移概率和主题分类器;③利用基于视觉特征的VIPS算法将网页分块;④在网页块的基础上预测块中URL的访问优先级。优 ...
【技术保护点】
一种基于本体思想的网页信息提取方法,其特征在于,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本;(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较。
【技术特征摘要】
1.一种基于本体思想的网页信息提取方法,其特征在于,包括如下步骤:(1)网页文档预处理将待抽取信息的网页作为信息源,主题爬虫对网页锚文本、网页标题、正文标题和正文以标签树的方式进行结构化分析,处理成网页文本;(2)本体化分类利用分词系统FreeICTCLAS的接口进行分词,并对词语进行本体化分类,同时得到特征词在文本中出现的频率;(3)权值计算根据向量空间模型,将每个网页文本抽象成一个向量,接着通过公式将文本的特征关键词所占的权值计算出来,所述公式为Wi=∑(Wt*Pt*Wi);(4)计算主题相关度根据主题相关度公式分析主题相关度;(5)分析主题相关度将计算得到的主题相关度与系统设置的阈值进行比较。2.按照权利要求1所述的一种基于本体思想的网页信息提取方法,其特征在于:所述步骤(1)中主题爬虫的实现过程分为:①训练集的选取;②由训练集得到各主题类别间的转移概率和主题分类器;③利用基于视觉特征的VIPS算法将网页分块;④在网页块的基础上预测块中URL的访问优先级。3.按照权利要求1所述的一种基于本体思想的网页信息提取方法,其特征在于:所述步骤(1...
【专利技术属性】
技术研发人员:董雄飞,
申请(专利权)人:合肥酷睿网络科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。