一种互联网网页清洗方法、系统及设备技术方案

技术编号:2826129 阅读:294 留言:0更新日期:2012-04-11 18:40
本发明专利技术适用于互联网信息处理领域,提供了一种互联网网页清洗方法、系统及设备,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明专利技术可以实现任意网页的清洗,清洗准确率高,可以应用于移动终端浏览、搜索引擎、面向主题的信息收集、自动信息提取和垂直搜索等方面。

【技术实现步骤摘要】

本专利技术属于互联网信息处理领域,尤其涉及一种互联网网页清洗方法、系统及设备
技术介绍
随着互联网的快速发展,Web已经成为信息发布和信息共享的基础平台,其中以HTML格式的Web网页是主要的信息载体。目前,Web网页已经从最初的手工编辑的静态网页发展成为由数据库和模板生成的动态网页,Web网页中包含的内容也越来越复杂,除了正文内容外,还包含广告、标语、导航信息、版权信息等噪声信息。网页清洗类似于数据挖掘中的数据清洗,通过Web挖掘和机器学习技术将Web网页的数据进行清洗、净化,提取有用的信息,去除噪声信息。网页清洗可以为搜索引擎、移动电话浏览、Web信息提取和信息收集等应用的提供基础。在互联网搜索中,在去除广告等噪声信息基础上建立的索引可以有效地提高搜索的准确率;通过仅将页面中的正文信息块或片段显示出来,而忽略广告、导航链接等其它的信息块,为移动用户移动电话浏览提供更好的用户体验;在Web信息提取中,只有去掉网页的噪声信息,才能更好的提取出所需要的结构化和纯文本信息,从而为自然语言处理、分类、聚类和文摘等系统提供文本资源。在面向主题的信息收集,通过判断哪些信息块与指定的主题相关本文档来自技高网...

【技术保护点】
一种互联网网页清洗方法,其特征在于,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。

【技术特征摘要】
1、一种互联网网页清洗方法,其特征在于,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。2、如权利要求1所述的方法,其特征在于,在对输入的网页进行分析时,采用HTML网页语义定义标准进行上下文句法约束方式,实现网页标签内容的自动纠错。3、如权利要求1所述的方法,其特征在于,对输入的网页进行分类时采用决策树分类器实现。4、如权利要求3所述的方法,其特征在于,所述决策树分类器的输入判别特征包括文本个数信息、链接文本个数信息、文本语义信息,以及标签信息。5、如权利要求1、3或4所述的方法,其特征在于,所述网页类型根据网页的内部特征定义。6、如权利要求5所述的方法,其特征在于,所述网页类型包括内容型网页、多块文本型网页、索引型网页或者非明显特征型网页。7、如权利要求6所述的方法,其特征在于,当所述输入的网页为内容型网页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息的步骤具体为:统计有效的最大文本块,判断最大文本块是否是版权信息块,是则用次最大文本块或者包含p结点的文本块代替作为最大文本块;扩展最大文本块,利用上下文文本信息增益和文本增益和链接文本增益的比例特征去扩展所述最大文本块的结点;块内部分析,对所述最大文本块进行内部分析,去除其中的噪声信息;8、如权利要求6所述的方法,其特征在于,当所述输入的网页为多块文本型网页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息的步骤具体为:对输入的网页进行语义块分析,获取相应语义块;对于每个语义块分别获取文本块内容,合并后输出文本信息。9、如权利...

【专利技术属性】
技术研发人员:方高林郑全战
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1