一种基于网页分类和聚类的网页信息自动抽取方法技术

技术编号:21060249 阅读:56 留言:0更新日期:2019-05-08 07:00
本发明专利技术涉及信息分析领域,提供了一种基于网页分类和聚类的网页信息自动抽取方法,主旨在于通过网页URL分类,大大降低聚类计算复杂度至0(N*k^2),n表示类别个数,k表示平均每个类别的网页数量,提升网页信息自动抽取的性能。主要方案包括:步骤一:分类,将待抽取的网页分成N个类别;步骤二:聚类,对每个类别中的网页,进行相似网页聚类;步骤三:网页信息抽取,对于聚类后的每个类别,生成抽取模板抽取网页信息。

An Automatic Extraction Method of Web Page Information Based on Web Page Classification and Clustering

【技术实现步骤摘要】
一种基于网页分类和聚类的网页信息自动抽取方法
本专利技术涉及文本分析、信息检索领域,提供了一种基于网页分类和聚类的网页信息自动抽取方法。
技术介绍
网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。常见的网页抽取方法有:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。基于正则或CSS选择器(或xpath)的网页抽取都基于属于基于包装器(wrapper)的网页抽取,这类抽取算法的通病就在于,对于不同结构的网页,要制定不同的抽取规则。如果一个舆情系统需要监控10000个异构网站,就需要编写并维护10000套抽取规则。从2000年左右就开始有人研究如何用机器学习的方法,让程序在不需要人工制定规则的情况下从网页中提取所需的信息。从目前的科研成果看,基于机器学习的网页抽取的重心偏向于新闻网页内容自动抽取,即输入一个新闻网页,程序可以自动输出新闻的标题、正文、时间等信息。新闻、博客、百科类网站包含的结构化数据较为单一,基本都满足{标题,时间,正文}这种结构,抽取目标很明确,机器学习算法也较好设计。但本文档来自技高网...

【技术保护点】
1.一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下步骤:步骤一:分类,将待抽取的网页分成N个类别;步骤二:聚类,对每个类别中的网页,进行相似网页聚类;步骤三:网页信息抽取,对于聚类后的每个类别,生成抽取模板抽取网页信息。

【技术特征摘要】
1.一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下步骤:步骤一:分类,将待抽取的网页分成N个类别;步骤二:聚类,对每个类别中的网页,进行相似网页聚类;步骤三:网页信息抽取,对于聚类后的每个类别,生成抽取模板抽取网页信息。2.根据权利要求1所述的一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下步骤:步骤1.1对所有网页URL,按斜杠/或双斜杠//切分,得到k个URL特征向量;步骤1.2对于URL特征向量的最后一维,按照圆点切分,并用$替换连续数字,用%替换连续字母,加入到原来的URL特征向量中;步骤1.3从0开始拼接URL特征向量,生成网页类别。3.根据权利要求1所述的一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下...

【专利技术属性】
技术研发人员:张友书陈思成
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1