一种基于网页分类和聚类的网页信息自动抽取方法技术

技术编号：21060249 阅读：56 留言：0更新日期：2019-05-08 07:00

本发明专利技术涉及信息分析领域，提供了一种基于网页分类和聚类的网页信息自动抽取方法，主旨在于通过网页URL分类，大大降低聚类计算复杂度至0(N*k^2)，n表示类别个数，k表示平均每个类别的网页数量，提升网页信息自动抽取的性能。主要方案包括：步骤一：分类，将待抽取的网页分成N个类别；步骤二：聚类，对每个类别中的网页，进行相似网页聚类；步骤三：网页信息抽取，对于聚类后的每个类别，生成抽取模板抽取网页信息。

An Automatic Extraction Method of Web Page Information Based on Web Page Classification and Clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网页分类和聚类的网页信息自动抽取方法
本专利技术涉及文本分析、信息检索领域，提供了一种基于网页分类和聚类的网页信息自动抽取方法。
技术介绍
网页抽取在大多数情况下，指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。常见的网页抽取方法有：基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。基于正则或CSS选择器(或xpath)的网页抽取都基于属于基于包装器(wrapper)的网页抽取，这类抽取算法的通病就在于，对于不同结构的网页，要制定不同的抽取规则。如果一个舆情系统需要监控10000个异构网站，就需要编写并维护10000套抽取规则。从2000年左右就开始有人研究如何用机器学习的方法，让程序在不需要人工制定规则的情况下从网页中提取所需的信息。从目前的科研成果看，基于机器学习的网页抽取的重心偏向于新闻网页内容自动抽取，即输入一个新闻网页，程序可以自动输出新闻的标题、正文、时间等信息。新闻、博客、百科类网站包含的结构化数据较为单一，基本都满足{标题，时间，正文}这种结构，抽取目标很明确，机器学...

【技术保护点】
1.一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于，包括以下步骤：步骤一：分类，将待抽取的网页分成N个类别；步骤二：聚类，对每个类别中的网页，进行相似网页聚类；步骤三：网页信息抽取，对于聚类后的每个类别，生成抽取模板抽取网页信息。

【技术特征摘要】
1.一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于，包括以下步骤：步骤一：分类，将待抽取的网页分成N个类别；步骤二：聚类，对每个类别中的网页，进行相似网页聚类；步骤三：网页信息抽取，对于聚类后的每个类别，生成抽取模板抽取网页信息。2.根据权利要求1所述的一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于，包括以下步骤：步骤1.1对所有网页URL，按斜杠/或双斜杠//切分，得到k个URL特征向量；步骤1.2对于URL特征向量的最后一维，按照圆点切分，并用$替换连续数字，用％替换连续字母，加入到原来的URL特征向量中；步骤1.3从0开始拼接URL特征向量，生成网页类别。3.根据权利要求1所述的一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于，包括以下...

【专利技术属性】
技术研发人员：张友书，陈思成，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人