【技术实现步骤摘要】
一种基于网页分类和聚类的网页信息自动抽取方法
本专利技术涉及文本分析、信息检索领域,提供了一种基于网页分类和聚类的网页信息自动抽取方法。
技术介绍
网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。常见的网页抽取方法有:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。基于正则或CSS选择器(或xpath)的网页抽取都基于属于基于包装器(wrapper)的网页抽取,这类抽取算法的通病就在于,对于不同结构的网页,要制定不同的抽取规则。如果一个舆情系统需要监控10000个异构网站,就需要编写并维护10000套抽取规则。从2000年左右就开始有人研究如何用机器学习的方法,让程序在不需要人工制定规则的情况下从网页中提取所需的信息。从目前的科研成果看,基于机器学习的网页抽取的重心偏向于新闻网页内容自动抽取,即输入一个新闻网页,程序可以自动输出新闻的标题、正文、时间等信息。新闻、博客、百科类网站包含的结构化数据较为单一,基本都满足{标题,时间,正文}这种结构,抽取目标很明确,机器学 ...
【技术保护点】
1.一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下步骤:步骤一:分类,将待抽取的网页分成N个类别;步骤二:聚类,对每个类别中的网页,进行相似网页聚类;步骤三:网页信息抽取,对于聚类后的每个类别,生成抽取模板抽取网页信息。
【技术特征摘要】
1.一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下步骤:步骤一:分类,将待抽取的网页分成N个类别;步骤二:聚类,对每个类别中的网页,进行相似网页聚类;步骤三:网页信息抽取,对于聚类后的每个类别,生成抽取模板抽取网页信息。2.根据权利要求1所述的一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下步骤:步骤1.1对所有网页URL,按斜杠/或双斜杠//切分,得到k个URL特征向量;步骤1.2对于URL特征向量的最后一维,按照圆点切分,并用$替换连续数字,用%替换连续字母,加入到原来的URL特征向量中;步骤1.3从0开始拼接URL特征向量,生成网页类别。3.根据权利要求1所述的一种基于网页分类和聚类的网页信息自动抽取方法,其特征在于,包括以下...
【专利技术属性】
技术研发人员:张友书,陈思成,
申请(专利权)人:四川新网银行股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。