一种数据处理方法和设备技术

技术编号:15910779 阅读:59 留言:0更新日期:2017-08-01 22:29
本发明专利技术公开了一种数据处理方法和装置,属于通信领域。所述方法包括:抓取目标网站的WEB页面;基于过滤规则集,对抓取的所述WEB页面进行过滤,其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则用于指示与网站类别有关的信息。通过本发明专利技术的方法,能够对抓取的页面进行有效过滤。

Data processing method and apparatus

The invention discloses a data processing method and a device, belonging to the field of communication. The method includes: grasping the target site of the WEB page; based on the filtering rules, filtering of the WEB web pages in which the filtering rules set includes a plurality of filtering rules, and each filtering rule contains classification rules, instructions and information for the relevant categories of website classification rules. The method of the invention can effectively filter the crawled pages.

【技术实现步骤摘要】
一种数据处理方法和设备
本专利技术涉及通信领域,特别涉及一种数据处理方法和设备。
技术介绍
近些年,包括互联网搜索系统、自动导航系统、自动问答系统、机器翻译系统、语音识别系统等在内的智能系统取得了巨大进展,其背后是更深、更广、更新和更加准确的知识库的构建和使用。在构建领域知识库的过程中,往往需要从各种网站抓取数据,并从中过滤掉那些与领域知识库构建无关的页面,进而再从剩下的相关页面中抽取想要的领域对象加入到领域知识库中,从而完成领域知识库的构建。在过滤那些与领域知识库构建无关的页面的过程中,相关技术会通过URL规则进行匹配的方式来过滤。但是现在很多网站的WEB页面通过URL规则无法进行有效的过滤,造成过滤后剩下的WEB页面中仍存在与领域知识库构建无关的页面。
技术实现思路
本专利技术实施例提供了一种数据处理的方法和设备,能够有效过滤无关的页面。第一方面,提供一种数据处理的方法,该方法可由各种不同的终端来执行,且可应用于对网络上各种数据的采集,包括但不限于领域知识库建立过程中的数据处理。所述方法可包括:抓取目标网站的WEB页面,其中所述目标网站可以为预先设定的执行抓取操作所针对的网站,例如目本文档来自技高网...
一种数据处理方法和设备

【技术保护点】
一种数据处理的方法,其特征在于,所述方法包括:抓取目标网站的WEB页面;基于过滤规则集,对抓取的所述WEB页面进行过滤;其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:抓取目标网站的WEB页面;基于过滤规则集,对抓取的所述WEB页面进行过滤;其中,所述过滤规则集包括若干条过滤规则,且每一条过滤规则包含分类规则,所述分类规则指示与网站类别有关的信息。2.根据权利要求1所述的方法,其特征在于,在所述抓取目标网站的WEB页面之后,所述方法还包括:解析所述WEB页面的面包屑信息以获取所述WEB页面的类别。3.根据权利要求2所述的方法,其特征在于,所述每一条过滤规则中还包括URL规则;所述基于过滤规则集,对抓取的所述WEB页面进行过滤包括:确定所述WEB页面的URL与所述过滤规则集中的一条或多条过滤规则中的URL规则匹配;根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤。4.根据权利要求3所述的方法,其特征在于,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤包括:确定所述一条或多条过滤规则中的分类规则对WEB页面的类别无要求;保留所述WEB页面。5.根据权利要求3所述的方法,其特征在于,所述根据所述一条或多条过滤规则中的分类规则对抓取的所述WEB页面进行过滤包括:确定所述WEB页面的类别与所述一条或多条过滤规则中至少一条过滤规则的分类规则匹配,保留抓取的所述WEB页面;或确定所述WEB页面的类别与所述一条或多条过滤规则中的分类规则都不匹配,丢弃抓取的所述WEB页面。6.根据权利要求1-5任一所述的方法,其特征在于,在所述对抓取的所述WEB页面进行过滤之后,所述方法还包括:根据预设的抽取逻辑,抽取过滤后的WEB页面的领域对象。7.一种数据处理的设备,其特征在于,所述设备包括:抓...

【专利技术属性】
技术研发人员:卢剑锋
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1