数据处理方法及装置制造方法及图纸

技术编号:15542058 阅读:55 留言:0更新日期:2017-06-05 11:10
本发明专利技术公开了一种数据处理方法及装置,涉及信息技术领域,能够实现网页数据的分类。所述方法包括:获得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。本发明专利技术适用于数据的处理。

Data processing method and apparatus

The invention discloses a data processing method and a device, which relates to the field of information technology and can realize the classification of web page data. The method includes: obtaining data from the source column to climb; determine the path labels the source column corresponding to the path; the path is divided into hierarchical structure; according to the hierarchical structure, the path labels and the crawling data association. The invention is suitable for data processing.

【技术实现步骤摘要】
数据处理方法及装置
本专利技术涉及信息
,尤其涉及一种数据处理方法及装置。
技术介绍
随着信息技术的不断发展,各种各样的网页已成为大量信息的载体,有效地提取并利用网页信息已成为一个巨大的挑战。目前,主要通过网络爬虫提取或者爬取网页数据。其中,所述网络爬虫又称为网页蜘蛛,是一种按照一定规则,自动爬取网页数据的程序或者脚本。此外,将爬取的大量网页数据进行分类已成为了热点问题。网页数据的分类对后续数据的分析和处理有着重要的意义。然而,目前通过网络爬虫只能爬取网页数据,无法对网页数据进行分类。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。依据本专利技术的一个方面,本专利技术提出了一种数据处理方法,包括:获得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。依据本专利技术的另一个方面,本专利技术提出了一种数据处理装置,包括:获取单元,用于获得爬取数据的信源栏目;确定单元,用于确定所述信源栏目对应路径的路径标签;划分单元,用于对所述路径划分为层级结构;关联单元,用于根据所述层级结构,将所述路径标签与所述爬取数据进行关联。借由上述技术方案,本专利技术提供的一种数据处理方法及装置。首先获得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。与目前过网络爬虫只能爬取网页数据相比,本专利技术实施例通过将爬取数据的所述信源栏目对应路径的路径标签与所述爬取数据进行关联,能够实现网页数据的分类。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种数据处理方法的流程图;图2示出了本专利技术实施例提供的另一种数据处理方法的流程图;图3示出了本专利技术实施例提供的一种数据处理装置的结构示意图;图4示出了本专利技术实施例提供的一种数据处理装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种数据处理方法,如图1所示,该方法包括:101、获得爬取数据的信源栏目。其中,一个网页中通常会显示多个栏目的数据内容,爬取数据的信源栏目为爬取数据的来源栏目,如新浪首页通常会显示新闻栏目的数据、军事栏目的数据、财经栏目的数据,此时,爬取数据的信源栏目可以为新浪-新闻栏目、新浪-军事栏目、新浪-财经栏目等。102、确定信源栏目对应路径的路径标签。其中,所述信源栏目对应路径可以为爬虫服务器在爬取网页数据时,记录的路径标签。例如,网页数据A为新浪首页上的数据,网页数据A的信源栏目为军事栏目,爬虫服务器在爬取网页数据时,会记录网页数据A的信源栏目对应路径为“http://www.sina.com.cn/”-“http://finance.sina.com.cn/review/mspl/20151118/082623792665.shtml”,以及路径对应的路径标签“新浪首页”和“新浪-军事栏目”。103、对信源栏目对应路径划分为层级结构。例如,若网页数据A的信源栏目对应的路径为:“http://www.sina.com.cn/”-“http://finance.sina.com.cn/review/mspl/20151118/082623792665.shtml”,则将网页数据A的信源栏目对应的路径划分为:“http://www.sina.com.cn/”和“http://finance.sina.com.cn/review/mspl/20151118/082623792665.shtml”,然后将划分后:“http://finance.sina.com.cn/review/mspl/20151118/082623792665.shtml”的路径标签“新浪-军事栏目”和网页数据A进行关联,即将“新浪-军事栏目”作为网页数据A的标签。104、根据层级结构,将信源栏目对应路径的路径标签与爬取数据进行关联。例如,若网页数据A和B的标签均为“新浪-军事栏目”,则将网页数据A和B归为一类;若网页数据C和D的标签为“新浪-财经栏目”,则将网页数据C和D归为一类。在此仅对网页数据分类的方式进行举例,具体对网页数据的分类方式不做限定。对于本专利技术实施例,通过将爬取数据的所述信源栏目对应路径的路径标签与所述爬取数据进行关联,能够实现网页数据的分类。本专利技术实施例提供的一种数据处理方法。首先获得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。与目前过网络爬虫只能爬取网页数据相比,本专利技术实施例通过将爬取数据的所述信源栏目对应路径的路径标签与所述爬取数据进行关联,能够实现网页数据的分类。本专利技术实施例提供了另一种数据处理方法,如图2所示,该方法包括:201、获得爬取数据的信源栏目。其中,一个网页中通常会显示多个栏目的数据内容,爬取数据的信源栏目为爬取数据的来源栏目。202、根据信源栏目,从预置存储位置查询与信源栏目对应路径的路径标签。其中,所述预置存储位置保存有不同的信源栏目以及与所述信源栏目对应的路径标签。所述预置存储位置可以为预置存储表,也可以为预置数据库,本专利技术实施例。若所述预置存储位置为预置存储表,预置存储表的存储形式具体可以如表1:信源栏目信源栏目对应路径的路径标签军事栏目“新浪首页”-“新浪-军事栏目”财经栏目“新浪首页”-“新浪-财经栏目”军事栏目“新浪首页”-“新浪-军事栏目”新闻栏目“新浪首页”-“新浪-新闻栏目”例如,爬取的网页数据A为新浪首页上的数据,网页数据A的信源栏目为军事栏目,则根据军事栏目可以查询到军事栏目对应路径的路径标签为“新浪首页”-“新浪-军事栏目”。对于本专利技术实施例,在所述预置存储位置保存有不同的信源栏目以及与所述信源栏目对应路径的路径标签:接收爬虫服务器发送的不同信源栏目以及与所述信源栏目对应路径的路径标签;将所述信源栏目以及与所述信源栏目对应路径的路径标签保存在所述预置存储位置中。203、对信源栏目对应路径划分为层级结构。204、根据层级结构,将信源栏目对应路径的路径标签与爬取数据进行关联。对于本专利技术实施例,步骤204具体可以为:根据所述层级结构,将所述路径标签配置为所述爬取数据的标签。需要说明的是,可以根据爬取数据的标签对爬取数据进行分类。例如,若网页数据A和B的标签均为“新浪-新闻栏目”,则将网页数据A和B归为一类;若网页数据C和D的标签为“新浪-科技栏目”,则将网页数据C和D归为一类。在此仅对网页数据分类的方式进行举例,具体对网页数据的分类方式不做限定。对于本专利技术实施例本文档来自技高网...
数据处理方法及装置

【技术保护点】
一种数据处理方法,其特征在于,包括:获得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。2.根据权利要求1所述的数据处理方法,其特征在于,所述确定所述信源栏目对应路径的路径标签包括:根据所述信源栏目,从预置存储位置查询与所述信源栏目对应路径的路径标签,其中,所述预置存储位置保存有不同的信源栏目以及与所述信源栏目对应路径的路径标签。3.根据权利要求2所述的数据处理方法,其特征在于,包括:在所述预置存储位置保存有不同的信源栏目以及与所述信源栏目对应路径的路径标签包括:接收爬虫服务器发送的不同信源栏目以及与所述信源栏目对应路径的路径标签;将所述信源栏目以及与所述信源栏目对应路径的路径标签保存在所述预置存储位置中。4.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述层级结构,将所述路径标签与所述爬取数据进行关联包括:根据所述层级结构,将所述路径标签配置为所述爬取数据的标签。5.根据权利要求1所述的数据处理方法,其特征在于,包括:所述根据所述层级结构,将所述路径标签与所述爬取数据进行关联之后,还包括:输出提示信息,其中,所述提示信息...

【专利技术属性】
技术研发人员:刘嘉钦滨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1