网页信息提取方法和装置制造方法及图纸

技术编号:18668180 阅读:18 留言:0更新日期:2018-08-14 20:37
本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。

Web page information extraction method and device

This application proposes a method and device for extracting web page information, which includes: obtaining the source code and visual information of the web page to be extracted; determining the block information of the web page to be extracted according to the source code and visual information; clustering the block information to extract the structured information of the web page to be extracted. . This method can extract more effective information, and then display more effective information in limited space, improve the display efficiency and reduce costs.

【技术实现步骤摘要】
网页信息提取方法和装置
本申请涉及互联网
,尤其涉及一种网页信息提取方法和装置。
技术介绍
当前互联网已成为信息传递的主要载体。由于网页上能够展示的信息是有限的,为了提高展示效率和降低成本,需要解决在众多信息中提取更有效信息的问题。例如,需要在网页上投放广告时,如何在广告主网站中提取有效信息是亟待解决的问题。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种网页信息提取方法,该方法可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。本申请的另一个目的在于提出一种网页信息提取装置。为达到上述目的,本申请第一方面实施例提出的网页信息提取方法,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。本申请第一方面实施例提出的网页信息提取方法,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。为达到上述目的,本申请第二方面实施例提出的网页信息提取装置,包括:获取模块,用于获取待提取网页的源代码和视觉信息;确定模块,用于根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;提取模块,用于对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。本申请第二方面实施例提出的网页信息提取装置,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。本申请实施例还提出了一种非易失性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例提出的网页信息提取方法的流程示意图;图2是本申请另一个实施例提出的网页信息提取方法的流程示意图;图3是本申请实施例中一种待提取网页的示意图;图4是本申请实施例中一种展示结构化信息的示意图;图5是本申请一个实施例提出的网页信息提取装置的结构示意图;图6是本申请另一个实施例提出的网页信息提取装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本申请一个实施例提出的网页信息提取方法的流程示意图。如图1所示,本实施例的方法包括:S11:获取待提取网页的源代码和视觉信息。其中,可以根据需求确定待提取网页,例如,用户在输入查询(query)后,将查询相关的网页作为待提取网页。以待提取网页是一个广告主网站提供的广告页面为例,则可以获取该广告页面的源代码和视觉信息。具体的,可以根据广告页面的统一资源定位符(UniformResourceLocator,URL)获取到广告页面的超文本标记语言(HyperTextMark-upLanguage,HTML)源代码。网页的视觉信息是呈现给用户的视觉上的感知信息,例如,背景颜色、字体颜色和大小、边框、逻辑块之间的间距等,可以使用浏览器渲染工具获取到视觉信息。S12:根据所述源代码和视觉信息,确定所述待提取网页中的区块信息。在很多网页中,为了使得网页内容更清晰,可以将网页上的内容划分成不同的部分,这些不同的部分可以称为区块,一般来讲,可以将同一主题的内容放置在同一个区块中进行展示。相应的,可以将区块的类别或大小等属性作为区块信息。具体的,区块信息例如包括:导航区、正文区、HTML标签、区块大小、图片大小等信息。通过对源代码和视觉信息进行分析,可以确定出需要获取的区块信息。其中,可以对源代码和视觉信息进行聚类以获取到区块信息,具体的聚类算法不限定,可以根据需要设置。S13:对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。其中,结构化信息是指网页正文中的一些具有规律性的内容,比如,区分出正文中的图片、文本、视频等,还可以对上述信息进一步划分,比如根据文本区分出标题、类别(如财经、体育、医疗等)、摘要等。本实施例中,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。另外,通过获取区块信息并进行聚类,可以自动完成结构化信息的提取,不需要根据每个网站配置模板,能够大规模提取结构化信息。图2是本申请另一个实施例提出的网页信息提取方法的流程示意图。本实施例以在搜索引擎的结果页中展示结构化信息为例。如图2所示,本实施例的方法包括:S21:接收用户的查询。例如,用户在搜索引擎的搜索框中输入查询(query)。S22:获取与所述查询相关的网页,将与所述查询相关的网页作为待提取网页。例如,搜索引擎可以在数据库中获取在互联网上抓取到与query相关的网页,并将与query相关的网页作为待提取网页。S23:获取待提取网页的源代码和视觉信息。以待提取网页是一个广告主网站提供的广告页面为例,则可以获取该广告页面的源代码和视觉信息。具体的,可以根据广告页面的统一资源定位符(UniformResourceLocator,URL)获取到广告页面的超文本标记语言(HyperTextMark-upLanguage,HTML)源代码。网页的视觉信息是呈现给用户的视觉上的感知信息,例如,背景颜色、字体颜色和大小、边框、逻辑块之间的间距等,可以使用浏览器渲染工具获取到视觉信息。S24:根据所述源代码和视觉信息,确定所述待提取网页中的区块信息。在很多网页中,为了使得网页内容更清晰,可以将网页上的内容划分成不同的部分,这些不同的部分可以称为区块,一般来讲,可以将同一主题的内容放置在同一个区块中进行展示。相应的,可以将区块的类别或大小等属性作为区块信息。具体的,区块信息例如包括:导航区、正文区、HTML标签、区块大小、图片大小等信息。通过对源代码和视觉信息进行分析,可以确定出需要获取的区块信息。其中,可以对源代码和视觉信息进行聚类以获取到区块信息,具体的聚类算法不限定,可以根据需要设置。S25:对所述区块信息进行聚类,提取所述待提取网本文档来自技高网...

【技术保护点】
1.一种网页信息提取方法,其特征在于,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

【技术特征摘要】
1.一种网页信息提取方法,其特征在于,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。2.根据权利要求1所述的方法,其特征在于,还包括:接收用户的查询;获取与所述查询相关的网页,将与所述查询相关的网页作为待提取网页。3.根据权利要求2所述的方法,其特征在于,还包括:在搜索结果页面中,展示所述待提取网页的结构化信息。4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待提取网页的源代码,包括:根据待提取网页的URL,获取待提取网页的源代码。5.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待提取网页的视觉信息,包括:根据浏览器渲染工具,获取待提取网页的视觉信息。6.根据权利要求1-3任一项所述的方法,其特征在于,所述视觉信息包括:呈现给用户的视觉上的感知信息。7.根据权利要求1-3任一项所述的方法,其特征在于,所述区块信息包括:网页上不同部分的内容的信息。8.根据权利要求1-3任一项所述的方法,其特征在于,所述结构化信息包括:网页正文中具有规律性的内容。9.一种网页信息提取装置,其特征在于,包括:获取模块,用于获取待提取网页的源代码和视觉信息;确定模块,用于根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;提取模块,用于对所述区块信息进行聚类,提取所述待提取网页中的结构化...

【专利技术属性】
技术研发人员:徐培治刘晓春秦首科马小林张泽明韩友马飞超江焱闵思文游斌
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1