This application proposes a method and device for extracting web page information, which includes: obtaining the source code and visual information of the web page to be extracted; determining the block information of the web page to be extracted according to the source code and visual information; clustering the block information to extract the structured information of the web page to be extracted. . This method can extract more effective information, and then display more effective information in limited space, improve the display efficiency and reduce costs.
【技术实现步骤摘要】
网页信息提取方法和装置
本申请涉及互联网
,尤其涉及一种网页信息提取方法和装置。
技术介绍
当前互联网已成为信息传递的主要载体。由于网页上能够展示的信息是有限的,为了提高展示效率和降低成本,需要解决在众多信息中提取更有效信息的问题。例如,需要在网页上投放广告时,如何在广告主网站中提取有效信息是亟待解决的问题。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种网页信息提取方法,该方法可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。本申请的另一个目的在于提出一种网页信息提取装置。为达到上述目的,本申请第一方面实施例提出的网页信息提取方法,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。本申请第一方面实施例提出的网页信息提取方法,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。为达到上述目的,本申请第二方面实施例提出的网页信息提取装置,包括:获取模块,用于获取待提取网页的源代码和视觉信息;确定模块,用于根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;提取模块,用于对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。本申请第二方面实施例提出的网页信息提取装置,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有 ...
【技术保护点】
1.一种网页信息提取方法,其特征在于,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。
【技术特征摘要】
1.一种网页信息提取方法,其特征在于,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。2.根据权利要求1所述的方法,其特征在于,还包括:接收用户的查询;获取与所述查询相关的网页,将与所述查询相关的网页作为待提取网页。3.根据权利要求2所述的方法,其特征在于,还包括:在搜索结果页面中,展示所述待提取网页的结构化信息。4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待提取网页的源代码,包括:根据待提取网页的URL,获取待提取网页的源代码。5.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待提取网页的视觉信息,包括:根据浏览器渲染工具,获取待提取网页的视觉信息。6.根据权利要求1-3任一项所述的方法,其特征在于,所述视觉信息包括:呈现给用户的视觉上的感知信息。7.根据权利要求1-3任一项所述的方法,其特征在于,所述区块信息包括:网页上不同部分的内容的信息。8.根据权利要求1-3任一项所述的方法,其特征在于,所述结构化信息包括:网页正文中具有规律性的内容。9.一种网页信息提取装置,其特征在于,包括:获取模块,用于获取待提取网页的源代码和视觉信息;确定模块,用于根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;提取模块,用于对所述区块信息进行聚类,提取所述待提取网页中的结构化...
【专利技术属性】
技术研发人员:徐培治,刘晓春,秦首科,马小林,张泽明,韩友,马飞超,江焱,闵思文,游斌,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。