网页信息提取方法和装置制造方法及图纸

技术编号：18668180 阅读：18 留言：0更新日期：2018-08-14 20:37

本申请提出一种网页信息提取方法和装置，该方法包括：获取待提取网页的源代码和视觉信息；根据所述源代码和视觉信息，确定所述待提取网页中的区块信息；对所述区块信息进行聚类，提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息，进而可以在有限空间上展示更有效的信息，提高展示效率，降低成本。

Web page information extraction method and device

This application proposes a method and device for extracting web page information, which includes: obtaining the source code and visual information of the web page to be extracted; determining the block information of the web page to be extracted according to the source code and visual information; clustering the block information to extract the structured information of the web page to be extracted. . This method can extract more effective information, and then display more effective information in limited space, improve the display efficiency and reduce costs.

全部详细技术资料下载

【技术实现步骤摘要】
网页信息提取方法和装置
本申请涉及互联网
，尤其涉及一种网页信息提取方法和装置。
技术介绍
当前互联网已成为信息传递的主要载体。由于网页上能够展示的信息是有限的，为了提高展示效率和降低成本，需要解决在众多信息中提取更有效信息的问题。例如，需要在网页上投放广告时，如何在广告主网站中提取有效信息是亟待解决的问题。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的一个目的在于提出一种网页信息提取方法，该方法可以提取到更有效的信息，进而可以在有限空间上展示更有效的信息，提高展示效率，降低成本。本申请的另一个目的在于提出一种网页信息提取装置。为达到上述目的，本申请第一方面实施例提出的网页信息提取方法，包括：获取待提取网页的源代码和视觉信息；根据所述源代码和视觉信息，确定所述待提取网页中的区块信息；对所述区块信息进行聚类，提取所述待提取网页中的结构化信息。本申请第一方面实施例提出的网页信息提取方法，通过提取网页的结构化信息，由于结构化信息是网页正文中的规律性信息，因此可以提取到更有效的信息，进而可以在有限空间上展示更有效的信息，提高展示效率，降低成本。为达到上述目的，本申请第二方面实施例提出的网页信息提取装置，包括：获取模块，用于获取待提取网页的源代码和视觉信息；确定模块，用于根据所述源代码和视觉信息，确定所述待提取网页中的区块信息；提取模块，用于对所述区块信息进行聚类，提取所述待提取网页中的结构化信息。本申请第二方面实施例提出的网页信息提取装置，通过提取网页的结构化信息，由于结构化信息是网页正文中的规律性信息，因此可以提取到更有...

【技术保护点】
1.一种网页信息提取方法，其特征在于，包括：获取待提取网页的源代码和视觉信息；根据所述源代码和视觉信息，确定所述待提取网页中的区块信息；对所述区块信息进行聚类，提取所述待提取网页中的结构化信息。

【技术特征摘要】
1.一种网页信息提取方法，其特征在于，包括：获取待提取网页的源代码和视觉信息；根据所述源代码和视觉信息，确定所述待提取网页中的区块信息；对所述区块信息进行聚类，提取所述待提取网页中的结构化信息。2.根据权利要求1所述的方法，其特征在于，还包括：接收用户的查询；获取与所述查询相关的网页，将与所述查询相关的网页作为待提取网页。3.根据权利要求2所述的方法，其特征在于，还包括：在搜索结果页面中，展示所述待提取网页的结构化信息。4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取待提取网页的源代码，包括：根据待提取网页的URL，获取待提取网页的源代码。5.根据权利要求1-3任一项所述的方法，其特征在于，所述获取待提取网页的视觉信息，包括：根据浏览器渲染工具，获取待提取网页的视觉信息。6.根据权利要求1-3任一项所述的方法，其特征在于，所述视觉信息包括：呈现给用户的视觉上的感知信息。7.根据权利要求1-3任一项所述的方法，其特征在于，所述区块信息包括：网页上不同部分的内容的信息。8.根据权利要求1-3任一项所述的方法，其特征在于，所述结构化信息包括：网页正文中具有规律性的内容。9.一种网页信息提取装置，其特征在于，包括：获取模块，用于获取待提取网页的源代码和视觉信息；确定模块，用于根据所述源代码和视觉信息，确定所述待提取网页中的区块信息；提取模块，用于对所述区块信息进行聚类，提取所述待提取网页中的结构化...

【专利技术属性】
技术研发人员：徐培治，刘晓春，秦首科，马小林，张泽明，韩友，马飞超，江焱，闵思文，游斌，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人