用于抽取信息的方法和装置制造方法及图纸

技术编号:23933132 阅读:36 留言:0更新日期:2020-04-25 02:11
本申请实施例公开了用于抽取信息的方法和装置。该方法的一具体实施方式包括:接收待抽取网页的统一资源定位符;基于待抽取网页的统一资源定位符,获取待抽取网页的同步渲染页面和异步请求结果页面;对待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到待抽取网页的结构化数据。该实施方式通过结合同步渲染页面和异步请求结果页面进行信息抽取,保证了提取信息的完整性,从而提高了抽取信息的准确度。

Methods and devices for extracting information

【技术实现步骤摘要】
用于抽取信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于抽取信息的方法和装置。
技术介绍
随着互联网的普及,越来越多的信息以网页的形式出现在人们面前。为了帮助人们在海量信息中迅速找到真正所需要的信息,应对信息爆炸带来的严峻挑战,迫切需要借助计算机帮助人们从这些数据中准确提取出有用的信息。网络信息抽取是以网络作为信息来源的信息抽取方式,从网页的无结构或半结构信息中抽取用户感兴趣的内容,转化为易于阅读和理解的格式,是信息能够被进一步分析和处理的基础。目前,网络信息抽取技术是对网页的同步渲染页面进行解析抽取的,普遍采用如下4种方案:其一,基于包装器等内容抽取算法,预先针对一种特定的网页信息源通过已有编程语言配置抽取规则,这些包装器使用的技术可以包括但不限于正则表达式、Xpath(可扩展标记语言路径语言)等。然而包装器配置需要投入一定的人力成本,需要一定的相关领域专业知识,而且配置过程也较容易出错,导致抽取信息的准确度降低。其二,基于机器学习的内容抽取算法,主要是利用网页的结构、语言学等特征,在人工标注的数据集上进本文档来自技高网...

【技术保护点】
1.一种用于抽取信息的方法,包括:/n接收待抽取网页的统一资源定位符;/n基于所述待抽取网页的统一资源定位符,获取所述待抽取网页的同步渲染页面和异步请求结果页面;/n对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。/n

【技术特征摘要】
1.一种用于抽取信息的方法,包括:
接收待抽取网页的统一资源定位符;
基于所述待抽取网页的统一资源定位符,获取所述待抽取网页的同步渲染页面和异步请求结果页面;
对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。


2.根据权利要求1所述的方法,其中,所述对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据,包括:
确定所述待抽取网页所属的网站对应的抽取模板;
基于所述待抽取网页所属的网站对应的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。


3.根据权利要求2所述的方法,其中,在所述基于所述待抽取网页所属的网站对应的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据之后,还包括:
对所述待抽取网页的结构化数据进行准确性校验,得到准确性校验结果;
基于所述准确性校验结果确定是否对所述待抽取网页所属的网站对应的抽取模板重新配置。


4.根据权利要求3所述的方法,其中,所述方法还包括:
若通过准确性校验,将所述待抽取网页的结构化数据存储在抽取结果数据库中;
若未通过准确性校验,获取所述待抽取网页所属的网站对应的重新配置的抽取模板,基于所述重新配置的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的最新结构化数据,以及将所述待抽取网页的最新结构化数据存储在所述抽取结果数据库中。


5.根据权利要求3所述的方法,其中,准确性校验包括以下至少一项:
校验是否提取到数据;
校验提取到的数据的类型是否正确;
校验抽取到的数据的编码格式是否正确;
校验网页的原始数据和抽取到的数据的匹配度。


6.根据权利要求2所述的方法,其中,抽取模板是终端设备通过如下步骤配置的:
对同一网站的模板网页的模板同步渲染页面和模板异步请求结果页面,以及配置调试页面分区显示;
响应于选取所述模板同步渲染页面和/或模板异步请求结果页面的至少部分区域,将所选取的区域中的内容在所述配置调试页面中进行展示;
响应于选取所述配置调试页面中的字段,基于所选取的字段对所述展示内容进行抽取,生成该网站对应的抽取模板。


7.根据权利要求1-6之一所述的方法,其中,所述待抽取网页包括一个同步渲染页面和多个异步请求结果页面,所述待抽取网页的同步渲染页面是HTML页面,所述待抽取网页的异步请求结果页面是JSON页面。


8.一种用于抽取信息的装置,包括:
接收单元,被配置成接收待抽取网页的统一资源定位符;
获取单元,被配置成基于所述待抽取网页的统一资源定位符,获取所述待抽取网...

【专利技术属性】
技术研发人员:李雨航张玉龙
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1