一种结构化数据的抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21361211 阅读:42 留言:0更新日期:2019-06-15 09:18
本发明专利技术实施例公开了一种结构化数据的抽取方法、装置、电子设备及存储介质。所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。不仅可以提高结构化数据的抽取效率,还可以节省结构化数据的抽取成本。

A Structured Data Extraction Method, Device, Electronic Equipment and Storage Media

The embodiment of the present invention discloses a method, device, electronic device and storage medium for extracting structured data. The method includes obtaining at least one information source to be parsed corresponding to the current information source type, determining the current extraction template corresponding to the at least one information source to be parsed according to the current information source type, and extracting structured data from each information source through the current extraction template corresponding to the at least one information source to be parsed. It can not only improve the efficiency of structured data extraction, but also save the cost of structured data extraction.

【技术实现步骤摘要】
一种结构化数据的抽取方法、装置、电子设备及存储介质
本专利技术实施例涉及计算机
,尤其涉及一种结构化数据的抽取方法、装置、电子设备及存储介质。
技术介绍
在信息社会,数据可以被划分为两大类:一类数据是能够用数字或者统一的结构加以表示,这类数据被称之为结构化数据,如数字、符号等;结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。而另一类数据是无法用数字或者统一的结构加以表示,如文本、图像、声音、网页等,这类数据被称之为非结构化数据。知识图谱的构建、垂类产品的建设等都需要海量的结构化数据,而这些结构化数据绝大部分都是通过网页展示给用户的。现有的结构化数据的抽取方法包括以下两种:第一、通过商业运营的方式抽取;该方法要求信息源站点按照数据规范直接提供结构化数据。由于目前物联网上的站点很多,采用这种方法不能获取到所有的结构化数据,而且通过商业运营的方式抽取数据的成本很高。第二、通过编写程序的方式抽取。该方法采用人工方式针对每个信息源编写一个抽取程序,通过编写程序的方式抽取数据的效率很低,而且一旦信息源发生变化,修改抽取程序的代价也是比较高的。
技术实现思路
有鉴于此,本专利技术实施例提供一种结构化数据的抽取方法、装置、电子设备及存储介质,不仅可以提高结构化数据的抽取效率,还可以节省结构化数据的抽取成本。第一方面,本专利技术实施例提供了一种结构化数据的抽取方法,所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。在上述实施例中,所述获取当前信息源类型对应的至少一个待解析信息源,包括:获取当前用户输入的所述至少一个待解析信息源的标识;根据所述至少一个待解析信息源的标识获取所述当前信息源类型对应的至少一个待解析信息源。在上述实施例中,所述根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版,包括:根据所述当前信息源类型在预先设置的模板库中查找所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中获取所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中未查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。在上述实施例中,所述在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版,包括:根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前模板结构;获取所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息;根据所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。在上述实施例中,所述配置节点包括:定义define节点、定位locate节点、动作action节点和条件if节点;所述define节点对应的属性信息至少包括:默认属性信息;所述locate节点对应的属性信息至少包括:路径path属性信息和定位类型locate_type属性信息;所述action节点对应的属性信息至少包括:动作类型action_type属性信息和名称name属性信息;所述if节点对应的属性信息至少包括:节点测试node_test属性信息、节点路径的正则表达式的属性信息和对象属性信息。第二方面,本专利技术实施例提供了一种结构化数据的抽取装置,所述装置包括:获取模块、确定模块和抽取模块;其中,所述获取模块,用于获取当前信息源类型对应的至少一个待解析信息源;所述确定模块,用于根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;所述抽取模块,用于通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。在上述实施例中,所述获取模块,具体用于获取当前用户输入的所述至少一个待解析信息源的标识;根据所述至少一个待解析信息源的标识获取所述当前信息源类型对应的至少一个待解析信息源。在上述实施例中,所述确定模块包括:查找子模块和确定子模块;其中,所述查找子模块,用于根据所述当前信息源类型在预先设置的模板库中查找所述至少一个待解析信息源对应的当前抽取模版;所述确定子模块,用于若在所述预先设置的模板库中查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中获取所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中未查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。在上述实施例中,所述确定子模块,具体用于根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前模板结构;获取所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息;根据所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。在上述实施例中,所述配置节点包括:define节点、locate节点、action节点和if节点;所述define节点对应的属性信息至少包括:默认属性信息;所述locate节点对应的属性信息至少包括:path属性信息和locate_type属性信息;所述action节点对应的属性信息至少包括:action_type属性信息和name属性信息;所述if节点对应的属性信息至少包括:node_test属性信息、节点路径的正则表达式的属性信息和对象属性信息。第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的结构化数据的抽取方法。第四方面,本专利技术实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的结构化数据的抽取方法。本专利技术实施例提出了一种结构化数据的抽取方法、装置、电子设备及存储介质,先获取当前信息源类型对应的至少一个待解析信息源;然后根据当前信息源类型确定至少一个待解析信息源对应的当前抽取模版;再通过至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。也就是说,在本专利技术的技术方案中,可以根据当前信息源类型确定至少一个待解析信息源对应的当前抽取模版;从而可以通过至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。而在现有的结构化数据的抽取方法中,通过商业运营的方式抽取;该方法要求信息源站点按照数据规范直接提供结构化数据。由于目前物联网上的站点很多,采用这种方法不能获取到所有的结构化数据,而且通过商业运营的方式抽取数据的成本很高。或者,通过编写程序的方式抽取。该方法采用人工方式针对每个信息源编写一个抽取程序,通过编写程序的方式抽取数据的效率很低,而且一旦信息源发生变化,修改抽取程序的代价也是比较高的。本文档来自技高网...

【技术保护点】
1.一种结构化数据的抽取方法,其特征在于,所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。

【技术特征摘要】
1.一种结构化数据的抽取方法,其特征在于,所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。2.根据权利要求1所述的方法,其特征在于,获取当前信息源类型对应的至少一个待解析信息源,包括:获取当前用户输入的所述至少一个待解析信息源的标识;根据所述至少一个待解析信息源的标识获取所述当前信息源类型对应的至少一个待解析信息源。3.根据权利要求2所述的方法,其特征在于,根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版,包括:根据所述当前信息源类型在预先设置的模板库中查找所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中获取所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中未查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。4.根据权利要求3所述的方法,其特征在于,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版,包括:根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前模板结构;获取所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息;根据所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。5.根据权利要求4所述的方法,其特征在于,所述配置节点包括:定义define节点、定位locate节点、动作action节点和条件if节点;所述define节点对应的属性信息至少包括:默认属性信息;所述locate节点对应的属性信息至少包括:路径path属性信息和定位类型locate_type属性信息;所述action节点对应的属性信息至少包括:动作类型action_type属性信息和名称name属性信息;所述if节点对应的属性信息至少包括:节点测试node_test属性信息、节点路径的正则表达式的属性信息和对象属性信息。6.一种结构化数据的抽取装置,其特征在于,所述装置包括:获取模块、确定模块和抽取模块;其中,所述获取模块,用于获取当前信息源类型对应的至少一个待解析信息源;所...

【专利技术属性】
技术研发人员:江涛
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1