The embodiment of the present invention discloses a method, device, electronic device and storage medium for extracting structured data. The method includes obtaining at least one information source to be parsed corresponding to the current information source type, determining the current extraction template corresponding to the at least one information source to be parsed according to the current information source type, and extracting structured data from each information source through the current extraction template corresponding to the at least one information source to be parsed. It can not only improve the efficiency of structured data extraction, but also save the cost of structured data extraction.
【技术实现步骤摘要】
一种结构化数据的抽取方法、装置、电子设备及存储介质
本专利技术实施例涉及计算机
,尤其涉及一种结构化数据的抽取方法、装置、电子设备及存储介质。
技术介绍
在信息社会,数据可以被划分为两大类:一类数据是能够用数字或者统一的结构加以表示,这类数据被称之为结构化数据,如数字、符号等;结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。而另一类数据是无法用数字或者统一的结构加以表示,如文本、图像、声音、网页等,这类数据被称之为非结构化数据。知识图谱的构建、垂类产品的建设等都需要海量的结构化数据,而这些结构化数据绝大部分都是通过网页展示给用户的。现有的结构化数据的抽取方法包括以下两种:第一、通过商业运营的方式抽取;该方法要求信息源站点按照数据规范直接提供结构化数据。由于目前物联网上的站点很多,采用这种方法不能获取到所有的结构化数据,而且通过商业运营的方式抽取数据的成本很高。第二、通过编写程序的方式抽取。该方法采用人工方式针对每个信息源编写一个抽取程序,通过编写程序的方式抽取数据的效率很低,而且一旦信息源发生变化,修改抽取程序的代价也是比较高的。
技术实现思路
有鉴于此,本专利技术实施例提供一种结构化数据的抽取方法、装置、电子设备及存储介质,不仅可以提高结构化数据的抽取效率,还可以节省结构化数据的抽取成本。第一方面,本专利技术实施例提供了一种结构化数据的抽取方法,所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版; ...
【技术保护点】
1.一种结构化数据的抽取方法,其特征在于,所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。
【技术特征摘要】
1.一种结构化数据的抽取方法,其特征在于,所述方法包括:获取当前信息源类型对应的至少一个待解析信息源;根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版;通过所述至少一个待解析信息源对应的当前抽取模版抽取出各个待解析信息源中的结构化数据。2.根据权利要求1所述的方法,其特征在于,获取当前信息源类型对应的至少一个待解析信息源,包括:获取当前用户输入的所述至少一个待解析信息源的标识;根据所述至少一个待解析信息源的标识获取所述当前信息源类型对应的至少一个待解析信息源。3.根据权利要求2所述的方法,其特征在于,根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前抽取模版,包括:根据所述当前信息源类型在预先设置的模板库中查找所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中获取所述至少一个待解析信息源对应的当前抽取模版;若在所述预先设置的模板库中未查找到所述至少一个待解析信息源对应的当前抽取模版,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。4.根据权利要求3所述的方法,其特征在于,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版,包括:根据所述当前信息源类型确定所述至少一个待解析信息源对应的当前模板结构;获取所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息;根据所述当前模板结构对应的配置节点以及所述配置节点对应的属性信息,在所述预先设置的模板库中创建所述至少一个待解析信息源对应的当前抽取模版。5.根据权利要求4所述的方法,其特征在于,所述配置节点包括:定义define节点、定位locate节点、动作action节点和条件if节点;所述define节点对应的属性信息至少包括:默认属性信息;所述locate节点对应的属性信息至少包括:路径path属性信息和定位类型locate_type属性信息;所述action节点对应的属性信息至少包括:动作类型action_type属性信息和名称name属性信息;所述if节点对应的属性信息至少包括:节点测试node_test属性信息、节点路径的正则表达式的属性信息和对象属性信息。6.一种结构化数据的抽取装置,其特征在于,所述装置包括:获取模块、确定模块和抽取模块;其中,所述获取模块,用于获取当前信息源类型对应的至少一个待解析信息源;所...
【专利技术属性】
技术研发人员:江涛,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。