实体关系数据的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:20329308 阅读:27 留言:0更新日期:2019-02-13 05:51
本发明专利技术实施例公开了一种实体关系数据的生成方法、装置、设备及存储介质。所述方法包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。通过本发明专利技术的技术方案,能够提高网页通用性,降低人力成本,提高实体关系数据的产出量。

【技术实现步骤摘要】
实体关系数据的生成方法、装置、设备及存储介质
本专利技术实施例涉及信息处理技术,尤其涉及一种实体关系数据的生成方法、装置、设备及存储介质。
技术介绍
实体关系数据,也被称作SPO三元组数据,是指实体pair(主体S-客体Opair)与他们之间的关系(P)构成的三元组。实体关系是知识图谱的关键组成部分,从知识图谱构建角度来看,实体关系挖掘可以丰富图谱中的关系知识,构建实体之间的关联关系;从产品应用角度,实体关系一方面可以直接满足用户对于知识类的搜索需求,例如搜索某个明星的妻子“×××妻子”时,可以通过实体关系数据直接给出答案,另外一方面还可以基于实体关系为用户推荐关联的知识,为用户提供信息扩展的阅读体验,例如搜索某个名人的名字“××”时,可以通过实体关系为用户推荐该名人相关的其他实体。现有技术中,实体关系挖掘主要通过以下两种方式来进行:其中,第一种方式是,针对百科类网站进行抽取。根据百科类网站有良好的结构,数据十分规范的特点,直接从百科类网站的信息盒或者属性表格(百科类网站的实体下用于描述实体属性的一种网页结构)中抽取实体关系。利用百科类网站结构简单稳定的特点,从待抽取的百科类站点中采样并标注几个典型页面,对这些页面通过模式学习算法自动构建出一个或多个以类xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现抽取。第二种方式是,针对网站生成包装器(模板)的抽取方法。通过分析需要抽取的网站的结构和HTML标签等信息,构造对应的包装器,使用这个包装器对该网页进行实体关系抽取。对于一般的有规律的页面,包装器通常依靠人工使用正则表达式的方式写出xpath和CSS选择器表达式来提取网页中的元素。现有技术的缺陷在于:第一种方式可以抽取的数据量少,且数据时效性不强;第二种方式的人工成本很高且通用性不强。
技术实现思路
本专利技术实施例提供一种实体关系数据的生成方法、装置、设备及存储介质,以实现提高网页通用性,降低人力成本,提高实体关系数据的产出量。第一方面,本专利技术实施例提供了一种实体关系数据的生成方法,包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。第二方面,本专利技术实施例还提供了一种实体关系数据的生成装置,该装置包括:源码获取模块,用于获取与目标网页对应的网页源码数据;键值块识别模块,用于在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;主体值识别模块,用于在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;数据生成模块,用于根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。第三方面,本专利技术实施例还提供了一种计算机设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一所述的实体关系数据的生成方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的实体关系数据的生成方法。本专利技术实施例通过获取与目标网页对应的网页源码数据,并识别该网页源码数据中包括的至少一个键值块以及各键值块对应的主体值,根据各键值块及其对应的主体值,生成与目标网页对应的实体关系数据,由于是从网页源码数据中识别实体关系,使得对网页类型、网页结构、站点等不受限制,且可以自动对网页进行实体关系数据的抽取,无需过多的人力维护,同时,在海量互联网网页中进行抽取可以获得规模庞大的实体关系数据,从而提高了网页通用性,降低了人力成本,提高了实体关系数据的产出量。附图说明图1a是本专利技术实施例一提供的一种实体关系数据的生成方法的流程示意图;图1b是本专利技术实施例一适用的一种网页数据预处理方法的流程示意图;图1c是本专利技术实施例一适用的一种基于查询式的主体值识别方法的流程示意图;图1d是本专利技术实施例一适用的一种主体值识别方法的流程示意图;图2a是本专利技术实施例二提供的一种实体关系数据的生成方法的流程示意图;图2b是本专利技术实施例二适用的一种键值块识别方法的流程示意图;图2c是本专利技术实施例二适用的一种半结构化SPO数据抽取系统的结构示意图;图3是本专利技术实施例三提供的一种实体关系数据的生成装置的结构示意图;图4是本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1a为本专利技术实施例一提供的一种实体关系数据的生成方法的流程示意图,本实施例可适用于从网页中获取实体关系数据的情况,该方法可以由本专利技术实施例提供的实体关系数据的生成装置来执行,该装置可由硬件和/或软件组成,并一般可集成在计算机设备中。如图1a所示,本实施例的方法具体包括:S110、获取与目标网页对应的网页源码数据。本实施例中,目标网页可以是互联网上的任意网页,网页源码数据可以是该目标网页的源代码数据。由于互联网上各种网页鱼龙混杂,可先对获取的网页进行预处理,以提高获取的网页源码数据的有效性和可靠性。具体的,获取与目标网页对应的网页源码数据可以包括:根据目标网页的统一资源定位符(UniformResourceLocator,URL),在网页库中获取与目标网页对应的源码数据作为待验证源码数据;如果确定待验证源码数据不满足网页过滤条件,则将待验证源码数据作为目标网页的网页源码数据。其中,网页库中预存有与多个网页分别对应的源码数据;网页过滤条件包括但不限于网页所在的站点为黑名单站点、网页的质量评级小于预设阈值、网页的语言为外文、网页为色情网页、网页的类型为图片类型等过滤条件;源码数据可以称为ulpack数据,该数据可通过wdbtools等工具从网页库中获取。另外,对待验证源码数据的过滤可以使用Nlpcantiporn等工具来实现。为了更全面地获取网页中包含的实体关系数据,可选的,在获取与目标网页对应的网页源码数据之后,还包括:在搜索引擎的点击展示日志中,获取与目标网页的统一资源定位符对应的至少一个查询式,并将获取的至少一个查询式与网页源码数据进行关联。其中,点击展示日志可以是用户在输入查询式后,在显示的各个网页中针对点击打开的网页,所记录的日志。查询式可以为query数据,获取与目标网页的URL对应本文档来自技高网
...

【技术保护点】
1.一种实体关系数据的生成方法,其特征在于,包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。

【技术特征摘要】
1.一种实体关系数据的生成方法,其特征在于,包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。2.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出至少一个键值块,包括:采用基础解析工具对所述网页源码数据进行数据解析,得到至少一个基础键值对加入键值对集合中;对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合中;对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块。3.根据权利要求2所述的方法,其特征在于,对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合中,包括:在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础xpath,并查找xpath与所述基础xpath相同的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值对;和/或在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础html标签;根据所述基础html标签,确定至少一个扩展html标签,并在所述网页源码数据中,查找与所述扩展html标签匹配的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值对。4.根据权利要求2所述的方法,其特征在于,对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块,包括:定位所述键值对集中的键值对在所述目标网页中的页面位置;将页面位置连续的至少两个键值对合并入同一个键值块中。5.根据权利要求2所述的方法,其特征在于,在对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块之后,还包括:按照键值对过滤规则,对所述至少一个键值块中包括的键值对进行过滤处理;按照键值块过滤规则,对所述至少一个键值块进行过滤处理。6.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:如果确定当前处理的目标键值块为主键值块,且所述网页源码数据中包括满足第一标签条件的实体页节点,则按照实体页评分规则,判断所述目标网页是否为实体页;若是,则将与所述实体页节点对应的文本数据作为所述目标键值块的主体值;其中,所述主键值块为与所述网页源码数据对应的至少一个键值块中包含键值对数量最多的一个键值块。7.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:根据当前处理的目标键值块在所述目标网页中的页面位置,在所述网页源码数据中向前查找满足第二标签条件的强样式节点;如果查找到所述强样式节点,且所述强样式节点的xpath同所述目标键值块对应的xpath不一致,则将与所述强样式节点对应的文本数据作为所述目标键值块的主体值。8.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:将当前处理的目标键值块中包括的键值对的键名,与设定的白名单进行匹配;如果确定所述目标键值块中包括的目标键名与所述白名单匹配,则获取与所述目标键名对应的目标键值,作为所述目标键值块的主体值。9.根据权利要求1所述的方法,其特征在于,在获取与目标网页对应的网页源码数据之后,还包括:在搜索引擎的点击展示日志中,获取与所述目标网页的统一资源定位符对应的至少一个查询式,并将获取的所述至少一个查询式与所述网页源码数据进行关联;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:如果确定当前处理的目标键值块为...

【专利技术属性】
技术研发人员:黄昉李双婕于昺洋史亚冰梁海金张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1