实体关系数据的生成方法、装置、设备及存储介质制造方法及图纸

技术编号：20329308 阅读：27 留言：0更新日期：2019-02-13 05:51

本发明专利技术实施例公开了一种实体关系数据的生成方法、装置、设备及存储介质。所述方法包括：获取与目标网页对应的网页源码数据；在所述网页源码数据中，识别出至少一个键值块，其中，所述键值块中包括至少一个键值对；在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值；根据所述键值块以及与所述键值块对应的主体值，生成与所述目标网页对应的实体关系数据。通过本发明专利技术的技术方案，能够提高网页通用性，降低人力成本，提高实体关系数据的产出量。

全部详细技术资料下载

【技术实现步骤摘要】
实体关系数据的生成方法、装置、设备及存储介质
本专利技术实施例涉及信息处理技术，尤其涉及一种实体关系数据的生成方法、装置、设备及存储介质。
技术介绍
实体关系数据，也被称作SPO三元组数据，是指实体pair(主体S-客体Opair)与他们之间的关系(P)构成的三元组。实体关系是知识图谱的关键组成部分，从知识图谱构建角度来看，实体关系挖掘可以丰富图谱中的关系知识，构建实体之间的关联关系；从产品应用角度，实体关系一方面可以直接满足用户对于知识类的搜索需求，例如搜索某个明星的妻子“×××妻子”时，可以通过实体关系数据直接给出答案，另外一方面还可以基于实体关系为用户推荐关联的知识，为用户提供信息扩展的阅读体验，例如搜索某个名人的名字“××”时，可以通过实体关系为用户推荐该名人相关的其他实体。现有技术中，实体关系挖掘主要通过以下两种方式来进行：其中，第一种方式是，针对百科类网站进行抽取。根据百科类网站有良好的结构，数据十分规范的特点，直接从百科类网站的信息盒或者属性表格(百科类网站的实体下用于描述实体属性的一种网页结构)中抽取实体关系。利用百科类网站结构简单稳定的特点，从待抽取的百科类站点中采样并标注几个典型页面，对这些页面通过模式学习算法自动构建出一个或多个以类xpath表示的模式，然后将其应用在该站点的其他详细页面中从而实现抽取。第二种方式是，针对网站生成包装器(模板)的抽取方法。通过分析需要抽取的网站的结构和HTML标签等信息，构造对应的包装器，使用这个包装器对该网页进行实体关系抽取。对于一般的有规律的页面，包装器通常依靠人工使用正则表达式的方式写出xpath...

【技术保护点】
1.一种实体关系数据的生成方法，其特征在于，包括：获取与目标网页对应的网页源码数据；在所述网页源码数据中，识别出至少一个键值块，其中，所述键值块中包括至少一个键值对；在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值；根据所述键值块以及与所述键值块对应的主体值，生成与所述目标网页对应的实体关系数据。

【技术特征摘要】
1.一种实体关系数据的生成方法，其特征在于，包括：获取与目标网页对应的网页源码数据；在所述网页源码数据中，识别出至少一个键值块，其中，所述键值块中包括至少一个键值对；在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值；根据所述键值块以及与所述键值块对应的主体值，生成与所述目标网页对应的实体关系数据。2.根据权利要求1所述的方法，其特征在于，在所述网页源码数据中，识别出至少一个键值块，包括：采用基础解析工具对所述网页源码数据进行数据解析，得到至少一个基础键值对加入键值对集合中；对所述基础键值对进行键值对扩展，得到至少一个扩展键值对加入所述键值对集合中；对所述键值对集合中包括的键值对进行合并处理，得到所述至少一个键值块。3.根据权利要求2所述的方法，其特征在于，对所述基础键值对进行键值对扩展，得到至少一个扩展键值对加入所述键值对集合中，包括：在所述网页源码数据中，获取与所述基础键值对匹配的基础节点的基础xpath，并查找xpath与所述基础xpath相同的扩展节点；获取与所述扩展节点对应的文本数据作为所述扩展键值对；和/或在所述网页源码数据中，获取与所述基础键值对匹配的基础节点的基础html标签；根据所述基础html标签，确定至少一个扩展html标签，并在所述网页源码数据中，查找与所述扩展html标签匹配的扩展节点；获取与所述扩展节点对应的文本数据作为所述扩展键值对。4.根据权利要求2所述的方法，其特征在于，对所述键值对集合中包括的键值对进行合并处理，得到所述至少一个键值块，包括：定位所述键值对集中的键值对在所述目标网页中的页面位置；将页面位置连续的至少两个键值对合并入同一个键值块中。5.根据权利要求2所述的方法，其特征在于，在对所述键值对集合中包括的键值对进行合并处理，得到所述至少一个键值块之后，还包括：按照键值对过滤规则，对所述至少一个键值块中包括的键值对进行过滤处理；按照键值块过滤规则，对所述至少一个键值块进行过滤处理。6.根据权利要求1所述的方法，其特征在于，在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值，包括：如果确定当前处理的目标键值块为主键值块，且所述网页源码数据中包括满足第一标签条件的实体页节点，则按照实体页评分规则，判断所述目标网页是否为实体页；若是，则将与所述实体页节点对应的文本数据作为所述目标键值块的主体值；其中，所述主键值块为与所述网页源码数据对应的至少一个键值块中包含键值对数量最多的一个键值块。7.根据权利要求1所述的方法，其特征在于，在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值，包括：根据当前处理的目标键值块在所述目标网页中的页面位置，在所述网页源码数据中向前查找满足第二标签条件的强样式节点；如果查找到所述强样式节点，且所述强样式节点的xpath同所述目标键值块对应的xpath不一致，则将与所述强样式节点对应的文本数据作为所述目标键值块的主体值。8.根据权利要求1所述的方法，其特征在于，在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值，包括：将当前处理的目标键值块中包括的键值对的键名，与设定的白名单进行匹配；如果确定所述目标键值块中包括的目标键名与所述白名单匹配，则获取与所述目标键名对应的目标键值，作为所述目标键值块的主体值。9.根据权利要求1所述的方法，其特征在于，在获取与目标网页对应的网页源码数据之后，还包括：在搜索引擎的点击展示日志中，获取与所述目标网页的统一资源定位符对应的至少一个查询式，并将获取的所述至少一个查询式与所述网页源码数据进行关联；在所述网页源码数据中，识别出与所述至少一个键值块对应的主体值，包括：如果确定当前处理的目标键值块为...

【专利技术属性】
技术研发人员：黄昉，李双婕，于昺洋，史亚冰，梁海金，张扬，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人