用于构造数据库的方法和装置制造方法及图纸

技术编号:19240353 阅读:21 留言:0更新日期:2018-10-24 03:55
本公开涉及构造数据库的方法和装置。根据本公开的方法用于构造包括多个实体的数据库,其中每个实体由若干三元组

【技术实现步骤摘要】
用于构造数据库的方法和装置
这里讨论的实施例涉及用于构造数据库的方法和装置,特别地,涉及用于构造知识图谱数据库的方法和装置。
技术介绍
知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。作为一种数据库,知识图谱数据库包含许多实体(Entity)。与常规数据库不同的是,知识图谱数据库的每个实体通过三元组(triple)<s,p,o>表示,其中s表示主语,p表示谓语,o表示宾语。图1是示出了知识图谱的一个示例的图。在图1中,表示谓语的箭头线段从主语指向宾语。例如,如图1中所示,实体“whale(鲸鱼)”由两个三元组构成,即<鲸鱼,是,哺乳动物>和<鲸鱼,生活在,水>。这两个三元组描述了实体“鲸鱼”的物种属性和生活环境。在知识图谱数据库中,主语相同的三元组描述同一个实体,均由三元组表示的多个实体构成知识图谱数据库,其还可被简称为“实体库”。较之常规数据库,知识图谱数据库具有不同的结构,并且可以更完整地和更灵活地描述不同的实体。知识图谱数据库在很多实际应用中都有着重要的作用,诸如自动问答(Q/A)系统,语义消歧和信息检索等。但是创建知识图谱数据库的代价较高,因此现有的知识图谱数据库的规模都很有限,难以满足一些实际的需求。例如,现有的应用最为广泛的知识图谱数据库DBPedia仅包含约240,000个日本机构的信息,但是日本机构的实际数目不小于4,000,000个,显然现有的知识图谱数据库的数据量是有限的,可能无法满足实际需求。为了构造知识图谱数据库,可以考虑利用包含海量信息的互联网。例如,以上文所述的关于日本机构的知识图谱数据库为例,如果能够获得关于日本机构的主页中的信息并且进行自动识别和处理,则可以创建能够满足实际需求的知识图谱数据库。近年来,有研究者提出了一些方法用于从网页中提取信息。图2是示出了根据现有技术的从网页中提取三元组的方法的示意图。然而,现有的信息提取方法仅能够从网页中提取三元组<s,p,o>。例如,如从图2中可以看到的,现有的信息提取方法仅能够提取3个三元组,但是不能使主语相同的三元组关联到同一个实体上。再者,现有的信息提取方法主对网页的结构极为敏感,需要人工定义模板,甚至需要一定的训练数据,导致仅能够分析结构相同或相似的网页。如果网页的结构变化较大,则不能进行信息提取。
技术实现思路
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。针对现有技术中存在的问题,本公开提出了一种构造数据库的技术。根据本公开的技术对网页的结构不敏感,因而能够从具有任何结构的网页中提取信息而不需要预设关于网页的结构的模板或者训练数据。此外,通过根据本公开的技术,能够对所提取的信息进行分析以使具有相同主语的三元组与同一实体相关联,从而构造知识图谱数据库。根据本公开的一个方面,提供了一种用于构造数据库的方法,该数据库包括多个实体,每个实体由若干三元组<主语、谓语、宾语>组成,该方法包括如下步骤:通过搜索引擎搜索与主语相关的网页;获得网页的结构化描述;基于网页的结构化描述确定网页中的重复性结构;从网页中的重复性结构提取谓语和宾语以形成三元组;以及合并具有同一主语的三元组以构成实体。根据本公开的另一方面,提供了一种用于构造数据库的装置,该数据库包括多个三元组<主语、谓语、宾语>组成,该装置包括:搜索单元,通过搜索引擎搜索与主语相关的网页;获得单元,获得网页的结构化描述;确定单元,基于网页的结构化描述确定网页中的重复性结构;提取单元,从网页中的重复性结构提取谓语和宾语以形成三元组;以及合并单元,合并具有同一主语的三元组以构成实体。此外,根据本公开的又一方面,提供了一种用于构造数据库的装置,其包括控制器。该被配置成执行以下处理:通过搜索引擎搜索与主语相关的网页;获得所述网页的结构化描述;基于所述网页的结构化描述确定所述网页中的重复性结构;从所述网页中的重复性结构提取谓语和宾语以形成所述三元组;以及合并具有同一主语的三元组以构成所述实体。此外,根据本公开的再一方面,提供了一种计算机可读存储介质,其上存储有能够由计算机执行的计算机程序,该程序使得计算机用作上文所述的用于构造数据库的装置。附图说明参照下面结合附图对本公开实施例的说明,会更加容易地理解本公开的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本公开的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1是示出了知识图谱的一个示例的图;图2是示出了根据现有技术的从网页中提取三元组的方法的示意图;图3是示出了根据本公开的一个实施例的用于构造数据库的方法的流程图;图4是示出了根据本公开的实施例的用于构造数据库的方法所进行的信息提取的处理过程的示意图;图5是示出了从图4中示例的搜索结果获取网页的结构化描述并且确定网页中的重复性结构的示意图;图6是示出了从网页得到描述不止一个实体的三元组并且将三元组合并为三元组分组的示意图;图7是示出了将两个三元组分组合并为一个三元组分组的示意图;图8是示出了根据本公开的一个实施例的用于构造数据库的装置的框图;以及图9是示出了可用来实现图8的根据本公开的实施例的用于构造数据库的装置的通用机器的结构简图。具体实施方式在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。图3是示出了根据本公开的一个实施例的用于构造数据库的方法300的流程图。通过根据本公开的实施例的用于构造数据库的方法300构造的数据库包括多个实体,每个实体由若干三元组<主语、谓语、宾语>组成。也就是说,通过方法300构造的数据库可以是知识图谱数据库。图4是示出了根据本公开的实施例的用于构造数据库的方法300所进行的信息提取的处理过程的示意图。如图4中所示,从网页中提取关于日本机构“株式会社富士通研究所”的信息并且基于所提取的信息建立三元组。下文将借助于图4中所示的具体示例对方法300的各个步骤进行更详细地描述。方法300开始于步骤S301。随后,在步骤302中,通过搜索引擎搜索与主语相关的网页。根据本公开的一个实施例,在步骤S302中可以使用主语和与主本文档来自技高网
...

【技术保护点】
1.一种用于构造数据库的方法,所述数据库包括多个实体,每个实体由若干三元组

【技术特征摘要】
1.一种用于构造数据库的方法,所述数据库包括多个实体,每个实体由若干三元组<主语、谓语、宾语>组成,所述方法包括如下步骤:通过搜索引擎搜索与主语相关的网页;获得所述网页的结构化描述;基于所述网页的结构化描述确定所述网页中的重复性结构;从所述网页中的重复性结构提取谓语和宾语以形成所述三元组;以及合并具有同一主语的三元组以构成所述实体。2.根据权利要求1所述的方法,其中通过搜索引擎搜索与主语相关的网页的步骤包括:使用所述主语和与所述主语相关的信息作为关键词来进行搜索。3.根据权利要求1所述的方法,其中基于所述网页的结构化描述确定所述网页中的重复性结构的步骤包括:基于所述网页的结构化描述构造文件对象模型树,对于所述文件对象模型树中的每个节点,根据节点类型和类别属性定义其模板,以及将在同一节点下的具有相同模板的子节点确定为重复性节点,所述重复性节点对应于所述网页中的重复性结构。4.根据权利要求3所述的方法,其中从所述网页中的重复性结构提取谓语和宾语以形成所述三元组的步骤进一步包括:使用包含谓语名称的辞典对所述重复性节点进行过滤。5.根...

【专利技术属性】
技术研发人员:郑仲光孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1