基于地址树的新闻知识图谱构建方法技术

技术编号:20916570 阅读:38 留言:0更新日期:2019-04-20 09:42
本发明专利技术提供一种基于地址树的新闻知识图谱构建方法,包括:确定事件类新闻的数据模型中的实体和实体间的关系;其中所述实体至少包括地名;还包括以下的至少一种实体:事件、时间、详情;且所述实体间的关系至少包括以下的一种类型:发生关系、救助关系、时间关系;提取新闻中的实体以获取以下的至少一种实体集合:地名集合P,事件集合E,时间集合T,详情集合I;根据地名集合P构建地址树,其中所述地址树的每一节点为一个地址,且所述节点间的关系为地址之间的隶属关系;步骤4、基于地址树进行层次化的知识融合,构建知识图谱。

Construction Method of News Knowledge Map Based on Address Tree

The invention provides a method for constructing news knowledge atlas based on address tree, which includes: determining the relationship between entities in the data model of event news; the entity in the model includes at least place names; including at least one entity as follows: event, time and details; and the relationship among entities includes at least one of the following types: occurrence relationship and rescue relationship. Extracting entities in news to obtain at least one set of entities: place name set P, event set E, time set T, detail set I; constructing address tree according to place name set P, where each node of address tree is an address and the relationship between the nodes is the membership relationship between addresses; Step 4, hierarchical knowledge based on address tree Integrate knowledge and build knowledge map.

【技术实现步骤摘要】
基于地址树的新闻知识图谱构建方法
本专利技术涉及数据处理
,具体涉及一种基于地址树的新闻知识图谱构建方法。
技术介绍
谷歌公司在2012年首次提出了知识图谱的概念。从信息检索过渡到语义检索,从关键词匹配、字符串模糊查找返回给用户一系列的文档信息过渡到语义检索返回给用户一张经过加工与推理的知识子图,知识图谱技术正是其基础与桥梁。目前知识图谱已被应用于金融、影视等多个领域,在科研和工程领域都成为研究热点。知识图谱的构建主要有两种方式,即自顶向下和自底向上。早期的知识图谱构建主要是自顶向下的方式,即:从百科类网站等非常结构化的数据中提炼出本体,并将其中实体连接到知识库中形成知识图谱。例如,Freebase项目就是采用维基百科作为数据来源。目前的知识图谱大多采用自底向上的方式进行构建;这种构建方式的数据来源主要是半结构甚至无结构的数据,经过实体识别、实体关系抽取等过程提取出候选知识单元。但在形成知识图谱时,由于实体指称项不完整并且其语义的多样性,需要进行实体消歧、共指消解等知识融合过程。在新闻中,主体内容通常描述某地点发生了某事件,具体情况(详情)如何;而其中地点是一类重要的实体。面向新闻事件,采用自底向上的方式构建知识图谱时地名实体的融合问题就尤其突出。例如,从文本中抽取出“四川”和“四川省”、“四川阿坝州”和“阿坝州”,如何将这些实体进行融合是知识图谱领域需要解决的一个实际问题。但是,目前国内外对知识图谱的研究仍然面临着诸多的挑战,特别是对包含大量地名实体的知识进行构图的经验以及案例还较少。
技术实现思路
针对现有技术中存在的问题,本专利技术实施例要解决的技术问题是提出一种基于地址树的新闻知识图谱构建方法;能够利用知识要素中地名等数据自然存在的层次性,还原语料中蕴含的地址树信息,并以此为基础融合其他种类的知识要素,完成地理知识图谱的增量更新。为了解决上述问题,本专利技术实施例提出了一种基于地址树的新闻知识图谱构建方法,包括:步骤1、确定事件类新闻的数据模型中的实体和实体间的关系;其中所述实体至少包括地名;还包括以下的至少一种实体:事件、时间、详情;且所述实体间的关系至少包括以下的一种类型:发生关系:用于描述实体地点和事件之间的二元关系;描述为三元组[地点,发生关系,事件];救助关系:用于描述事件发生后,获得救助的人数情况;描述为三元组[事件,救助关系,详情];时间关系:用于实体事件和时间之间的二元关系;描述为三元组[事件,时间关系,时间];步骤2、提取新闻中的实体以获取以下的至少一种实体集合:地名集合P,事件集合E,时间集合T,详情集合I;步骤3、根据地名集合P构建地址树,其中所述地址树的每一节点为一个地址,且所述节点间的关系为地址之间的隶属关系;步骤4、基于地址树进行层次化的知识融合,构建知识图谱。其中,所述步骤3还包括:对地名集合P中的地名进行消歧;具体包括:对地名集合P中的地名进行归一化处理以将其中的同一地名的不同称呼方式统一为同一地名。其中,所述步骤3中的根据地名集合P构建地址树,具体包括:步骤31、从地名集合P中确定根节点以形成基础地址树,该根节点为地名集合P中地理范围最大的节点;步骤32、判断地名集合P中是否还有候选节点,如果没有则构建地址树完成;如果有则从地名集合P中提取一个候选节点;步骤33、将其与当前的基础地址树中最底层的节点进行分析以确定候选节点是否为当前节点的下级地名;如果是则将该候选节点作为当前节点的下级节点;如果否则上移到上一层的节点并继续进行分析,直至找到该候选节点的上级节点;步骤34、更新当前的基础地址树,然后将该候选节点从地名集合P中删除。其中,所述步骤4具体包括:步骤41、利用信息抽取技术从事件类新闻中提出符合本体定义的实体、实体间的关系,得到知识图谱的建图知识要素,形成候选知识单元;步骤42、根据步骤3生成的地址树,确定候选知识单元之间是否存在地点的上下位关系;如果是则将存在地点的上下位关系的两个或多个候选知识单元之间进行合并;步骤43、将步骤42进行知识融合后的候选知识单元,生成知识图谱。其中,所述步骤43的知识融合还包括:事件信息融合步骤,用于提取事件的事件名称,并检查候选知识单元中的事件以判断在地址树的父节点或子节点上是否有相同事件;如果没有,则该事件信息融合步骤结束;如果有,则再对两个事件描述的原文信息进行对比校验以确定是否为同一事件;如果为同一事件,则只保留一个事件;如果为不同事件,则保留两个事件。其中,所述事件描述的原文信息进行对比,具体包括:根据候选知识单元中的记录,将详情信息实体链接到对应的事件实体上,以进行对比。其中,所述步骤43的知识融合还包括:时间信息融合步骤,用于根据候选知识单元中的记录,将事件的时间信息实体链接到对应的事件实体上,以进行对比。本专利技术的上述技术方案的有益效果如下:上述技术方案提出了一种基于地址树的新闻知识图谱构建方法,本专利技术提出一种基于地址树的新闻知识图谱构建方法。利用知识要素中地名等数据自然存在的层次性,还原语料中蕴含的地址树信息,并以此为基础融合其他种类的知识要素,完成地理知识图谱的增量更新。附图说明图1为本专利技术实施例的灾害新闻知识图谱构建的逻辑框图;图2为本专利技术实施例的地址树中初始路径示意图;图3为本专利技术实施例的地名添加过程示意图;图4为本专利技术实施例的完整的地址树的示意图;图5为知识融合的层次化过程的示意图;图6为地名信息融合的流程示意图;图7为事件添加过程的流程示意图;图8为知识图谱示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术实施例以新闻为信息来源,通过信息抽取从中获得关注的知识实体,通过信息融合构建出新闻的知识图谱。数据源主要来自网上的新闻,是一种无结构的文本信息。通过信息抽取技术获得地点实体、事件实体、事件详情等知识要素,经过知识融合即可构建较为完善的知识图谱,具体流程如图1所示。在构建过程中包含几项关键技术,包括:1、本体是知识图谱的底层数据模型,是最终图谱可视化和应用的基础,不同领域本体构建需要符合该领域的特定应用需求。2、信息抽取是获取具体知识单元的关键技术,已有很多研究成果,并不是本文研究重点。3、知识融合负责将信息抽取获取的知识单元融合在一起形成一个完成的知识图谱。信息抽取获取的知识单元存在冗余、不一致等问题,这些都是知识融合要解决的问题,是本文的研究重点。本文以地点为出发点,提出一种地址树构建方法,以此为基础进行知识融合构建新闻的知识图谱。本专利技术以新闻为信息来源,通过信息抽取从中获得关注的知识实体,通过信息融合构建出新闻的知识图谱。数据源主要来自网上的新闻,是一种无结构的文本信息。通过信息抽取技术获得地点实体、事件实体、事件详情等知识要素,经过知识融合即可构建较为完善的知识图谱。具体处理过程如图1所示的,包括:(1)首先,对于事件类新闻确定数据模型,该数据模型中包含实体和实体间的关系。其中,不同类型的处理原理类似;为了说明原理,这里只用详情来说明。在本专利技术的一个实施例中,实体包括如下类型:·地名:指中国行政区域。例如,四川、成都等都是地名。·事件:新闻中的主体事件。例如,签约会、晚会等都是事件。·时间:主体事件发生的时间。例如,2本文档来自技高网...

【技术保护点】
1.一种基于地址树的新闻知识图谱构建方法,其特征在于,包括:步骤1、确定事件类新闻的数据模型中的实体和实体间的关系;其中所述实体至少包括地名;还包括以下的至少一种实体:事件、时间、详情;且所述实体间的关系至少包括以下的一种类型:发生关系:用于描述实体地点和事件之间的二元关系;描述为三元组[地点,发生关系,事件];救助关系:用于描述事件发生后,获得救助的人数情况;描述为三元组[事件,救助关系,详情];时间关系:用于实体事件和时间之间的二元关系;描述为三元组[事件,时间关系,时间];步骤2、提取新闻中的实体以获取以下的至少一种实体集合:地名集合P,事件集合E,时间集合T,详情集合I;步骤3、根据地名集合P构建地址树,其中所述地址树的每一节点为一个地址,且所述节点间的关系为地址之间的隶属关系;步骤4、基于地址树进行层次化的知识融合,构建知识图谱。

【技术特征摘要】
2018.09.28 CN 20181113619421.一种基于地址树的新闻知识图谱构建方法,其特征在于,包括:步骤1、确定事件类新闻的数据模型中的实体和实体间的关系;其中所述实体至少包括地名;还包括以下的至少一种实体:事件、时间、详情;且所述实体间的关系至少包括以下的一种类型:发生关系:用于描述实体地点和事件之间的二元关系;描述为三元组[地点,发生关系,事件];救助关系:用于描述事件发生后,获得救助的人数情况;描述为三元组[事件,救助关系,详情];时间关系:用于实体事件和时间之间的二元关系;描述为三元组[事件,时间关系,时间];步骤2、提取新闻中的实体以获取以下的至少一种实体集合:地名集合P,事件集合E,时间集合T,详情集合I;步骤3、根据地名集合P构建地址树,其中所述地址树的每一节点为一个地址,且所述节点间的关系为地址之间的隶属关系;步骤4、基于地址树进行层次化的知识融合,构建知识图谱。2.根据权利要求1所述的基于地址树的新闻知识图谱构建方法,其特征在于,所述步骤3还包括:对地名集合P中的地名进行消歧;具体包括:对地名集合P中的地名进行归一化处理以将其中的同一地名的不同称呼方式统一为同一地名。3.根据权利要求1所述的基于地址树的新闻知识图谱构建方法,其特征在于,所述步骤3中的根据地名集合P构建地址树,具体包括:步骤31、从地名集合P中确定根节点以形成基础地址树,该根节点为地名集合P中地理范围最大的节点;步骤32、判断地名集合P中是否还有候选节点,如果没有则构建地址树完成;如果有则从地名集合P中提取一个候选节点;步骤33、将其与当前的基础地址树中最底层的节点...

【专利技术属性】
技术研发人员:侯霞杨鸿波王杨
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1