一种知识库动态更新方法技术

技术编号:24574464 阅读:20 留言:0更新日期:2020-06-21 00:10
本发明专利技术公开了一种知识库动态更新方法,包括:数据获取、数据解析、实体对齐、数据融合,数据融合包括,将实体的相同属性以及含义相近属性进行合并,合并方法为:实体属性规范化以及实体属性融合,实体属性融合包括,单值型属性值对原有属性值进行覆盖;枚举型属性值包括新增、删除以及更新,进行删除操作时,记录实体每个数据源的枚举属性值,对比更新前后的枚举属性值集合,建立删除的属性值集合,将每个数据源删除的属性值分别添加到各自的删除的属性值集合中,集合全部数据源的更新结果,排除所述更新结果在所述删除的属性值集合中的值,得到属性最终值;本发明专利技术增加知识库的时效性与完整性,开放知识库数据的源头,为知识库打造自主学习能力。

A dynamic updating method of knowledge base

【技术实现步骤摘要】
一种知识库动态更新方法
本专利技术涉及计算机
,尤其涉及一种知识库动态更新方法。
技术介绍
自然语言处理是时下比较热门的领域,而知识图谱作为自然语言处理的一项重要支撑技术,其知识库质量的好坏也将间接影响自然语言处理能力的高低。知识库好坏的一个重要指标在于图谱数据的更新,在现如今网络飞速发展的时代,每天各大媒体网站都会有不计其数的新闻推送,网站上的信息也在不断更新,而知识图谱的知识库依然停留在人为处理,节奏较慢的阶段。无法紧跟网络信息的增速,知识图谱的信息的时效性与完整度就无法得到合理的保障,其质量必然在不断的衰减。现有知识图谱的构建流程一般为:原始数据获取、数据解析与清洗、实体对齐、知识融合、数据存储。以百科网站数据源为例,网站数据的获取一般使用现在流行的爬虫技术,通过爬虫技术能够很便利的获取网页信息,之后我们需要采取相应策略解析网页,以获取我们所需要的信息。由于每个网页为了页面渲染或者其他需求,可能会存在特殊字符,或者不同页面区域标点符号使用并不一致的情况,为了确保知识库信息格式的一致性与标准性,我们需要对这些初步解析的数据进行清洗。为了使知识库容纳尽量多的信息,我们需要从不同的来源,获取尽可能多的数据。这一举措可能造成的结果就是,不同数据源中对现实生活中同一事物的称谓可能存在不一致的情况。例如:人有别名、机构有简称、城市有别称,无论使用全称还是其他称谓,可能描述的都是同一个对象,如果不能有效的识别这些不同称谓所指向的同一对象,那么知识库的信息将会存在较大程度的冗余情况。另外,即便我们从不同数据源确认了描述同一对象的信息,信息的结构差异,或者不同来源信息正确性的差异,也会给知识融合造成极大的困扰。例如:北京航空航天大学在百度百科上有个属性“简称”,其值是“北航、BUAA”,而在互动百科上有个属性“别称”,其值也是“北航、BUAA”,两个描述的都是北航的别名属性,但是因为结构的差异,导致该属性无法有效的整合。之前,北航在百度百科上的外文名为“BeijingUniversityofAeronauticsandAstronautics”,而在互动百科上的外文名为“BeihangUniversity”,同样的属性但是不同的值,如何确定其正确性,也是多源数据融合的一大挑战。信息是具有时效性的,北航的前任校长是怀进鹏,现在的校长是徐惠斌,如果知识图谱知识库没有及时更新,那么我们基于知识库做出的问答系统将会提供给我们错误的答案。我们以人作为例子分析一下时效的重要性。人存在众多成长的属性与变化的关系,人的年龄随着时间而增长、身高体重会变化、学历逐渐变高、社交逐渐变广且不断变化等等。我们无法使用静态的知识库去形容一个不断变化、不断成长的人。“自闭”的知识库,不是现实生活的需要,开放数据源,打通知识库构建的全流程是解决这一现象的着力点,一套完整的知识库动态更新流程亟待提出。
技术实现思路
为解决上述技术问题,本专利技术的目的在于提供了一种知识库动态更新方法,通过增加知识库的时效性与完整性,开放知识库数据的源头,打通从数据获取、解析清洗、实体对齐、数据融合、更新知识库的全部流程,为知识库提供自主学习能力。为实现上述目的,本专利技术的技术方案如下:一种知识库动态更新方法,包括:步骤一、数据获取;步骤二、数据解析;步骤三、实体对齐,包括,相同实体描述信息的对齐,不同实体描述信息的区分;步骤四、数据融合,包括,将所述实体的相同属性以及含义相近属性进行合并,包括:实体属性规范化,对现有同义属性进行聚类,确定每个类簇的属性的规范属性名,创建规范化映射表;设定相似度阈值,对于新属性,若该属性与原有属性类簇的相似度超过阈值,将所述新属性添加到所述原有属性类簇,同时更新所述规范化映射表,对于没达到所述相似度阈值的新属性,保留属性名;实体属性融合,单值型属性值对原有属性值进行覆盖;枚举型属性值包括新增、删除以及更新,进行枚举属性删除操作时,记录实体每个数据源的枚举属性值,对比更新前后的枚举属性值集合,建立删除的属性值集合,将每个数据源删除的属性值分别添加到各自的删除的属性值集合中,集合全部数据源的更新结果,排除所述更新结果在所述删除的属性值集合中的值,得到属性最终值。进一步,所述步骤一中,数据获取包括选择数据源,根据所选择的数据源使用爬虫进行爬取,针对数据源的特点选择爬取策略。进一步,所述步骤二中,数据解析包括对百科词条以及新闻信息进行解析,根据选择的所述数据源将其中的信息转化为结构化信息。进一步,所述步骤三中,对于相同实体的描述信息,通过对比文本相似度来进行确定实体对象;在对不同实体描述信息进行区分时,对同名词条添加子名称。进一步,所述的文本相似度,通过计算文本向量的夹角余弦得到。基于维基百科的语料库训练得到词向量,找到文本所包含词的词向量,加以拼接,得到文本向量,计算两个文本向量的夹角余弦得到相似度值。本专利技术一种知识库动态更新方法,针对现有技术中手动构建知识库的方式节奏相对缓慢,各个步骤之间没有很好的衔接,并且知识库构建完成之后,基本没有对知识库的后续操作,知识库的信息保持相对静止的状态,即便有所变动也是小范围的人为纠正,知识库的信息没有时效性的保证。本专利技术提出对知识库中的不同数据源的实体进行实体对齐,在数据融合中对实体属性进行规范,对规范化的实体进行属性融合,避免在实体描述中出现冗余的情况,降低知识库冗余度、提高了知识库质量,同时避免了实体属性的泛滥。附图说明图1为本专利技术知识库数据动态更新流程图;图2为本专利技术实施例百科词条页面更新记录图;图3为本专利技术实施例词条infobox信息图;图4为本专利技术实施例同名词条列表图;图5为本专利技术实施例名称与子名称图;图6为本专利技术实施例多源属性融合示意图。具体实施方式为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术实施例。为清楚地说明本技术的设计思想,下面结合实施例对本技术进行说明。如图1所示,一种知识库动态更新方法,包括:步骤一、数据获取;步骤二、数据解析;步骤三、实体对齐,包括,相同实体描述信息的对齐,不同实体描述信息的区分;步骤四、数据融合,包括,将所述实体的相同属性以及含义相近属性进行合并,其中,合并方法为:实体属性规范化,对现有同义属性进行聚类,确定每个类簇的属性的规范属性名,创建规范化映射表;设定相似度阈值,对于新属性,若该属性与原有属性类簇的相似度超过阈值,将所述新属性添加到所述原有属性类簇,同时更新所述规范化映射表,对于没达到所述相似度阈值的新属性,保留属性名;实体属性融合,单值型属性值对原有属性值进行覆盖;枚举型属性值包括新增、删除以及更新,进行删除操作时,记录实体每个数据源的枚举属性值,对比更新前后的枚举属性值集合,建立删除的属性值集合,将每个数据源本文档来自技高网
...

【技术保护点】
1.一种知识库动态更新方法,其特征在于,所述方法包括:/n步骤一、数据获取;/n步骤二、数据解析;/n步骤三、实体对齐,包括,相同实体描述信息的对齐,不同实体描述信息的区分;/n步骤四、数据融合,包括,将所述实体的相同属性以及含义相近属性进行合并,包括:/n实体属性规范化,对现有同义属性进行聚类,确定每个类簇的属性的规范属性名,创建规范化映射表;设定相似度阈值,对于新属性,若该属性与原有属性类簇的相似度超过阈值,将所述新属性添加到所述原有属性类簇,同时更新所述规范化映射表,对于没达到所述相似度阈值的新属性,保留属性名;/n实体属性融合,单值型属性值对原有属性值进行覆盖;枚举型属性值包括新增、删除以及更新,进行枚举属性删除操作时,记录实体每个数据源的枚举属性值,对比更新前后的枚举属性值集合,建立删除的属性值集合,将每个数据源删除的属性值分别添加到各自的删除的属性值集合中,集合全部数据源的更新结果,排除所述更新结果在所述删除的属性值集合中的值,得到属性最终值。/n

【技术特征摘要】
1.一种知识库动态更新方法,其特征在于,所述方法包括:
步骤一、数据获取;
步骤二、数据解析;
步骤三、实体对齐,包括,相同实体描述信息的对齐,不同实体描述信息的区分;
步骤四、数据融合,包括,将所述实体的相同属性以及含义相近属性进行合并,包括:
实体属性规范化,对现有同义属性进行聚类,确定每个类簇的属性的规范属性名,创建规范化映射表;设定相似度阈值,对于新属性,若该属性与原有属性类簇的相似度超过阈值,将所述新属性添加到所述原有属性类簇,同时更新所述规范化映射表,对于没达到所述相似度阈值的新属性,保留属性名;
实体属性融合,单值型属性值对原有属性值进行覆盖;枚举型属性值包括新增、删除以及更新,进行枚举属性删除操作时,记录实体每个数据源的枚举属性值,对比更新前后的枚举属性值集合,建立删除的属性...

【专利技术属性】
技术研发人员:张日崇袁红亮
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1