【技术实现步骤摘要】
一种知识库动态更新方法
本专利技术涉及计算机
,尤其涉及一种知识库动态更新方法。
技术介绍
自然语言处理是时下比较热门的领域,而知识图谱作为自然语言处理的一项重要支撑技术,其知识库质量的好坏也将间接影响自然语言处理能力的高低。知识库好坏的一个重要指标在于图谱数据的更新,在现如今网络飞速发展的时代,每天各大媒体网站都会有不计其数的新闻推送,网站上的信息也在不断更新,而知识图谱的知识库依然停留在人为处理,节奏较慢的阶段。无法紧跟网络信息的增速,知识图谱的信息的时效性与完整度就无法得到合理的保障,其质量必然在不断的衰减。现有知识图谱的构建流程一般为:原始数据获取、数据解析与清洗、实体对齐、知识融合、数据存储。以百科网站数据源为例,网站数据的获取一般使用现在流行的爬虫技术,通过爬虫技术能够很便利的获取网页信息,之后我们需要采取相应策略解析网页,以获取我们所需要的信息。由于每个网页为了页面渲染或者其他需求,可能会存在特殊字符,或者不同页面区域标点符号使用并不一致的情况,为了确保知识库信息格式的一致性与标准性,我们需要对这 ...
【技术保护点】
1.一种知识库动态更新方法,其特征在于,所述方法包括:/n步骤一、数据获取;/n步骤二、数据解析;/n步骤三、实体对齐,包括,相同实体描述信息的对齐,不同实体描述信息的区分;/n步骤四、数据融合,包括,将所述实体的相同属性以及含义相近属性进行合并,包括:/n实体属性规范化,对现有同义属性进行聚类,确定每个类簇的属性的规范属性名,创建规范化映射表;设定相似度阈值,对于新属性,若该属性与原有属性类簇的相似度超过阈值,将所述新属性添加到所述原有属性类簇,同时更新所述规范化映射表,对于没达到所述相似度阈值的新属性,保留属性名;/n实体属性融合,单值型属性值对原有属性值进行覆盖;枚举 ...
【技术特征摘要】
1.一种知识库动态更新方法,其特征在于,所述方法包括:
步骤一、数据获取;
步骤二、数据解析;
步骤三、实体对齐,包括,相同实体描述信息的对齐,不同实体描述信息的区分;
步骤四、数据融合,包括,将所述实体的相同属性以及含义相近属性进行合并,包括:
实体属性规范化,对现有同义属性进行聚类,确定每个类簇的属性的规范属性名,创建规范化映射表;设定相似度阈值,对于新属性,若该属性与原有属性类簇的相似度超过阈值,将所述新属性添加到所述原有属性类簇,同时更新所述规范化映射表,对于没达到所述相似度阈值的新属性,保留属性名;
实体属性融合,单值型属性值对原有属性值进行覆盖;枚举型属性值包括新增、删除以及更新,进行枚举属性删除操作时,记录实体每个数据源的枚举属性值,对比更新前后的枚举属性值集合,建立删除的属性...
【专利技术属性】
技术研发人员:张日崇,袁红亮,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。