【技术实现步骤摘要】
情报知识融合系统及方法
本专利技术文本分析
,具体地,涉及一种情报知识融合系统及方法。
技术介绍
知识融合是知识图谱创建过程中的一个重要环节。构建知识图谱的数据往往是多源异构数据,这使得知识融合面临着很多问题需要解决。本方案提出了以下两个主要问题的解决方案。1、网络情报的可信度计算及其计算效率问题;2、多源知识库融合的融合效率问题。对于第一个问题,本方案提出了基于RNN和变长时间序列的网络情报文本可信度计算,将帖子按照一定时间间隔进行分组,然后每组作为时间序列的一个单元进行训练。对于第二个问题,本方案提出了分区索引技术,在知识库对齐中建立索引是通过剪枝过滤掉知识库中不可能相似的实体对,使得相似的实体对尽量分配到一个或几个区块中成为候选对,最终的对齐处理只在这些候选对中进行,从而达到提高匹配效率的目的。本方案为了同时考虑到属性和关系对索引的分区的影响,将采用动态索引方法进行分区。经查阅专利文献我们发现,相关对比技术存在的缺陷如下:1、没有考虑从文本中如何融合知识,只考虑到两个知识库之间的融合,进而就没有考虑到信息源的可信度计算问题。本方案提出了从文本中提取知识并和知识库融合的方法和过程,并提出了高效的可信度计算算法,从而实现了知识库的增量式更新,这对于知识图谱的增量式构建具有根本性的意义。2、多源知识库融合,采用聚类的方法,当知识库容量比较大(千万级)时,时间消耗会十分巨大;而KNN聚类算法本身是跟知识库容量的平方成正比的,在实际使用中会十分低效。动态分区索 ...
【技术保护点】
1.一种情报知识融合系统,其特征在于,包括:/n文本信息与知识库融合模块:将文本中抽取出来的知识融入到现有知识库中;/n知识库与知识库融合模块:将新知识库中的知识融入到现有知识库中。/n
【技术特征摘要】
1.一种情报知识融合系统,其特征在于,包括:
文本信息与知识库融合模块:将文本中抽取出来的知识融入到现有知识库中;
知识库与知识库融合模块:将新知识库中的知识融入到现有知识库中。
2.根据权利要求1所述的情报知识融合系统,其特征在于,所述文本信息与知识库融合模块包括:
指称语聚类及消歧模块:将文本中的同一实体的不同指代词进行聚类归一;
实体关联知识库模块:将文本中实体名称连接到知识库中对应的实体;
基于RNN的网络情报文本可信度分析模块:对来自于网络的情报文本的可信度进行分析计算,获得可信度分析结果;
第一知识入库和更新模块:根据输出的可信度分析结果,如果可信度高于预设值,则认为值得入知识库,保存新的知识;否则,则认为和现有知识冲突,则需人工干预进行选择是保留现有知识库中的知识还是用新的知识更新现有知识。
3.根据权利要求2所述的情报知识融合系统,其特征在于,所述对来自于网络的情报文本的可信度进行分析计算指:对抽取的情报文本知识收集相关的网络媒体评论,并将评论转化为循环神经网络RNN输入单元进行神经网络建模并推理可信度。
4.根据权利要求1所述的情报知识融合系统,其特征在于,所述第一知识入库和更新模块:保存新的实体知识,或者用新实体知识更新现有实体知识;如果新实体知识是现有库里没有的实体知识,则保存入库并添加信息源;如果库里已有该实体知识,则将对应库里的实体没有的属性添加入库;如果该属性已存在于现有知识实体中,则根据可信度分析结果来选择新知识实体的属性和老知识实体中的属性。
5.根据权利要求1所述的情报知识融合系统,其特征在于,所述知识库与知识库融合模块包括:
动态分区索引模块:通过剪枝过滤掉知识库中不可能相似的实体对,在知识库对齐中建立索引,采用动态索引方法使相似的实体对分配到一个或几个区块中成为候选对,最终的对齐处理在这些候选对中进行;
基于结构相似性函数的特征匹配模块:计算属性之间的相似评分,即用实体对共同邻居集合的交集与并集的比值衡量实体对之间的相似度,获得属性相似评分;
跨知识库的实体对齐子模块:将实体对齐问题看作是根据属性相似评分判断待匹配实体对是否匹配的分类问题,若属性相似评分高于预设值,则认为是同一实体,此时实体对齐并进行知识融合;
第二知识入库和更新模块:保存新的实体知识,或者用新实体知识更新现有实体知识。
6.根据权利要求5所述的情报知识融合系统,其特征在于,所述第二知识入库和更新模块:如果新实体知识是现有库里没有的实体知识,则保存入库并添加信息源;如果库里已有该实体知识,则将对应库里的实体没有的属性添加入库;如果该属性已存在于现有知识实体中,则根...
【专利技术属性】
技术研发人员:李德启,谢彬,吴剑涛,姜鑫,牛硕硕,刘太林,邱定,
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。