情报知识融合系统及方法技术方案

技术编号:24168903 阅读:38 留言:0更新日期:2020-05-16 02:18
本发明专利技术提供了一种情报知识融合系统及方法,包括:文本信息与知识库融合模块:将文本中抽取出来的知识融入到现有知识库中;知识库与知识库融合模块:将新知识库中的知识融入到现有知识库中。本发明专利技术提出的信源可信度计算方法,显著提升了信源可信度计算方法的效率,提出的基于动态分区索引的多源知识库融合的新方法,显著提升了知识融合的计算效率。

Information knowledge fusion system and method

【技术实现步骤摘要】
情报知识融合系统及方法
本专利技术文本分析
,具体地,涉及一种情报知识融合系统及方法。
技术介绍
知识融合是知识图谱创建过程中的一个重要环节。构建知识图谱的数据往往是多源异构数据,这使得知识融合面临着很多问题需要解决。本方案提出了以下两个主要问题的解决方案。1、网络情报的可信度计算及其计算效率问题;2、多源知识库融合的融合效率问题。对于第一个问题,本方案提出了基于RNN和变长时间序列的网络情报文本可信度计算,将帖子按照一定时间间隔进行分组,然后每组作为时间序列的一个单元进行训练。对于第二个问题,本方案提出了分区索引技术,在知识库对齐中建立索引是通过剪枝过滤掉知识库中不可能相似的实体对,使得相似的实体对尽量分配到一个或几个区块中成为候选对,最终的对齐处理只在这些候选对中进行,从而达到提高匹配效率的目的。本方案为了同时考虑到属性和关系对索引的分区的影响,将采用动态索引方法进行分区。经查阅专利文献我们发现,相关对比技术存在的缺陷如下:1、没有考虑从文本中如何融合知识,只考虑到两个知识库之间的融合,进而就没有考虑到信息源的可信度计算问题。本方案提出了从文本中提取知识并和知识库融合的方法和过程,并提出了高效的可信度计算算法,从而实现了知识库的增量式更新,这对于知识图谱的增量式构建具有根本性的意义。2、多源知识库融合,采用聚类的方法,当知识库容量比较大(千万级)时,时间消耗会十分巨大;而KNN聚类算法本身是跟知识库容量的平方成正比的,在实际使用中会十分低效。动态分区索引技术可以显著提升融合时实体匹配的效率。相关检索结果1:申请(专利)号:CN201910025114名称:知识融合方法、装置、计算机设备和存储介质摘要:本申请涉及知识图谱
,尤其涉及一种知识融合方法、装置、计算机设备和存储介质,包括:获取知识数据来源中的数个知识数据;抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;获取所述真实属性数据的属性值;将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较后进行融合。本申请实现了同一实体中多个属性的有效融合。技术要点比较:1.可信度计算方法:都提到了可信度计算。该专利所提及的可信度方法是和知识库中的实体进行比较,而我们提出的方法是直接根据信源中的上下文评论来计算信源的可信度。我们的方法更具客观性。因为知识库中先入的知识并不能被假定就更真实、准确,不宜作为参照标准。2.实体匹配的效率问题:该专利采用的是计算复杂度很高的Kmeans聚类方法,未考虑实际应用中的效率问题。如果是两个比较大的知识库融合,实体匹配将是很耗时的计算。我们提出的动态分区索引的方法会显著提升效率。相关检索结果2:申请(专利)号:CN201810443980名称:一种基于多源数据的知识融合方法摘要:本专利技术提出一种基于多源数据的知识融合方法,在融合多个来源的实体数据时,首先分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换,这样对属性的规范化处理可以减少对后续实体比较造成的影响;然后基于实体名和实体属性对实体进行分块聚合,这样仅将同一分块内不同来源的实体作为候选匹配实体对,避免了将两个数据源中所有的实体两两间比较,减少计算复杂度;最后将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,可以直接添加到知识库中。技术要点比较:1.情报文本与知识库的融合:该方法未提及信源的可信度计算问题,无法处理实体属性名称、实体属性值冲突的处理和选择问题。相关检索结果3:申请(专利)号:CN201710117723名称:商品领域的知识融合方法摘要:本专利技术提供了一种商品领域的知识融合方法,其中包括获取待处理的商品数据;采用Word2Vector方法将各个属性映射成具有多个维度的词向量;根据属性中属性值的词向量距离计算每两个属性之间的相似度;将相似度高于预设阈值的两个属性融合为同一类属性,得到属性融合后的商品数据集合。本专利技术提供了一种知识融合效果更好的知识融合方法,抓取了大量的商品数据进行训练,在对商品属性进行融合时,一方面大大减少了未登录词的出现,另一方面即使各别的属性值不存在,不会影响到该方法的运行,因此比传统的利用外部知识库的方法更加具有实用性;本方法不仅适用于电商领域的商品知识融合,也适用于其他领域的商品知识融合,从而提供基于知识的更好的服务。技术要点比较:1.情报文本与知识库的融合:该方法未提及信源的可信度计算问题,无法处理实体属性名称、实体属性值冲突的处理和选择问题。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种情报知识融合系统及方法。根据本专利技术提供的一种情报知识融合系统,包括:文本信息与知识库融合模块:将文本中抽取出来的知识融入到现有知识库中;知识库与知识库融合模块:将新知识库中的知识融入到现有知识库中。优选地,所述文本信息与知识库融合模块包括:指称语聚类及消歧模块:将文本中的同一实体的不同指代词进行聚类归一;实体关联知识库模块:将文本中实体名称连接到知识库中对应的实体;基于RNN的网络情报文本可信度分析模块:对来自于网络的情报文本的可信度进行分析计算,获得可信度分析结果;第一知识入库和更新模块:根据输出的可信度分析结果,如果可信度高于预设值,则认为值得入知识库,保存新的知识;否则,则认为和现有知识冲突,则需人工干预进行选择是保留现有知识库中的知识还是用新的知识更新现有知识。优选地,所述对来自于网络的情报文本的可信度进行分析计算指:对抽取的情报文本知识收集相关的网络媒体评论,并将评论转化为循环神经网络RNN输入单元进行神经网络建模并推理可信度。优选地,所述第一知识入库和更新模块:保存新的实体知识,或者用新实体知识更新现有实体知识;如果新实体知识是现有库里没有的实体知识,则保存入库并添加信息源;如果库里已有该实体知识,则将对应库里的实体没有的属性添加入库;如果该属性已存在于现有知识实体中,则根据可信度分析结果来选择新知识实体的属性和老知识实体中的属性。优选地,所述知识库与知识库融合模块包括:动态分区索引模块:通过剪枝过滤掉知识库中不可能相似的实体对,在知识库对齐中建立索引,采用动态索引方法使相似的实体对分配到一个或几个区块中成为候选对,最终的对齐处理在这些候选对中进行;基于结构相似性函数的特征匹配模块:计算属性之间的相本文档来自技高网
...

【技术保护点】
1.一种情报知识融合系统,其特征在于,包括:/n文本信息与知识库融合模块:将文本中抽取出来的知识融入到现有知识库中;/n知识库与知识库融合模块:将新知识库中的知识融入到现有知识库中。/n

【技术特征摘要】
1.一种情报知识融合系统,其特征在于,包括:
文本信息与知识库融合模块:将文本中抽取出来的知识融入到现有知识库中;
知识库与知识库融合模块:将新知识库中的知识融入到现有知识库中。


2.根据权利要求1所述的情报知识融合系统,其特征在于,所述文本信息与知识库融合模块包括:
指称语聚类及消歧模块:将文本中的同一实体的不同指代词进行聚类归一;
实体关联知识库模块:将文本中实体名称连接到知识库中对应的实体;
基于RNN的网络情报文本可信度分析模块:对来自于网络的情报文本的可信度进行分析计算,获得可信度分析结果;
第一知识入库和更新模块:根据输出的可信度分析结果,如果可信度高于预设值,则认为值得入知识库,保存新的知识;否则,则认为和现有知识冲突,则需人工干预进行选择是保留现有知识库中的知识还是用新的知识更新现有知识。


3.根据权利要求2所述的情报知识融合系统,其特征在于,所述对来自于网络的情报文本的可信度进行分析计算指:对抽取的情报文本知识收集相关的网络媒体评论,并将评论转化为循环神经网络RNN输入单元进行神经网络建模并推理可信度。


4.根据权利要求1所述的情报知识融合系统,其特征在于,所述第一知识入库和更新模块:保存新的实体知识,或者用新实体知识更新现有实体知识;如果新实体知识是现有库里没有的实体知识,则保存入库并添加信息源;如果库里已有该实体知识,则将对应库里的实体没有的属性添加入库;如果该属性已存在于现有知识实体中,则根据可信度分析结果来选择新知识实体的属性和老知识实体中的属性。


5.根据权利要求1所述的情报知识融合系统,其特征在于,所述知识库与知识库融合模块包括:
动态分区索引模块:通过剪枝过滤掉知识库中不可能相似的实体对,在知识库对齐中建立索引,采用动态索引方法使相似的实体对分配到一个或几个区块中成为候选对,最终的对齐处理在这些候选对中进行;
基于结构相似性函数的特征匹配模块:计算属性之间的相似评分,即用实体对共同邻居集合的交集与并集的比值衡量实体对之间的相似度,获得属性相似评分;
跨知识库的实体对齐子模块:将实体对齐问题看作是根据属性相似评分判断待匹配实体对是否匹配的分类问题,若属性相似评分高于预设值,则认为是同一实体,此时实体对齐并进行知识融合;
第二知识入库和更新模块:保存新的实体知识,或者用新实体知识更新现有实体知识。


6.根据权利要求5所述的情报知识融合系统,其特征在于,所述第二知识入库和更新模块:如果新实体知识是现有库里没有的实体知识,则保存入库并添加信息源;如果库里已有该实体知识,则将对应库里的实体没有的属性添加入库;如果该属性已存在于现有知识实体中,则根...

【专利技术属性】
技术研发人员:李德启谢彬吴剑涛姜鑫牛硕硕刘太林邱定
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1