【技术实现步骤摘要】
面向在线百科的知识库自动更新方法及系统
本专利技术涉及网络知识库,尤其涉及网络知识库自动更新方法及系统。
技术介绍
知识库通常包含一组概念、实例和关系的集合,是结构化、全面有组织的知识集群,是采用某种知识表示方式组织、管理和使用的互相联系的知识集合。这些知识包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。在知识工程领域中,知识描述的要素一般包括概念、实例、关系和属性四个要素。近年来,构建知识库是国内外工业界开发和学术界研究的一个热点,目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库有DBpedia、YAGO、Probase、WikiTaxonomy、Freebase、Omega等。知识库之所以得到广泛关注,原因在于知识库在很多应用中起到至关重要的作用,如在搜索引擎中,Google、Bing、百度、搜狗等使用知识库帮助理解用户查询、感知用户查询意图、进行查询扩展和查询问答等;在DeepWeb资源发现中,知识库可以辅助进行DeepWeb查询选择; ...
【技术保护点】
一种面向在线百科的知识库自动更新的方法,该方法包括:步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;步骤3,基于所识别的知识来更新知识库。
【技术特征摘要】
1.一种面向在线百科的知识库自动更新的方法,该方法包括:步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;步骤3,基于所识别的知识来更新知识库;其中,所述知识语料来源包括定期备份的知识语料库,所述步骤1包括:从该知识语料库的源网站获取新的语料库备份和语料库修改历史;对于所获取的新的语料库备份中的每个知识语料,获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间,如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间,则确定该知识语料是新增的知识语料;如果所述第一次出现的时间小于或等于知识库当前使用的知识语料库备份的时间,并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间,则确定该知识语料是内容改变的知识语料。2.根据权利要求1所述的方法,在所述步骤1中,所述知识语料来源还包括通过网络搜索采集的知识语料的集合,所述步骤1包括:基于知识库当前使用的知识语料集合中各知识语料对应URL发送HTTP请求;从对该HTTP请求的响应的头部信息中提取该知识语料的页面内容最后一次发生变化的时间;如果所述最后一次发生变化的时间大于知识库当前所使用的该知识语料页面上次更新的时间,则确定该知识语料是内容改变的知识语料;对所确定的内容改变的知识语料的页面内容进行分析,若发现当前的知识语料集合中不存在的URL,则该URL对应的知识语料是新增的知识语料。3.根据权利要求1所述的方法,所述步骤3包括:对于从新增的知识语料中识别的实例,则根据该实例所属的概念判断知识库中是否存在与之对应的概念;若存在,则将该实例,添加到知识库对应的概念下;若不存在,则在知识库中创建一个新的概念,并将该实例添加到该概念下;对于从内容改变的知识语料中识别的实例信息,则利用该实例信息替换知识库中对应的实例的信息。4.根据权利要求1所述的方法,所述步骤3中对于所识别的每个实例执行下列步骤:步骤31)判断知识库中是否存在与该实例名称且所属概念相同的实例,如果存在,则该实例的信息添加到该知识库中对应实例中;如果不存在,则执行步骤32);步骤32)从知识库中选出与该实例名称相同但所属概念不同的实例,计算每个所选出的实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到...
【专利技术属性】
技术研发人员:程学旗,王元卓,林海伦,贾岩涛,熊锦华,许洪波,冯凯,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。